測試設(shè)置
在實(shí)驗(yàn)測試中,我們基于真實(shí)精液樣本圖像進(jìn)行模擬。本研究使用的精液樣本由我們?yōu)橄惹把芯俊?、4」采集,并已公開發(fā)布于「35」。樣本圖像由賓夕法尼亞生育中心的體外受精實(shí)驗(yàn)室提供。每個(gè)樣本在室溫下液化30-40分鐘后,用培養(yǎng)液進(jìn)行清洗。清洗后的精液樣本被移液至20微米深的Vitrolife MicroCell培養(yǎng)腔室進(jìn)行數(shù)據(jù)采集。關(guān)于樣本制備流程的詳細(xì)說明,請參閱Urbano等人的研究「3、4」。
我們從真實(shí)圖像中提取的參數(shù)包括:圖像背景 BL、噪聲方差σ2N、精子頭部尺寸、圖像中細(xì)胞 數(shù)量N靜止細(xì)胞數(shù)量N
測試
我們對模擬實(shí)驗(yàn)的兩個(gè)應(yīng)用場景進(jìn)行了探索。首先,我們測試了五種精子細(xì)胞檢測算法并評估了其性能表現(xiàn)。這些細(xì)胞檢測算法包含兩大核心模塊:分割與定位「39」。其中分割模塊負(fù)責(zé)將圖像中含精子細(xì)胞的區(qū)域從整體分離,定位模塊則對分割區(qū)域內(nèi)的精子細(xì)胞進(jìn)行精確定位。
評估指標(biāo)包括*優(yōu)子模式分配(OSPA)距離(c= 20, 1 = 2)「44」、精確率和召回率「45」。OSPA距離是一種量化指標(biāo),用于衡量真實(shí)值與檢測結(jié)果之間的距離誤差及數(shù)量差異(即真實(shí)值與檢測值的數(shù)量差)。
精確率是指真陽性(正確匹配)數(shù)量占總檢測數(shù)的比例,召回率則是真陽性數(shù)量占真實(shí)值總數(shù)的比例。理想情況下,OSPA距離值應(yīng)趨近于0,而精確率和召回率則應(yīng)接近1。通過人工標(biāo)記精子的位置,可以計(jì)算出真實(shí)樣本中的OSPA distance、精度和召回率。
其次,我們測試了四種精子追蹤算法(最近鄰(NN)、全局最近鄰(GNN)、概率數(shù)據(jù)關(guān)聯(lián)過濾 器(PDAF)和聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)過濾器(JPDAF))「46」。
追蹤算法的核心目標(biāo)是實(shí)時(shí)監(jiān)測精子細(xì)胞的運(yùn)動(dòng)軌跡。通過計(jì)算軌跡數(shù)據(jù),系統(tǒng)可生成描述精液樣本中精子活動(dòng)能力的關(guān)鍵參數(shù)(如活動(dòng)精子比例、精子移動(dòng)速度等)。評估算法性能時(shí),采用多目標(biāo)追蹤精度(MOTP)和多目標(biāo)追蹤準(zhǔn)確度(MOTA)作為指標(biāo),其中截?cái)嗑嚯x設(shè)定為5像素「47像素」。MO-TP通過累加匹配基準(zhǔn)軌跡truth__與檢測軌跡之間的距離得出,而MOTA則量化了誤報(bào)(FP)、漏檢(MME)和軌跡不匹配的綜合誤差,其計(jì)算公式為MOTA =-(FP++M+MME) 。
理想情況下,MOTP值應(yīng)趨近于零,MOTA值為1(即FP=M=MME=)。具體評估指標(biāo)的詳細(xì)說明請參閱補(bǔ)充文件 [見補(bǔ)充文件1]。
應(yīng)用該模擬技術(shù)評估分割、定位和跟蹤。真實(shí)精液
研究人員使用五種不同的檢測算法(包括分割和定位)對圖像及其模擬圖像進(jìn)行了測試。具體算法如下:
1.(Otsu)使用Otsu閾值法對圖像進(jìn)行二值化,隨后進(jìn)行形態(tài)學(xué)增強(qiáng)(閉運(yùn)算、膨脹和腐蝕)「48」。
2. 使用Bradley「49」的自適應(yīng)閾值法對圖像進(jìn)行(自適應(yīng))二值化,將靈敏度定義為「0.8」,然后進(jìn)行形態(tài)學(xué)增強(qiáng)(閉運(yùn)算、膨脹和腐蝕)。
3.(斑點(diǎn)增強(qiáng))使用大津閾值法對斑點(diǎn)增強(qiáng)圖像進(jìn)行二值化處理,隨后進(jìn)行形態(tài)學(xué)增強(qiáng)(閉運(yùn)算、膨脹和腐蝕)(方法由Urbano等人「3」提出)。
4.(邊緣檢測)使用Sobel算子(改進(jìn)自Abbiramy和Shanthi(2010)提出的算法「5」)對中值濾波后的圖像進(jìn)行邊緣檢測,隨后進(jìn)行形態(tài)學(xué)增強(qiáng)處理(膨脹、閉運(yùn)算和腐蝕)。
5. (GMM)使用高斯混合模型(GMM)的運(yùn)動(dòng)檢測算法,將訓(xùn)練幀數(shù)設(shè)置為20 ,混合模型中的高斯模式數(shù)量設(shè)置為3,學(xué)習(xí)率設(shè)置為0.005,背景比例設(shè)置為0.7「50」,隨后進(jìn)行形態(tài)學(xué)增強(qiáng)(閉運(yùn)算、膨脹和腐蝕)。
我們基于真實(shí)人體樣本(樣本1)的參數(shù)生成了20組不同模擬圖像用于測試,圖像幀尺寸設(shè)定為 250×250像素。在模擬圖像中,靜止細(xì)胞被建模為不動(dòng)狀態(tài),而移動(dòng)細(xì)胞(數(shù)量C-ND)則分為線性勻速游動(dòng)(50%)和圓形游動(dòng)(50%)兩種類型。算法在真實(shí)圖像和模擬圖像上均進(jìn)行了測試。針對每組圖像(真實(shí)與模擬),我們添加了方差范圍0-1225的零均值高斯噪聲(灰度圖像標(biāo)準(zhǔn)差為35)。圖18展示了真實(shí)與模擬圖像在不同噪聲水平下的OSPA距離、精確率和召回率對比結(jié)果。
圖中顯示,自適應(yīng)算法在低噪聲水平(噪聲方差約低于600)下在OSPA(與真實(shí)值的最小距離)方面表現(xiàn)*佳,其次是斑點(diǎn)增強(qiáng)算法、邊緣檢測算法、GMM算法和大津算法(圖18a,b)。
在精度表現(xiàn)方面,當(dāng)噪聲水平分別超過100和300的方差閾值時(shí),大津算法和斑點(diǎn)增強(qiáng)算法會(huì)出現(xiàn) 明顯的性能下降。自適應(yīng)算法和邊緣檢測算法的精度同樣會(huì)隨著噪聲水平升高而降低,其中邊緣檢測算法在高噪聲環(huán)境(約超過600噪聲方差閾值)下展現(xiàn)出比自適應(yīng)算法更強(qiáng)的抗干擾能力。而高斯混合模型算法則展現(xiàn)出*強(qiáng)的抗干擾能力,其精度表現(xiàn)幾乎未受影響(誤報(bào)率極低)。
在噪聲恢復(fù)性能方面,自適應(yīng)算法、局部增強(qiáng)算法和邊緣檢測算法在噪聲方差0-1225范圍內(nèi)表現(xiàn)基本持平。而大津算法和高斯混合模型(GMM)則隨著噪聲水平升高出現(xiàn)性能衰減:大津算法在噪聲方差達(dá)到100時(shí)性能驟降,GMM算法在噪聲方差0-1225范圍內(nèi)則呈現(xiàn)漸進(jìn)式性能下降。
五種不同算法在真實(shí)樣本圖像及其模擬圖像上的OSPA距離、精度和召回率均呈現(xiàn)相似趨勢。總體 而言, 自適應(yīng)算法在低噪聲水平(低于600噪聲方差)時(shí)表現(xiàn)*佳,邊緣檢測算法則在高噪聲水平(超過600噪聲方差)時(shí)表現(xiàn)*優(yōu)。大津算法表現(xiàn)最差。斑點(diǎn)增強(qiáng)算法在低噪聲環(huán)境下表現(xiàn)良好,但當(dāng)噪聲水平超過300噪聲方差時(shí)便失效。高斯混合模型算法在精度方面表現(xiàn)*佳,但在OSPA距離和召回率指標(biāo)上表現(xiàn)欠佳。另一真實(shí)人體樣本(樣本2)的補(bǔ)充結(jié)果詳見附加文件[參見附加文件1]。
應(yīng)用仿真評估跟蹤性能。四種跟蹤算法(NN 、GNN 、PDAF和(JPDAF)在模擬圖像上進(jìn)行了測試。跟蹤算法的代碼由萊昂納多·烏爾巴諾編寫,可在烏爾巴諾等人的「51」中獲取。每個(gè)跟蹤算法的輸出結(jié)果是精液圖像中所有檢測到細(xì)胞的軌跡信息。
我們評估了NN、GNN、PDAF和JPDAF算法在不同細(xì)胞數(shù)量下的性能表現(xiàn)。
每個(gè)模擬圖像包含20、40、100或200個(gè)細(xì)胞。每個(gè)圖像中的每個(gè)細(xì)胞都被分配到一種游動(dòng)類型 中。using equalprobabilities: linear mean swim, circular swim, hyperactive swim,視頻幀尺 寸為500×500像素,幀率設(shè)定為15幀/秒,每幀圖像選取10秒用于追蹤分析。針對不同數(shù)量的細(xì)胞樣本,共生成20種不同場景,總計(jì)100幀圖像。背景亮度設(shè)置為204(255級的80%),且視頻圖像未添加任何噪聲。

圖18
圖18.不同水平加性高斯噪聲(a、c、e)下樣本1的OSPA距離、精度和召回率,真實(shí)數(shù)據(jù)(b、d、f)與仿真結(jié)果對比。
生成圖像所用的仿真參數(shù)如表6所示。仿真提供了每張圖像的真實(shí)軌跡,并與通過NN、GNN、PD-AF和JPDAF算法計(jì)算出的估計(jì)軌跡進(jìn)行了比較。
表7展示了不同圖像類型(細(xì)胞數(shù)量分別為20、40、100和200個(gè))下20種場景的平均多目標(biāo)跟蹤精度(MOTP)、誤檢率(FP)、漏檢率(M)、多目標(biāo)錯(cuò)誤匹配率(MME)及多目標(biāo)平均精度(MOTA)等指標(biāo)。研究發(fā)現(xiàn),四種多目標(biāo)追蹤算法的MOTP值基本保持穩(wěn)定,不受圖像中細(xì)胞數(shù)量變化的影響。但隨著細(xì)胞數(shù)量的增加,多目標(biāo)精度(MOTA)呈現(xiàn)下降趨勢,同時(shí)誤檢率(FP)、漏檢率(M)和錯(cuò)誤匹配率(MME)則相應(yīng)上升。
在大規(guī)模細(xì)胞追蹤任務(wù)中,圖神經(jīng)網(wǎng)絡(luò)(GNN)和JPDAF算法的平均目標(biāo)精度(MOTA)表現(xiàn)優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(NN)和PDAF跟蹤算法。這種差異的主要成因在于誤報(bào)率(FP)。通過對比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在所有測試場景(20、40、100及200個(gè)細(xì)胞)中,PDAF算法的MOTA值均低于NN算法。

表6.跟蹤評估使用的模擬參數(shù)

表7.NN 、GNN 、PDAF和JPDAF算法在不同數(shù)量的小區(qū)上的跟蹤性能。
在MOTA指標(biāo)上,GNN和JDPAF跟蹤算法表現(xiàn)相近?傮w而言,GNN和JPDAF算法表現(xiàn)*佳,其次是 NN算法,而PDAF跟蹤算法則表現(xiàn)最差。
結(jié)論
我們構(gòu)建了一個(gè)二維(俯視)視角的精子細(xì)胞模型,并通過觀察真實(shí)人類精子的游動(dòng)軌跡,生成了四種不同的游動(dòng)模式。該模擬系統(tǒng)為系統(tǒng)研究和比較不同精液圖像處理算法提供了可能,包括分割、定位和追蹤算法。在實(shí)驗(yàn)中,我們測試了五種不同的分割與定位算法,并利用模擬結(jié)果對算法性能進(jìn)行排序,其排序結(jié)果與使用真實(shí)圖像的排序結(jié)果高度相似。此外,我們通過運(yùn)動(dòng)學(xué)指標(biāo)(MOT)對四種不同追蹤算法(神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)、PDAF和JPDAF)在模擬圖像上的表現(xiàn)進(jìn)行對比,并根據(jù)其性能進(jìn)行了排序。
本文提出的模擬模型與軟件系統(tǒng),為開發(fā)優(yōu)化CASA(計(jì)算機(jī)輔助精液分析)系統(tǒng)及算法提供了全 新利器。借助這一創(chuàng)新工具,我們能夠構(gòu)建更強(qiáng)大、更穩(wěn)定的CASA系統(tǒng)。相較于傳統(tǒng)人工精液采集與分析,這種系統(tǒng)堪稱理想替代方案。具體而言,臨床醫(yī)生可生成并展示多種精液樣本的模擬圖像供學(xué)生和技術(shù)人員觀摩——整個(gè)過程無需人工采集、處理和記錄精液樣本圖像。通過將技術(shù)人員的實(shí)際分析結(jié)果與模擬系統(tǒng)的基準(zhǔn)數(shù)據(jù)進(jìn)行比對,這套系統(tǒng)還能有效提升操作人員的專業(yè)技能。
數(shù)據(jù)可用性

