近日,南方科技大學(xué)生物醫(yī)學(xué)工程系李依明課題組在高效單分子定位顯微方法研究中取得突破。相關(guān)成果以題為《Scalable and lightweight deep learning for efficient high accuracy single-molecule localization microscopy》的論文,發(fā)表于國際權(quán)威期刊《Nature Communications》。
單分子定位顯微鏡(single-molecule localization microscopy,SMLM)作為三大主流超分辨成像技術(shù)之一,因其兼具超高空間分辨率與分子特異性,在顯微成像領(lǐng)域擁有獨特的優(yōu)勢。近年來,深度學(xué)習(xí)方法的引入顯著提升了SMLM在低信噪比與高分子密度條件下的定位表現(xiàn)。目前,以高內(nèi)涵篩選(high-content screening)為目標(biāo)的高通量超分辨成像技術(shù)已成為SMLM發(fā)展的主要方向,F(xiàn)有深度學(xué)習(xí)網(wǎng)絡(luò)因其模型復(fù)雜度高,在高通量成像場景中普遍存在處理延時長、資源消耗大等問題,嚴重制約了其在實際應(yīng)用中的部署[1]。雖然已有一些模型壓縮技術(shù)可降低網(wǎng)絡(luò)復(fù)雜度,但往往以犧牲定位精度為代價,難以滿足SMLM對高精度定位的需求。
重要發(fā)現(xiàn)
為解決上述問題,研究團隊提出了LiteLoc—一種結(jié)合輕量化深度學(xué)習(xí)網(wǎng)絡(luò)與可擴展競爭式并行數(shù)據(jù)分析策略的高效框架。該框架集成了由粗、細特征提取器組成的輕量化深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),并通過GPU集群并行分析實現(xiàn)性能最大化。在8張RTX 4090顯卡上,LiteLoc實現(xiàn)了超過560 MB/s的數(shù)據(jù)吞吐量,能夠?qū)崟r處理現(xiàn)代sCMOS相機采集的高通量超分辨成像數(shù)據(jù)。本研究為基于深度學(xué)習(xí)的SMLM設(shè)立了一個兼顧定位精度與計算效率的新基準(zhǔn),為生命科學(xué)領(lǐng)域的高效、可擴展成像工作流程提供了高效的解決方案。
通常傳統(tǒng)圖像中的目標(biāo)特征分布在整張圖像的不同區(qū)域;相比之下,單分子定位數(shù)據(jù)可被分解為大量時空分離的模塊,每個模塊僅包含局部熒光分子的相關(guān)信息,彼此之間相互獨立(如圖1a所示)。然而,現(xiàn)有基于深度學(xué)習(xí)的單分子數(shù)據(jù)分析軟件多采用串行處理模式,數(shù)據(jù)分析流程中CPU和GPU資源未被充分利用。LiteLoc提出的并行分析框架可以最大限度地利用硬件計算資源,將整個數(shù)據(jù)分析流程模塊化為數(shù)據(jù)讀取/預(yù)處理、網(wǎng)絡(luò)推理、后處理/寫入三個階段,并通過優(yōu)化不同階段的并行處理機制,允許多張顯卡以競爭式方式同時讀取與分析處理數(shù)據(jù)。最終數(shù)據(jù)分析總耗時與子進程推理幾乎一致(如圖1b所示)。
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)通常通過堆疊多個卷積層來提取多尺度特征。為實現(xiàn)更高效率,空洞卷積[2]因其在維持參數(shù)與計算量不變的同時能擴展感受野而受到關(guān)注。LiteLoc的輕量化深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)由兩部分組成:一是由空洞系數(shù)遞增的空洞卷積組構(gòu)成的粗特征提取器,二是由簡化版U-Net[3]構(gòu)成的細特征提取器(如圖1c所示)。該結(jié)構(gòu)通過增大感受野、增強特征復(fù)用效率與融合多尺度信息,有效地將模型復(fù)雜度降低了一個數(shù)量級(如圖2a所示)。與此同時,LiteLoc在定位精度上與當(dāng)前最優(yōu)算法DECODE[4]相當(dāng)甚至更優(yōu)(如圖2c-f所示)。并且,和傳統(tǒng)的像素到像素的預(yù)測方式不同,LiteLoc采用的是結(jié)構(gòu)化預(yù)測,直接面向單分子特征進行建模與定位,能夠在原始像素分辨率的基礎(chǔ)上達到超過像素尺寸十分之一的精度。結(jié)合GPU集群并行分析框架,LiteLoc實現(xiàn)了567.6 MB/s的總分析速度,超過常規(guī)SATA SSD的讀取上限(500 MB/s)。
為評估LiteLoc的定位性能,研究團隊分別對基于散光點擴散函數(shù)(point spread function,PSF)和6 µm DMO-Tetrapod PSF對標(biāo)準(zhǔn)結(jié)構(gòu)U2OS細胞中核孔蛋白Nup96的成像數(shù)據(jù)進行了分析和重建(如圖3所示)。研究[5]表明,Nup96雙層環(huán)結(jié)構(gòu)的平均直徑約為107 nm,雙層環(huán)間的平均距離約為50 nm。在散光PSF成像中,LiteLoc與主流定位算法DeepSTORM3D、DECODE均可在x-y平面中重構(gòu)出核孔的環(huán)狀結(jié)構(gòu)(如圖3b所示),并在x-z平面準(zhǔn)確解析出靠近蓋玻片的雙層環(huán)結(jié)構(gòu)(如圖3c所示)。在6 µm DMO-Tetrapod PSF實驗中,三種算法均能大致還原細胞上下表面的核孔蛋白分布(如圖3e所示)。
然而,由于單個分子的光子分布范圍更大、原始顯微圖像信噪比較低,DeepSTORM3D預(yù)測的定位點較為分散,數(shù)量也相對較少(如圖3d所示);而DECODE重構(gòu)的超分辨圖像中出現(xiàn)了明顯的網(wǎng)格狀偽影。相比之下,LiteLoc重構(gòu)圖像未出現(xiàn)此類偽影(如圖3i所示),顯示出LiteLoc具有更高的定位準(zhǔn)確度。在分析速度方面,在相同硬件條件下,LiteLoc的分析耗時僅為DECODE的28.8%、DeepSTORM3D的1.5%,顯著提升了單分子數(shù)據(jù)的處理效率;在GPU集群的情況下,LiteLoc的分析速度可以達到DeepSTORM3D的500倍、DECODE的20倍。
在相對高密度條件下的基于散光PSF的微管成像實驗中,DeepSTORM3D的重建結(jié)果同樣會出現(xiàn)網(wǎng)格偽影(如圖4所示)。其原因在于DeepSTORM3D采用二值化的上采樣體素進行預(yù)測,使定位精度受到體素大小的限制。相比之下,LiteLoc和DECODE網(wǎng)絡(luò)均可預(yù)測亞像素級偏移量。然而,DECODE往往將高不確定性的預(yù)測偏向像素中心,從而在重建中產(chǎn)生網(wǎng)格偽影。LiteLoc則通過密集連接提升定位置信度,并且空洞卷積引入了稀疏的像素級計算,有助于緩解中心偏置問題并減少偽影。此外,常規(guī)的深度學(xué)習(xí)SMLM軟件支持的PSF建模方式有限,而在實際成像中研究者往往需根據(jù)具體成像需求選擇不同建模方式。樣條插值PSF[6]較為簡單,適用于空間不變PSF建模;而矢量PSF[7]考慮多種光學(xué)參數(shù),如波長、折射率與數(shù)值孔徑,更適合用于包含深度與視場依賴像差的場景。LiteLoc同時支持兩種PSF建模方式用于訓(xùn)練。
總結(jié)與展望
綜上所述,研究團隊提出了一套面向高通量SMLM的輕量化深度學(xué)習(xí)可擴展并行分析框架。該方法在保證高定位精度的前提下,將網(wǎng)絡(luò)推理速度提升三倍以上,顯著緩解了PSF復(fù)雜性、結(jié)構(gòu)化數(shù)據(jù)偽影和成像條件多樣性帶來的挑戰(zhàn),適用于不同生物樣本的超分辨成像任務(wù)。其在8張RTX 4090 GPU上的總處理速度超過560 MB/s,具備實時處理能力,未來有望應(yīng)用于閉環(huán)成像系統(tǒng)與在線質(zhì)量控制。此外,LiteLoc對計算資源的需求較低,便于集成至標(biāo)準(zhǔn)SMLM分析流程,并與聚類、追蹤或結(jié)構(gòu)重建等下游模塊結(jié)合,實現(xiàn)高效一體化的超分辨數(shù)據(jù)處理流程。該框架及源碼已在GitHub開源:https://github.com/Li-Lab-SUSTech/LiteLoc。
南方科技大學(xué)生物醫(yī)學(xué)工程系的李依明副教授為該論文的通訊作者,2025屆碩士生費悅、博后傅爽以及石偉為論文的共同一作,南方科技大學(xué)為第一通訊單位。該項目得到了國家重點研發(fā)計劃、深圳市醫(yī)學(xué)研究專項資金、國家自然科學(xué)基金委員會和南方科技大學(xué)校長卓越博士后資金等科研項目的支持。