近年來,DNA因其高密度、低能耗、長壽命等特性,成為極具潛力的下一代數(shù)據(jù)存儲介質。然而,DNA在測序過程中易產(chǎn)生替換、插入、缺失等錯誤,嚴重影響數(shù)據(jù)解碼的準確性與完整性。
近日,南方科技大學蔣興宇團隊在 《ACS Nano》 上發(fā)表題為《Integrated Error Correction to Enhance Efficiency of Digital Data Storage Based on DNA Nanostructures》的研究,提出了一種集成糾錯算法IEC,顯著提升了DNA數(shù)據(jù)存儲的效率和可靠性。

IEC算法三大核心機制
1、 “頭-尾”區(qū)域Levenshtein距離聚類
傳統(tǒng)Levenshtein距離計算復雜度高,不適用于海量DNA序列。IEC僅提取序列的頭部和尾部區(qū)域進行相似度計算,將復雜度從 O(m2)(m 為全序列長度)降至 O(n2)(n 為頭尾區(qū)間長度),聚類速度提升10倍,且對頭尾錯誤具備強容錯能力。

2、基于Sliding Window-Optimized的Hamming距離糾錯
傳統(tǒng)Hamming距離要求序列等長,IEC引入滑動窗口機制,實現(xiàn)對變長序列的插入、缺失、替換錯誤檢測與校正。

3、Score-weighted Majority Voting剔除“噪音序列”
在聚類與糾錯后,IEC采用分數(shù)加權的majority voting機制,進一步提升序列選擇的準確性。相比傳統(tǒng)majority voting,缺失序列率降低約2%,覆蓋率和準確率也更高。

實驗驗證:
團隊以醫(yī)療影像數(shù)據(jù)(MRI 圖像,122KB) 為存儲對象,通過 Twist Bioscience 合成 DNA oligo pool,經(jīng)多輪PCR 擴增(模擬長期使用中的序列退化),全面驗證IEC的實用性。
1、研究中使用的DNA oligo pool通過杭州沃森生物訂購,包含4468條DNA序列,每條長度200 nt,結構如下:
2、合成后的DNA經(jīng)過多輪連續(xù)PCR擴增,模擬多次讀取中錯誤的累積效應。
擴增產(chǎn)物經(jīng)瓊脂糖凝膠電泳驗證后,在Illumina平臺上進行150 bp雙端測序。發(fā)現(xiàn)IEC處理后前4輪均能成功解碼,5輪后仍能保持80%以上,序列效率也顯著提高,待解碼序列數(shù)畢傳統(tǒng)DNA Fountain方法減少0.5%-29.89%,數(shù)據(jù)量縮小3個數(shù)量級。

IEC算法通過三重糾錯機制協(xié)同工作,在不依賴高冗余編碼的前提下,實現(xiàn)了對DNA存儲中常見錯誤的高效校正。其低冗余、高密度、強糾錯的特性,適用于醫(yī)療數(shù)據(jù)、個性化醫(yī)療、大數(shù)據(jù)存儲等場景。
代碼已開源:
https://github.com/lasso-sustech/IEC_Codes/tree/reponse
參考文獻:
Mao, C. et al. ACS Nano 2025. DOI: 10.1021/acsnano.5c08183