中國(guó)科學(xué)家通過(guò)群體DNA甲基化多態(tài)性分析揭示表觀遺傳育種中的潛力
瀏覽次數(shù):662 發(fā)布日期:2025-9-4
來(lái)源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
近日,浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院方磊教授和張?zhí)煺娼淌?/strong>、中國(guó)農(nóng)業(yè)科學(xué)院生物技術(shù)研究所谷曉峰研究員、阿里巴巴達(dá)摩院(湖畔實(shí)驗(yàn)室)顧斐博士團(tuán)隊(duì)合作,通過(guò)對(duì)207份棉花材料開花后20天(DPA)纖維進(jìn)行單堿基DNA甲基化測(cè)序(WGBS)、轉(zhuǎn)錄組測(cè)序(RNA-seq)和全基因組測(cè)序(WGS),利用GWAS、eQTL、EWAS、eQTM、深度學(xué)習(xí)模型DeepFDML等算法,將群體遺傳學(xué)的經(jīng)典框架擴(kuò)展到表觀遺傳學(xué)領(lǐng)域。研究揭示了DNA甲基化多態(tài)性(SMPs)與基因表達(dá)和纖維性狀的關(guān)聯(lián),并證明了DNA甲基化數(shù)據(jù)在作物育種中的重要應(yīng)用價(jià)值。相關(guān)研究成果以“Population-wide DNA Methylation Polymorphisms at Single-nucleotide Resolution in 207 Cotton Accessions Reveal Epigenomic Contributions to Complex Traits”為題發(fā)表在國(guó)際學(xué)術(shù)期刊《Cell Research》。

標(biāo)題:Population-wide DNA Methylation Polymorphisms at Single-nucleotide Resolution in 207 Cotton Accessions Reveal Epigenomic Contributions to Complex Traits(207份棉花的群體DNA甲基化多態(tài)性揭示了表觀基因組對(duì)復(fù)雜性狀的貢獻(xiàn))
發(fā)表時(shí)間:2024年10月17日
發(fā)表期刊:Cell Research
影響因子:IF 25.9/Q1
作者單位:浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院
組學(xué)技術(shù):WGBS、RNA-seq、WGS(易基因金牌技術(shù))
分析算法: eQTL、eQTM、DeepFDML等
DOI: 10.1038/s41422-024-01027-x
DNA甲基化在作物發(fā)育中發(fā)揮多種調(diào)控作用,但自然作物群體甲基化多態(tài)性與遺傳多態(tài)性、基因表達(dá)和表型變異之間的關(guān)系仍不清楚。本研究對(duì)207份棉花材料開花后20天(DPA)纖維的單堿基DNA甲基化組(methylomes)、轉(zhuǎn)錄組(transcriptomes)和基因組(genomes)進(jìn)行了整合分析,并將群體遺傳學(xué)的經(jīng)典框架擴(kuò)展到表觀遺傳學(xué)領(lǐng)域。研究共鑒定出超過(guò)2.87億個(gè)單甲基化多態(tài)性(SMPs),這一數(shù)量是單核苷酸多態(tài)性(SNPs)的100倍。這些SMPs顯著富集在基因內(nèi)區(qū)域,而在轉(zhuǎn)座元件中則相對(duì)缺失。關(guān)聯(lián)分析進(jìn)一步鑒定出總計(jì)5,426,782個(gè)順式甲基化數(shù)量性狀位點(diǎn)(cis-meQTLs)、5,078個(gè)順式表達(dá)數(shù)量性狀甲基化(cis-eQTMs)和9,157個(gè)表達(dá)數(shù)量性狀位點(diǎn)(eQTLs)。其中36.39%的順式eQTM基因與遺傳變異無(wú)關(guān),表明許多與基因表達(dá)變異相關(guān)的SMPs不依賴于SNPs。
在與產(chǎn)量和纖維品質(zhì)性狀相關(guān)的1,715個(gè)表觀遺傳位點(diǎn)中,僅有36個(gè)(2.10%)與全基因組關(guān)聯(lián)研究(GWAS)位點(diǎn)一致。多組學(xué)調(diào)控網(wǎng)絡(luò)的構(gòu)建揭示了可能43個(gè)參與纖維發(fā)育的cis-eQTMs基因,這些基因無(wú)法僅靠GWAS分析鑒定。在這些基因中,通過(guò)基因編輯成功驗(yàn)證了編碼CBL互作蛋白激酶10的基因在纖維長(zhǎng)度調(diào)控中的作用?傊狙芯拷Y(jié)果表明,DNA甲基化數(shù)據(jù)可以作為育種的額外資源,并為加強(qiáng)和加速作物改良進(jìn)程提供機(jī)會(huì)。
研究方法
- 植物材料:選取207份棉花材料,在開花后20天(20-DPA)時(shí)采集纖維樣本,這一時(shí)期是纖維發(fā)育的關(guān)鍵階段,特別是在次生細(xì)胞壁加厚過(guò)程中。
- 組學(xué)測(cè)序:采集20-DPA纖維樣本進(jìn)行WGBS、RNA-seq和WGS。WGBS計(jì)算甲基化水平和SMPs注釋。
- eQTM分析:使用fastQTL軟件進(jìn)行eQTM分析,研究DNA甲基化變異與基因表達(dá)的關(guān)系。
- cis-meQTLs分析:使用fastQTL軟件進(jìn)行cis-meQTLs分析,研究遺傳變異與DNA甲基化的關(guān)系。
- eQTLs分析:通過(guò)連鎖不平衡(LD)分析減少meQTLs的冗余性,并將關(guān)聯(lián)SNPs合并為一個(gè)meQTL。最終鑒定出的meQTLs進(jìn)一步分類為cis-eQTLs和trans-eQTLs。
- EWAS分析:鑒定與纖維性狀相關(guān)的表觀遺傳位點(diǎn)。
- 植物材料、載體構(gòu)建與遺傳轉(zhuǎn)化:使用CRISPR-Cas9技術(shù)進(jìn)行基因編輯,驗(yàn)證關(guān)鍵基因的功能。
- 表型預(yù)測(cè):使用G2Pdeep和GBLUP方法進(jìn)行表型預(yù)測(cè),評(píng)估模型性能。
- 基于深度學(xué)習(xí)的功能性CG甲基化位點(diǎn)預(yù)測(cè):開發(fā)DeepFDML模型,基于DNA序列預(yù)測(cè)功能性CG甲基化位點(diǎn)。
結(jié)果圖形
(1)DNA甲基化變異圖譜的構(gòu)建與表征
研究人員對(duì)207份核心種質(zhì)陸地棉群體(CUCP1)的20天開花后(20-DPA)的纖維進(jìn)行了全基因組亞硫酸鹽測(cè)序(WGBS)和轉(zhuǎn)錄組測(cè)序(RNA-seq),以構(gòu)建單堿基DNA甲基化變異圖譜。所有樣本的甲基化組數(shù)據(jù)均比對(duì)到棉花參考基因組TM-1 v2.1,平均比對(duì)率為74.90%±3.55%。每個(gè)測(cè)序的甲基化組平均覆蓋深度>15X。經(jīng)過(guò)嚴(yán)格的數(shù)據(jù)處理和質(zhì)控,研究人員在CG、CHG和CHH三種甲基化背景下分別定量了62.32M、66.06M和4.3301M甲基化胞嘧啶。
棉花基因組的DNA甲基化水平較高,尤其是在異染色質(zhì)區(qū)域。全基因組范圍內(nèi),CG、CHG和CHH位點(diǎn)的DNA甲基化水平分別為72%、55%和11%。研究還發(fā)現(xiàn),DNA甲基化變異在基因內(nèi)區(qū)域顯著富集,而在轉(zhuǎn)座元件(TEs)中則相對(duì)缺失。此外,研究人員定義了單甲基化多態(tài)性(SMPs),并基于SMPs進(jìn)行了系統(tǒng)發(fā)育分析,將207份材料分為四個(gè)分支。這些結(jié)果表明,DNA甲基化是棉花基因組中一個(gè)重要的變異來(lái)源,且在基因內(nèi)區(qū)域具有較高的變異頻率。
圖1:自然群體中DNA甲基化變異的廣泛模式。
a.多組學(xué)關(guān)聯(lián)分析的工作流程。
b.不同材料間DNA甲基化多樣性的基因組區(qū)域示例。
c.三維圖展示不同材料的DNA甲基化多樣性。
d.三種不同DNA甲基化背景之間的相關(guān)性。
e.條形圖顯示MAF大于0.5的SMP的數(shù)量和比例。
f.密度圖展示CG、CHG、CHH-SMPs和SNPs的MAF分布。
g-h. 盒須圖展示不同基因組特征中CG位點(diǎn)的SMP(g)和SNP(h)的MAF分布。
i. 不同DNA甲基化背景之間的連鎖不平衡(LD)衰減比較(垂直軸:LD水平;水平軸:成對(duì)距離)。
(2)基因富集區(qū)域的遺傳變異對(duì)甲基化組的顯著影響
研究人員進(jìn)一步分析了遺傳變異對(duì)DNA甲基化的作用。通過(guò)全基因組隨機(jī)抽樣,研究人員在CG、CHG和CHH三種甲基化背景下分別鑒定出119,685、37,831和24,683個(gè)甲基化數(shù)量性狀位點(diǎn)(meQTLs)。其中,順式meQTLs(cis-meQTLs)表現(xiàn)出更強(qiáng)的顯著性。研究人員對(duì)所有SMPs進(jìn)行了順式meQTL分析,共鑒定出5,426,782個(gè)順式meQTLs,包括940,794個(gè)CG-cis-meQTLs、883,280個(gè)CHG-cis-meQTLs和3,602,708個(gè)CHH-cis-meQTLs。這些順式meQTLs在基因組中的分布不均勻,特別是在染色體末端密度較高。此外,順式meQTLs在基因內(nèi)區(qū)域顯著富集,而在TEs中則顯著缺失。這些結(jié)果表明,基因富集區(qū)域的遺傳變異對(duì)DNA甲基化具有重要影響。
圖2:三種DNA甲基化背景的遺傳基礎(chǔ)。
a.SMP及其相關(guān)SNPs的基因組分布。x軸表示顯著SNPs的基因組位置,y軸表示相應(yīng)SMPs的基因組位置。選擇50,000個(gè)CG、CHG和CHH的SMP進(jìn)行全基因組meQTL分析。
b.盒須圖顯示順式(cis-)和反式(trans-)meQTL的-log10(P) 分布。顯示中位數(shù)和四分位間距(IQR)。
c.UpsetR圖展示不同DNA甲基化背景下共有順式meQTLs比例。
d.DMR與顯著SNP之間的距離。
e.順式meQTL在全基因組范圍內(nèi)的分布。
f.順式meQTL在不同基因組特征中的富集和缺失情況。
(3)SMPs在表達(dá)調(diào)控中的作用
研究人員進(jìn)一步探討了DNA甲基化與基因表達(dá)之間的關(guān)系。通過(guò)eQTM分析,研究人員共鑒定出5078個(gè)順式eQTMs,涉及3505個(gè)蛋白編碼基因(PCGs)和1573個(gè)長(zhǎng)鏈非編碼RNA(lncRNAs)。這些eQTM基因在長(zhǎng)鏈脂肪酸代謝、毛狀體分支和葡萄糖穩(wěn)態(tài)等過(guò)程中富集,可能與纖維發(fā)育相關(guān)。此外,研究人員發(fā)現(xiàn),CG甲基化在基因表達(dá)調(diào)控中起著更為重要的作用。在順式eQTMs中,90%的eQTM基因與CG甲基化相關(guān)。這些結(jié)果表明,DNA甲基化在基因表達(dá)調(diào)控中具有重要作用,尤其是CG甲基化。
圖3:受DNA甲基化調(diào)控的基因表達(dá)變異。
a.eQTL分析的工作流程。
b.在PCGs和lncRNAs中鑒定出的順式eQTMs數(shù)量。
c.受DNA甲基化調(diào)控的PCGs和lncRNAs比例。
d.重疊和特定的順式eQTM基因的UpsetR圖。右側(cè):PCGs;左側(cè):lncRNAs。
e.靠前SMPs與相關(guān)轉(zhuǎn)錄起始位點(diǎn)的距離。左側(cè):PCGs;右側(cè):lncRNAs。
f.高置信度eSNP-表達(dá)關(guān)聯(lián)散點(diǎn)圖。每個(gè)點(diǎn)代表一個(gè)檢測(cè)到的eQTL。
g.順式和反式eQTLs數(shù)量的餅圖。
h.eQTM和meQTL分析中鑒定出的eQTM基因表征。這些位點(diǎn)被分為三組。遺傳和順式表觀遺傳調(diào)控(類型I)、遺傳和反式表觀遺傳調(diào)控(類型II)以及僅表觀遺傳調(diào)控(類型III)。
(4)表觀基因組關(guān)聯(lián)研究(EWAS)揭示了大量與農(nóng)藝性狀相關(guān)的優(yōu)異表觀等位基因
研究人員利用SMPs進(jìn)行了表觀基因組關(guān)聯(lián)研究(EWAS),鑒定出1715個(gè)與纖維產(chǎn)量和品質(zhì)性狀相關(guān)的表觀遺傳位點(diǎn)。其中,1010個(gè)位點(diǎn)與產(chǎn)量相關(guān)性狀相關(guān),705個(gè)位點(diǎn)與纖維品質(zhì)性狀相關(guān)。這些表觀遺傳位點(diǎn)中,只有16個(gè)(0.93%)與GWAS位點(diǎn)重疊。例如,研究人員在A11染色體上發(fā)現(xiàn)了一個(gè)與衣分(lint percentage, LP)相關(guān)的表觀遺傳位點(diǎn),該位點(diǎn)位于一個(gè)編碼核孔復(fù)合體相互作用組分(Nup93)的基因啟動(dòng)子區(qū)域。不同表觀等位基因?qū)?yīng)的LP值存在顯著差異。這些結(jié)果表明,DNA甲基化為農(nóng)藝性狀提供了額外的調(diào)控層,并且大多數(shù)表觀遺傳位點(diǎn)與遺傳變異獨(dú)立存在。

圖4:EWAS位點(diǎn)分布及其對(duì)農(nóng)藝性狀的累積效應(yīng)。
a.與農(nóng)藝性狀相關(guān)的EWAS位點(diǎn)分布。纖維產(chǎn)量性狀包括衣分(LP);纖維品質(zhì):纖維長(zhǎng)度(FL)、強(qiáng)度(FS)、伸長(zhǎng)率(FE)、細(xì)度(FM)和均勻度(FU)。與每個(gè)性狀相關(guān)的位點(diǎn)在染色體圖上以黑色垂直線表示。
b.UpsetR圖展示CG-EWAS、CHG-EWAS和CHH-EWAS之間的重疊。
c.與小于2-kb和5-kb區(qū)域內(nèi)有側(cè)翼基因的EWAS位點(diǎn)比例。
d.EWAS分析LP性狀的曼哈頓圖。紅色箭頭表示在A11染色體上的信號(hào)。
e.放大圖顯示靠前SMP代表A11染色體上LP的EWAS位點(diǎn),且信號(hào)坐標(biāo)位于同一甲基化不平衡塊中。
f.不同表觀等位基因的LP值,用于e中所示的位點(diǎn)。
g.根據(jù)CG-、CHG-和CHH-EWAS位點(diǎn)以及GWAS位點(diǎn)顯示自然種群中單倍型分布的熱圖。優(yōu)異等位基因用紅色表示。每一列代表一個(gè)材料,每一行指基因組中的一個(gè)位點(diǎn)。
h.對(duì)在EWAS和GWAS中鑒定出的位點(diǎn)表征描述。這些位點(diǎn)被分為四組。僅表觀遺傳調(diào)控(類型I)、僅遺傳調(diào)控(類型II)、遺傳/順式表觀遺傳調(diào)控(類型III)以及遺傳/反式表觀遺傳調(diào)控(類型IV)。
(5)通過(guò)多組學(xué)關(guān)聯(lián)分析鑒定纖維相關(guān)基因
研究人員通過(guò)整合GWAS、eQTL和EWAS結(jié)果,構(gòu)建了纖維性狀的基因調(diào)控網(wǎng)絡(luò)。研究人員發(fā)現(xiàn),51個(gè)GWAS位點(diǎn)與376個(gè)eQTL在同一個(gè)連鎖不平衡(LD)塊內(nèi)共定位;贚D塊分析,研究人員構(gòu)建了一個(gè)包含397個(gè)基因的基因調(diào)控網(wǎng)絡(luò)。此外,研究人員還構(gòu)建了一個(gè)基于EWAS和eQTM的表觀遺傳調(diào)控網(wǎng)絡(luò)。通過(guò)比較這兩個(gè)網(wǎng)絡(luò),研究人員發(fā)現(xiàn)它們之間只有四個(gè)共有基因。這些結(jié)果表明,纖維性狀的調(diào)控機(jī)制非常復(fù)雜,涉及遺傳和表觀遺傳的多重調(diào)控。

圖5:與纖維發(fā)育相關(guān)的遺傳和表觀遺傳調(diào)控網(wǎng)絡(luò)。
a.功能性基因調(diào)控網(wǎng)絡(luò)(GRN)構(gòu)建的分析流程。分別進(jìn)行eQTM和eQTL分析,以獲得EWAS和GWAS位點(diǎn)中的因果位點(diǎn)。將同一連鎖不平衡(LD)塊內(nèi)的位點(diǎn)合并為一個(gè)主要SNP,LD塊內(nèi)的eGenes被聚類成一個(gè)GRN。對(duì)EWAS位點(diǎn)也進(jìn)行相同步驟。
b.調(diào)控棉花纖維性狀的基因網(wǎng)絡(luò)。右側(cè):通過(guò)整合GWAS和eQTL構(gòu)建的遺傳變異依賴網(wǎng)絡(luò);左側(cè):通過(guò)整合EWAS和eQTM構(gòu)建的表觀遺傳調(diào)控網(wǎng)絡(luò)。
c.通過(guò)共定位分析確定的候選基因熱圖。
d.不同表觀等位基因中CIPK10的表達(dá)水平和LP值。
e.基因編輯(CRISPR敲除,CR-KO)對(duì)調(diào)控纖維性狀的eQTM基因GhCIPK10的性能的圖像。
f.兩條CIPK10CR-KO品系的纖維長(zhǎng)度。
(6)基于DNA序列使用DeepFDML預(yù)測(cè)功能性CG甲基化位點(diǎn)
研究人員開發(fā)了一個(gè)名為DeepFDML的深度學(xué)習(xí)模型,用于預(yù)測(cè)功能性CG甲基化位點(diǎn)。該模型基于2336個(gè)與基因表達(dá)變異相關(guān)的CG位點(diǎn)進(jìn)行訓(xùn)練。研究人員使用one-hot encoding將每個(gè)CG位點(diǎn)的側(cè)翼序列轉(zhuǎn)換為模型input。通過(guò)五折交叉驗(yàn)證,該模型的準(zhǔn)確率達(dá)到了0.65。研究人員進(jìn)一步構(gòu)建了一個(gè)更復(fù)雜的DeepFDML模型,該模型采用了預(yù)訓(xùn)練的Enformer模型作為其主干網(wǎng)絡(luò)。該模型的接收者操作特征曲線(ROC)和精確召回曲線(PRC)分別達(dá)到了0.82和0.78,顯著優(yōu)于卷積模型。這些結(jié)果表明,基于DNA序列的深度學(xué)習(xí)模型可以有效預(yù)測(cè)功能性CG甲基化位點(diǎn)。

圖6:用于功能性CG位點(diǎn)預(yù)測(cè)的卷積神經(jīng)網(wǎng)絡(luò)。
a.所提出的深度學(xué)習(xí)方法的流程示意圖。它主要包括四個(gè)部分:input序列、主干網(wǎng)絡(luò)、特征選擇和output層。每個(gè)input是一個(gè)以CG位點(diǎn)為中心的8192bp的DNA序列,經(jīng)過(guò)one-hot encoding處理。主干網(wǎng)絡(luò)采用預(yù)訓(xùn)練的Enformer模型。在特征選擇階段,利用了中間八個(gè)位置的特征。output層是一個(gè)作為二元分類器的全連接層。
b.在整個(gè)數(shù)據(jù)集上測(cè)量的接收者操作特征(ROC)曲線。
c.在整個(gè)數(shù)據(jù)集上測(cè)量的精確率-召回率曲線(PRC)。
討論和啟示
本研究證明了DNA甲基化數(shù)據(jù)在作物育種中的重要應(yīng)用價(jià)值。通過(guò)整合表觀組(DNA甲基化)、轉(zhuǎn)錄組、基因組的多組學(xué)數(shù)據(jù),研究人員不僅發(fā)現(xiàn)了大量與纖維性狀相關(guān)的表觀遺傳位點(diǎn),還通過(guò)基因編輯技術(shù)驗(yàn)證了關(guān)鍵基因的功能。這些發(fā)現(xiàn)為棉花育種提供了新的策略,有助于加速作物改良進(jìn)程。
此外,研究人員開發(fā)的DeepFDML模型為預(yù)測(cè)功能性CG甲基化位點(diǎn)提供了一種新的方法,這將有助于未來(lái)在其他物種中進(jìn)行類似的研究。本研究強(qiáng)調(diào)了DNA甲基化在基因表達(dá)調(diào)控和性狀改良中的重要作用,為表觀遺傳學(xué)在作物改良中的應(yīng)用提供了新的思路。
參考文獻(xiàn):
Zhao, T., Guan, X., Hu, Y. et al. Population-wide DNA methylation polymorphisms at single-nucleotide resolution in 207 cotton accessions reveal epigenomic contributions to complex traits. Cell Res 34, 859–872 (2024). Doi:10.1038/s41422-024-01027-x