English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
生物器材網(wǎng) logo
生物儀器 試劑 耗材
當前位置 > 首頁 > 技術(shù)文章 > 中國科學家通過群體DNA甲基化多態(tài)性分析揭示表觀遺傳育種中的潛力

中國科學家通過群體DNA甲基化多態(tài)性分析揭示表觀遺傳育種中的潛力

瀏覽次數(shù):659 發(fā)布日期:2025-9-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責任自負
近日,浙江大學農(nóng)業(yè)與生物技術(shù)學院方磊教授張?zhí)煺娼淌?/strong>、中國農(nóng)業(yè)科學院生物技術(shù)研究所谷曉峰研究員、阿里巴巴達摩院(湖畔實驗室)顧斐博士團隊合作,通過對207份棉花材料開花后20天(DPA)纖維進行單堿基DNA甲基化測序(WGBS)、轉(zhuǎn)錄組測序(RNA-seq)和全基因組測序(WGS),利用GWAS、eQTL、EWAS、eQTM、深度學習模型DeepFDML等算法,將群體遺傳學的經(jīng)典框架擴展到表觀遺傳學領(lǐng)域。研究揭示了DNA甲基化多態(tài)性(SMPs)與基因表達和纖維性狀的關(guān)聯(lián),并證明了DNA甲基化數(shù)據(jù)在作物育種中的重要應(yīng)用價值。相關(guān)研究成果以“Population-wide DNA Methylation Polymorphisms at Single-nucleotide Resolution in 207 Cotton Accessions Reveal Epigenomic Contributions to Complex Traits”為題發(fā)表在國際學術(shù)期刊《Cell Research》。
 

標題:Population-wide DNA Methylation Polymorphisms at Single-nucleotide Resolution in 207 Cotton Accessions Reveal Epigenomic Contributions to Complex Traits(207份棉花的群體DNA甲基化多態(tài)性揭示了表觀基因組對復(fù)雜性狀的貢獻)
發(fā)表時間:2024年10月17日
發(fā)表期刊:Cell Research
影響因子:IF 25.9/Q1
作者單位:浙江大學農(nóng)業(yè)與生物技術(shù)學院
組學技術(shù):WGBS、RNA-seq、WGS(易基因金牌技術(shù))
分析算法: eQTL、eQTM、DeepFDML等
DOI: 10.1038/s41422-024-01027-x

DNA甲基化在作物發(fā)育中發(fā)揮多種調(diào)控作用,但自然作物群體甲基化多態(tài)性與遺傳多態(tài)性、基因表達和表型變異之間的關(guān)系仍不清楚。本研究對207份棉花材料開花后20天(DPA)纖維的單堿基DNA甲基化組(methylomes)、轉(zhuǎn)錄組(transcriptomes)和基因組(genomes)進行了整合分析,并將群體遺傳學的經(jīng)典框架擴展到表觀遺傳學領(lǐng)域。研究共鑒定出超過2.87億個單甲基化多態(tài)性(SMPs),這一數(shù)量是單核苷酸多態(tài)性(SNPs)的100倍。這些SMPs顯著富集在基因內(nèi)區(qū)域,而在轉(zhuǎn)座元件中則相對缺失。關(guān)聯(lián)分析進一步鑒定出總計5,426,782個順式甲基化數(shù)量性狀位點(cis-meQTLs)、5,078個順式表達數(shù)量性狀甲基化(cis-eQTMs)和9,157個表達數(shù)量性狀位點(eQTLs)。其中36.39%的順式eQTM基因與遺傳變異無關(guān),表明許多與基因表達變異相關(guān)的SMPs不依賴于SNPs。

在與產(chǎn)量和纖維品質(zhì)性狀相關(guān)的1,715個表觀遺傳位點中,僅有36個(2.10%)與全基因組關(guān)聯(lián)研究(GWAS)位點一致。多組學調(diào)控網(wǎng)絡(luò)的構(gòu)建揭示了可能43個參與纖維發(fā)育的cis-eQTMs基因,這些基因無法僅靠GWAS分析鑒定。在這些基因中,通過基因編輯成功驗證了編碼CBL互作蛋白激酶10的基因在纖維長度調(diào)控中的作用。總之,本研究結(jié)果表明,DNA甲基化數(shù)據(jù)可以作為育種的額外資源,并為加強和加速作物改良進程提供機會

研究方法
  • 植物材料:選取207份棉花材料,在開花后20天(20-DPA)時采集纖維樣本,這一時期是纖維發(fā)育的關(guān)鍵階段,特別是在次生細胞壁加厚過程中。
  • 組學測序:采集20-DPA纖維樣本進行WGBS、RNA-seq和WGS。WGBS計算甲基化水平和SMPs注釋。
  • eQTM分析:使用fastQTL軟件進行eQTM分析,研究DNA甲基化變異與基因表達的關(guān)系。
  • cis-meQTLs分析:使用fastQTL軟件進行cis-meQTLs分析,研究遺傳變異與DNA甲基化的關(guān)系。
  • eQTLs分析:通過連鎖不平衡(LD)分析減少meQTLs的冗余性,并將關(guān)聯(lián)SNPs合并為一個meQTL。最終鑒定出的meQTLs進一步分類為cis-eQTLs和trans-eQTLs。
  • EWAS分析:鑒定與纖維性狀相關(guān)的表觀遺傳位點。
  • 植物材料、載體構(gòu)建與遺傳轉(zhuǎn)化:使用CRISPR-Cas9技術(shù)進行基因編輯,驗證關(guān)鍵基因的功能。
  • 表型預(yù)測:使用G2Pdeep和GBLUP方法進行表型預(yù)測,評估模型性能。
  • 基于深度學習的功能性CG甲基化位點預(yù)測:開發(fā)DeepFDML模型,基于DNA序列預(yù)測功能性CG甲基化位點。
結(jié)果圖形
(1)DNA甲基化變異圖譜的構(gòu)建與表征
研究人員對207份核心種質(zhì)陸地棉群體(CUCP1)的20天開花后(20-DPA)的纖維進行了全基因組亞硫酸鹽測序(WGBS)和轉(zhuǎn)錄組測序(RNA-seq),以構(gòu)建單堿基DNA甲基化變異圖譜。所有樣本的甲基化組數(shù)據(jù)均比對到棉花參考基因組TM-1 v2.1,平均比對率為74.90%±3.55%。每個測序的甲基化組平均覆蓋深度>15X。經(jīng)過嚴格的數(shù)據(jù)處理和質(zhì)控,研究人員在CG、CHG和CHH三種甲基化背景下分別定量了62.32M、66.06M和4.3301M甲基化胞嘧啶。
棉花基因組的DNA甲基化水平較高,尤其是在異染色質(zhì)區(qū)域。全基因組范圍內(nèi),CG、CHG和CHH位點的DNA甲基化水平分別為72%、55%和11%。研究還發(fā)現(xiàn),DNA甲基化變異在基因內(nèi)區(qū)域顯著富集,而在轉(zhuǎn)座元件(TEs)中則相對缺失。此外,研究人員定義了單甲基化多態(tài)性(SMPs),并基于SMPs進行了系統(tǒng)發(fā)育分析,將207份材料分為四個分支。這些結(jié)果表明,DNA甲基化是棉花基因組中一個重要的變異來源,且在基因內(nèi)區(qū)域具有較高的變異頻率。

 
圖1:自然群體中DNA甲基化變異的廣泛模式。
a.多組學關(guān)聯(lián)分析的工作流程。
b.不同材料間DNA甲基化多樣性的基因組區(qū)域示例。
c.三維圖展示不同材料的DNA甲基化多樣性。
d.三種不同DNA甲基化背景之間的相關(guān)性。
e.條形圖顯示MAF大于0.5的SMP的數(shù)量和比例。
f.密度圖展示CG、CHG、CHH-SMPs和SNPs的MAF分布。
g-h. 盒須圖展示不同基因組特征中CG位點的SMP(g)和SNP(h)的MAF分布。
i.   不同DNA甲基化背景之間的連鎖不平衡(LD)衰減比較(垂直軸:LD水平;水平軸:成對距離)。
 
(2)基因富集區(qū)域的遺傳變異對甲基化組的顯著影響
研究人員進一步分析了遺傳變異對DNA甲基化的作用。通過全基因組隨機抽樣,研究人員在CG、CHG和CHH三種甲基化背景下分別鑒定出119,685、37,831和24,683個甲基化數(shù)量性狀位點(meQTLs)。其中,順式meQTLs(cis-meQTLs)表現(xiàn)出更強的顯著性。研究人員對所有SMPs進行了順式meQTL分析,共鑒定出5,426,782個順式meQTLs,包括940,794個CG-cis-meQTLs、883,280個CHG-cis-meQTLs和3,602,708個CHH-cis-meQTLs。這些順式meQTLs在基因組中的分布不均勻,特別是在染色體末端密度較高。此外,順式meQTLs在基因內(nèi)區(qū)域顯著富集,而在TEs中則顯著缺失。這些結(jié)果表明,基因富集區(qū)域的遺傳變異對DNA甲基化具有重要影響。

 
圖2:三種DNA甲基化背景的遺傳基礎(chǔ)。
 
a.SMP及其相關(guān)SNPs的基因組分布。x軸表示顯著SNPs的基因組位置,y軸表示相應(yīng)SMPs的基因組位置。選擇50,000個CG、CHG和CHH的SMP進行全基因組meQTL分析。
b.盒須圖顯示順式(cis-)和反式(trans-)meQTL的-log10(P) 分布。顯示中位數(shù)和四分位間距(IQR)。
c.UpsetR圖展示不同DNA甲基化背景下共有順式meQTLs比例。
d.DMR與顯著SNP之間的距離。
e.順式meQTL在全基因組范圍內(nèi)的分布。
f.順式meQTL在不同基因組特征中的富集和缺失情況。
 
(3)SMPs在表達調(diào)控中的作用
研究人員進一步探討了DNA甲基化與基因表達之間的關(guān)系。通過eQTM分析,研究人員共鑒定出5078個順式eQTMs,涉及3505個蛋白編碼基因(PCGs)和1573個長鏈非編碼RNA(lncRNAs)。這些eQTM基因在長鏈脂肪酸代謝、毛狀體分支和葡萄糖穩(wěn)態(tài)等過程中富集,可能與纖維發(fā)育相關(guān)。此外,研究人員發(fā)現(xiàn),CG甲基化在基因表達調(diào)控中起著更為重要的作用。在順式eQTMs中,90%的eQTM基因與CG甲基化相關(guān)。這些結(jié)果表明,DNA甲基化在基因表達調(diào)控中具有重要作用,尤其是CG甲基化。

 
圖3:受DNA甲基化調(diào)控的基因表達變異。
 
a.eQTL分析的工作流程。
b.在PCGs和lncRNAs中鑒定出的順式eQTMs數(shù)量。
c.受DNA甲基化調(diào)控的PCGs和lncRNAs比例。
d.重疊和特定的順式eQTM基因的UpsetR圖。右側(cè):PCGs;左側(cè):lncRNAs。
e.靠前SMPs與相關(guān)轉(zhuǎn)錄起始位點的距離。左側(cè):PCGs;右側(cè):lncRNAs。
f.高置信度eSNP-表達關(guān)聯(lián)散點圖。每個點代表一個檢測到的eQTL。
g.順式和反式eQTLs數(shù)量的餅圖。
h.eQTM和meQTL分析中鑒定出的eQTM基因表征。這些位點被分為三組。遺傳和順式表觀遺傳調(diào)控(類型I)、遺傳和反式表觀遺傳調(diào)控(類型II)以及僅表觀遺傳調(diào)控(類型III)。
 
(4)表觀基因組關(guān)聯(lián)研究(EWAS)揭示了大量與農(nóng)藝性狀相關(guān)的優(yōu)異表觀等位基因
研究人員利用SMPs進行了表觀基因組關(guān)聯(lián)研究(EWAS),鑒定出1715個與纖維產(chǎn)量和品質(zhì)性狀相關(guān)的表觀遺傳位點。其中,1010個位點與產(chǎn)量相關(guān)性狀相關(guān),705個位點與纖維品質(zhì)性狀相關(guān)。這些表觀遺傳位點中,只有16個(0.93%)與GWAS位點重疊。例如,研究人員在A11染色體上發(fā)現(xiàn)了一個與衣分(lint percentage, LP)相關(guān)的表觀遺傳位點,該位點位于一個編碼核孔復(fù)合體相互作用組分(Nup93)的基因啟動子區(qū)域。不同表觀等位基因?qū)?yīng)的LP值存在顯著差異。這些結(jié)果表明,DNA甲基化為農(nóng)藝性狀提供了額外的調(diào)控層,并且大多數(shù)表觀遺傳位點與遺傳變異獨立存在。

 
圖4:EWAS位點分布及其對農(nóng)藝性狀的累積效應(yīng)。
 
a.與農(nóng)藝性狀相關(guān)的EWAS位點分布。纖維產(chǎn)量性狀包括衣分(LP);纖維品質(zhì):纖維長度(FL)、強度(FS)、伸長率(FE)、細度(FM)和均勻度(FU)。與每個性狀相關(guān)的位點在染色體圖上以黑色垂直線表示。
b.UpsetR圖展示CG-EWAS、CHG-EWAS和CHH-EWAS之間的重疊。
c.與小于2-kb和5-kb區(qū)域內(nèi)有側(cè)翼基因的EWAS位點比例。
d.EWAS分析LP性狀的曼哈頓圖。紅色箭頭表示在A11染色體上的信號。
e.放大圖顯示靠前SMP代表A11染色體上LP的EWAS位點,且信號坐標位于同一甲基化不平衡塊中。
f.不同表觀等位基因的LP值,用于e中所示的位點。
g.根據(jù)CG-、CHG-和CHH-EWAS位點以及GWAS位點顯示自然種群中單倍型分布的熱圖。優(yōu)異等位基因用紅色表示。每一列代表一個材料,每一行指基因組中的一個位點。
h.對在EWAS和GWAS中鑒定出的位點表征描述。這些位點被分為四組。僅表觀遺傳調(diào)控(類型I)、僅遺傳調(diào)控(類型II)、遺傳/順式表觀遺傳調(diào)控(類型III)以及遺傳/反式表觀遺傳調(diào)控(類型IV)。
 
(5)通過多組學關(guān)聯(lián)分析鑒定纖維相關(guān)基因
研究人員通過整合GWAS、eQTL和EWAS結(jié)果,構(gòu)建了纖維性狀的基因調(diào)控網(wǎng)絡(luò)。研究人員發(fā)現(xiàn),51個GWAS位點與376個eQTL在同一個連鎖不平衡(LD)塊內(nèi)共定位。基于LD塊分析,研究人員構(gòu)建了一個包含397個基因的基因調(diào)控網(wǎng)絡(luò)。此外,研究人員還構(gòu)建了一個基于EWAS和eQTM的表觀遺傳調(diào)控網(wǎng)絡(luò)。通過比較這兩個網(wǎng)絡(luò),研究人員發(fā)現(xiàn)它們之間只有四個共有基因。這些結(jié)果表明,纖維性狀的調(diào)控機制非常復(fù)雜,涉及遺傳和表觀遺傳的多重調(diào)控。

 
圖5:與纖維發(fā)育相關(guān)的遺傳和表觀遺傳調(diào)控網(wǎng)絡(luò)。
 
a.功能性基因調(diào)控網(wǎng)絡(luò)(GRN)構(gòu)建的分析流程。分別進行eQTM和eQTL分析,以獲得EWAS和GWAS位點中的因果位點。將同一連鎖不平衡(LD)塊內(nèi)的位點合并為一個主要SNP,LD塊內(nèi)的eGenes被聚類成一個GRN。對EWAS位點也進行相同步驟。
b.調(diào)控棉花纖維性狀的基因網(wǎng)絡(luò)。右側(cè):通過整合GWAS和eQTL構(gòu)建的遺傳變異依賴網(wǎng)絡(luò);左側(cè):通過整合EWAS和eQTM構(gòu)建的表觀遺傳調(diào)控網(wǎng)絡(luò)。
c.通過共定位分析確定的候選基因熱圖。
d.不同表觀等位基因中CIPK10的表達水平和LP值。
e.基因編輯(CRISPR敲除,CR-KO)對調(diào)控纖維性狀的eQTM基因GhCIPK10的性能的圖像。
f.兩條CIPK10CR-KO品系的纖維長度。
 
(6)基于DNA序列使用DeepFDML預(yù)測功能性CG甲基化位點
研究人員開發(fā)了一個名為DeepFDML的深度學習模型,用于預(yù)測功能性CG甲基化位點。該模型基于2336個與基因表達變異相關(guān)的CG位點進行訓練。研究人員使用one-hot encoding將每個CG位點的側(cè)翼序列轉(zhuǎn)換為模型input。通過五折交叉驗證,該模型的準確率達到了0.65。研究人員進一步構(gòu)建了一個更復(fù)雜的DeepFDML模型,該模型采用了預(yù)訓練的Enformer模型作為其主干網(wǎng)絡(luò)。該模型的接收者操作特征曲線(ROC)和精確召回曲線(PRC)分別達到了0.82和0.78,顯著優(yōu)于卷積模型。這些結(jié)果表明,基于DNA序列的深度學習模型可以有效預(yù)測功能性CG甲基化位點。

 
圖6:用于功能性CG位點預(yù)測的卷積神經(jīng)網(wǎng)絡(luò)。
 
a.所提出的深度學習方法的流程示意圖。它主要包括四個部分:input序列、主干網(wǎng)絡(luò)、特征選擇和output層。每個input是一個以CG位點為中心的8192bp的DNA序列,經(jīng)過one-hot encoding處理。主干網(wǎng)絡(luò)采用預(yù)訓練的Enformer模型。在特征選擇階段,利用了中間八個位置的特征。output層是一個作為二元分類器的全連接層。
b.在整個數(shù)據(jù)集上測量的接收者操作特征(ROC)曲線。
c.在整個數(shù)據(jù)集上測量的精確率-召回率曲線(PRC)。
 
討論和啟示
本研究證明了DNA甲基化數(shù)據(jù)在作物育種中的重要應(yīng)用價值。通過整合表觀組(DNA甲基化)、轉(zhuǎn)錄組、基因組的多組學數(shù)據(jù),研究人員不僅發(fā)現(xiàn)了大量與纖維性狀相關(guān)的表觀遺傳位點,還通過基因編輯技術(shù)驗證了關(guān)鍵基因的功能。這些發(fā)現(xiàn)為棉花育種提供了新的策略,有助于加速作物改良進程。

此外,研究人員開發(fā)的DeepFDML模型為預(yù)測功能性CG甲基化位點提供了一種新的方法,這將有助于未來在其他物種中進行類似的研究。本研究強調(diào)了DNA甲基化在基因表達調(diào)控和性狀改良中的重要作用,為表觀遺傳學在作物改良中的應(yīng)用提供了新的思路。

參考文獻:
Zhao, T., Guan, X., Hu, Y. et al. Population-wide DNA methylation polymorphisms at single-nucleotide resolution in 207 cotton accessions reveal epigenomic contributions to complex traits. Cell Res 34, 859–872 (2024). Doi:10.1038/s41422-024-01027-x
發(fā)布者:深圳市易基因科技有限公司
聯(lián)系電話:0755-28317900
E-mail:wuhuanhuan@e-gene.cn

標簽: DNA甲基化
用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2026 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com