多細胞生物中的不同細胞類(lèi)型擁有相同的基因組,但由于基因表達的差異調控,它們表現出高度特化的功能特征。調控序列通過(guò)以細胞類(lèi)型特異性的方式招募序列特異性轉錄因子(TF)來(lái)決定基因表達模式。染色質(zhì)可及性是調控 DNA 的通用標志,可通過(guò) DNA 酶 I 超敏感性測序(DNase-seq)和基于轉座酶可及染色質(zhì)測序(ATAC-seq)進(jìn)行測量。利用這些檢測方法,已經(jīng)在哺乳動(dòng)物中開(kāi)展了多項大規模工作以繪制全基因組范圍內的調控序列。然而,對于大多數物種而言,全面的細胞類(lèi)型解析調控序列圖譜仍不可用。
利用深度學(xué)習(Deep Learning)模型直接從 DNA 序列中預測調控和表達信號,是現代基因組學(xué)領(lǐng)域的一個(gè)里程碑。最近,深度學(xué)習模型已被用于預測單細胞水平的染色質(zhì)可及性和基因表達。此前,郭國驥教授團隊開(kāi)發(fā)了女?huà)z(Nvwa)模型,實(shí)現了細胞類(lèi)型特異性基因表達的圖譜規模單細胞分辨率預測,還開(kāi)發(fā)了華佗(Huatuo)模型,有助于在幾乎所有細胞類(lèi)型中以單核苷酸水平解碼與疾病相關(guān)的調控序列。但遺憾的是,目前大多數細胞圖譜數據在靈敏度或通量方面存在局限性,這阻礙了高精度預測模型的生成。
以 AlphaFold 為代表的蛋白質(zhì)結構預測模型已經(jīng)取得了巨大成功,而基因組學(xué)領(lǐng)域的預測模型仍有待實(shí)質(zhì)性突破。
2025 年 7 月 8 日,浙江大學(xué)醫學(xué)院/良渚實(shí)驗室郭國驥教授團隊在國際頂尖學(xué)術(shù)期刊 Cell 上發(fā)表了題為:Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning 的研究論文。
該研究建立了超高通量、超靈敏的單核 ATAC 測序技術(shù)(UUATAC-seq),可在一天內高效率高質(zhì)量的完成一個(gè)物種的染色質(zhì)可及性圖譜?;谠摷夹g(shù),研究團隊為五大代表性脊椎動(dòng)物中繪制候選順式調控元件圖譜,開(kāi)發(fā)了多任務(wù)深度學(xué)習模型--女?huà)zCE(Nvwa cis-regulatory element),并實(shí)現了從基因組序列到單細胞水平調控元件圖譜的直接預測。
研究團隊發(fā)現,脊椎動(dòng)物調控語(yǔ)法的保守性明顯強于核苷酸序列本身,且該語(yǔ)法將脊椎動(dòng)物調控原件序列在高維分類(lèi)為不同的功能模塊,由此揭示細胞類(lèi)型特異性基因表達的序列基礎。另外,女?huà)zCE 模型在多項指標上,超越現有的基因組 AI 模型,并能精準預測合成突變對譜系特異性調控元件功能的影響。最后,團隊利用基因編輯實(shí)驗,首次驗證了完全由人工智能(AI)設計的人類(lèi)疾病治愈性位點(diǎn)。這項研究為全面解讀基因組語(yǔ)言和建立數字生命模型奠定了堅實(shí)基礎。
脊椎動(dòng)物基因組中的調控序列仍未被完全理解。為解決這一問(wèn)題,研究團隊開(kāi)發(fā)了一種超高通量、超靈敏的單核 ATAC 測序技術(shù)(UUATAC-seq),能夠在一天內構建出一個(gè)物種的染色質(zhì)可及性圖譜。
利用 UUATAC-seq 技術(shù),研究團隊在五個(gè)具有代表性的脊椎動(dòng)物物種(哺乳類(lèi)-小鼠、鳥(niǎo)類(lèi)-雞、爬行類(lèi)-守宮、兩棲類(lèi)-蠑螈、水生類(lèi)-斑馬魚(yú))中繪制了候選順式調控元件(cis-regulatory element,cCRE)的圖譜。
分析結果表明,不同物種間基因組大小的差異會(huì )影響順式調控元件(cCRE)的數量,但不會(huì )影響其大小。
研究團隊進(jìn)一步推出一種大型任務(wù)深度學(xué)習模型--女?huà)zCE(Nvwa cis-regulatory element,簡(jiǎn)稱(chēng) NvwaCE),旨在解讀順式調控"語(yǔ)法",并能直接從基因組序列中高精度地預測 cCRE 景觀(guān)。女?huà)zCE 證明了調控"語(yǔ)法"比核苷酸序列更具保守性,并且這種"語(yǔ)法"將 cCRE 組織成不同的功能模塊。
此外,女?huà)zCE 還能準確預測合成突變對譜系特異性 cCRE 功能的影響,這與因果數量性狀位點(diǎn)(QTL)和基因組編輯結果相一致。具體來(lái)說(shuō),女?huà)zCE 預測出了一個(gè)鐮狀細胞病的治愈性基因突變位點(diǎn)(HBG1-68:A>G),這一突變位點(diǎn)從未在單核苷酸多態(tài)性數據庫(dbSNP)或任何已發(fā)表的論文中被記錄過(guò)。進(jìn)一步驗證實(shí)驗顯示,該位點(diǎn)在基因編輯后能夠實(shí)現胎兒血紅蛋白表達量的顯著(zhù)提升,這也是首次在人類(lèi)細胞中證明了基因組 AI 模型精準預測功能性位點(diǎn)的性能。
總的來(lái)說(shuō),該研究開(kāi)發(fā)了能夠高效構建染色質(zhì)可及性圖譜的 UUATAC-seq 技術(shù),以及用于脊椎動(dòng)物染色質(zhì)圖譜預測的基因組 AI 模型--女?huà)zCE(NvwaCE),這些成果為進(jìn)一步破譯脊椎動(dòng)物基因組的調控語(yǔ)言提供了寶貴資源。
論文鏈接:
https://www.cell.com/cell/fulltext/S0092-8674(25)00686-5
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com