在人類(lèi)基因組中,基因的轉錄始于啟動(dòng)子(Promoter),這一核心序列元件整合來(lái)自基因組近端和遠端區域的信息,以精確調控基因表達。啟動(dòng)子中的破壞性突變會(huì )導致基因表達發(fā)生重大改變,但由于難以區分有害突變和良性突變,其對人類(lèi)健康和疾病的影響,我們目前仍知之甚少。
在大規模功能基因組學(xué)數據集上訓練的人工智能(AI)模型有可能學(xué)習轉錄和表觀(guān)遺傳程序背后的調控"語(yǔ)法"。將遺傳突變與功能后果相聯(lián)系的適當訓練數據集對于實(shí)現準確的突變效應預測至關(guān)重要。
近日,因美納(Illumina)公司的研究人員在國際頂尖學(xué)術(shù)期刊 Science 上發(fā)表了題為:Predicting expression-altering promoter mutations with deep learning 的研究論文。
該研究開(kāi)發(fā)了一款名為 PromoterAI 的人工智能(AI)模型,其能夠準確識別會(huì )擾亂基因表達的非編碼的啟動(dòng)子突變,結果顯示,那些預測會(huì )改變基因表達的啟動(dòng)子突變在數千名個(gè)體的 RNA 和蛋白質(zhì)水平上產(chǎn)生了異常表達,并且這些突變在人類(lèi)群體中經(jīng)歷了強烈的負選擇。研究團隊觀(guān)察到,罕見(jiàn)病患者的臨床相關(guān)基因中此類(lèi)突變顯著(zhù)富集,并通過(guò)報告基因實(shí)驗驗證了其功能影響。研究團隊進(jìn)一步估計,啟動(dòng)子突變占罕見(jiàn)病相關(guān)遺傳負擔的 6%。
實(shí)際上,目前僅有少數罕見(jiàn)遺傳病患者通過(guò)外顯子測序得到確診,這表明其他未被識別的致病突變可能存在于非編碼序列(包括啟動(dòng)子)中。
PromoterAI 是一種通過(guò)評估啟動(dòng)子區域基因組序列來(lái)預測啟動(dòng)子突變對基因表達影響的深度神經(jīng)網(wǎng)絡(luò )。研究團隊首先以單核苷酸分辨率訓練該模型,使其能夠預測轉錄起始位點(diǎn)周?chē)慕M蛋白修飾、DNA 可及性、轉錄因子結合和鏈特異性基因表達。隨后,研究團隊基于攜帶配對基因組與 RNA 測序數據的群體樣本,構建了包含數千個(gè)與跨組織異?;虮磉_相關(guān)的罕見(jiàn)啟動(dòng)子突變的訓練數據集,同時(shí)控制了順式(cis)與反式(trans)混雜變量的影響。利用這些異常突變,研究團隊通過(guò)旨在實(shí)現跨未知基因及數據集的泛化能力的框架對 PromoterAI 進(jìn)行了微調。
研究團隊通過(guò)基因表達、蛋白質(zhì)豐度、數量性狀位點(diǎn)和報告基因實(shí)驗等多維度基準測試對 PromoterAI 的預測效果進(jìn)行了全面驗證。群體等位基因頻率譜分析顯示,預測具有表達調控作用的啟動(dòng)子突變在高等位基因頻率區域呈現顯著(zhù)缺失,這反映了自然選擇對有害突變的清除作用?;谟飿颖編欤║K biobank)數萬(wàn)個(gè)體數據分析,研究團隊發(fā)現,預測的突變效應與蛋白質(zhì)豐度及數量性狀測量值存在強烈關(guān)聯(lián)。最后,研究團隊將該模型應用于 Genomics England 隊列中未確診的罕見(jiàn)病患者,發(fā)現 PromoterAI 預測的會(huì )導致表達不足的啟動(dòng)子突變在患者表型相關(guān)孟德?tīng)柤膊』颍ㄓ绕涫菃伪扼w不足對應的顯性功能缺失基因)的啟動(dòng)子區域呈現特異性富集。
PromoterAI 可捕捉啟動(dòng)子突變的功能影響。(左圖)該模型最初通過(guò)預測轉錄起始位點(diǎn)附近的組蛋白修飾、染色質(zhì)可及性、轉錄因子結合及基因表達進(jìn)行訓練,最終通過(guò)篩選與異?;虮磉_相關(guān)的罕見(jiàn)啟動(dòng)子突變進(jìn)行微調。(右圖)預測的突變效應與群體隊列數量性狀具有顯著(zhù)相關(guān)性,在罕見(jiàn)遺傳病隊列中貢獻了 6% 的病例診斷率。SpliceAI(剪接預測模型)和PrimateAI-3D(進(jìn)化保守性分析模型)是另兩種預測變異效應的深度學(xué)習方法。
PromoterAI 通過(guò)精準檢測影響基因表達的啟動(dòng)子突變,填補了基因組解讀領(lǐng)域的關(guān)鍵空白。該模型有效性的核心在于采用具有已知表達效應的遺傳突變進(jìn)行微調的優(yōu)化過(guò)程。在當前臨床基因組分析主要聚焦編碼區基因突變的背景下,將啟動(dòng)子突變納入解讀體系,可顯著(zhù)提升個(gè)性化基因組測序的臨床診斷效果。
論文鏈接:
https://www.science.org/doi/10.1126/science.ads7373
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com