蛋白質(zhì)是生命活動(dòng)的核心執行者,而通過(guò)計算設計新型蛋白質(zhì)(例如酶、藥物結合蛋白)是蛋白質(zhì)設計領(lǐng)域的“圣杯”。傳統設計方法(例如Rosetta)依賴(lài)物理模型,耗時(shí)且無(wú)法精準處理蛋白質(zhì)與金屬離子、小分子等非蛋白成分的相互作用。而目前最先進(jìn)的基于深度學(xué)習的蛋白質(zhì)序列設計方法(例如ProteinMPNN)雖高效,卻“看不見(jiàn)”這些關(guān)鍵元素,無(wú)法對其建模,限制了其在藥物設計等場(chǎng)景的應用。
那么,如何讓 AI 既懂蛋白質(zhì)結構,又能感知周?chē)瘜W(xué)環(huán)境呢?
2025年3月28日,諾獎得主、蛋白質(zhì)設計先驅 David Baker 教授在 Nature Methods 期刊發(fā)表了題為:Atomic context-conditioned protein sequence design using LigandMPNN 的研究論文。
該研究開(kāi)發(fā)了一種新型深度學(xué)習方法——LigandMPNN,該方法明確地對生物分子系統中的所有非蛋白質(zhì)成分進(jìn)行了建模,預計 LigandMPNN 將在設計新的結合蛋白、傳感器和酶方面得到廣泛應用。
蛋白質(zhì)的從頭設計,能夠創(chuàng )造出具有新功能的新型蛋白質(zhì),例如催化作用、與 DNA、小分子和金屬的結合以及蛋白質(zhì)間的相互作用。
從頭設計通常分三步進(jìn)行:第一步,生成預測為執行新所需功能接近最優(yōu)的蛋白質(zhì)骨架;第二部,為每個(gè)骨架設計氨基酸序列,以驅動(dòng)折疊成目標結構,并形成實(shí)現功能所需的特定相互作用(例如,酶活性位點(diǎn));第三部,使用結構預測方法進(jìn)行序列 - 結構兼容性篩選。
對于其中關(guān)鍵的第二部,即蛋白質(zhì)序列設計,可以通過(guò)基于物理的方法(例如 Rosetta)以及基于深度學(xué)習的模型(例如 ProteinMPNN、IF-ESM 等)來(lái)進(jìn)行?;谏疃葘W(xué)習的方法在設計蛋白質(zhì)主鏈序列方面優(yōu)于基于物理的方法,但目前可用的深度學(xué)習模型均無(wú)法納入非蛋白的原子和分子。例如,ProteinMPNN 明確只考慮蛋白質(zhì)主鏈的坐標,而忽略任何其他原子環(huán)境,這導致其在設計酶、核酸結合蛋白、傳感器以及所有涉及與非蛋白原子相互作用的其他蛋白質(zhì)功能時(shí)面臨困難。
為了實(shí)現上述廣泛的蛋白質(zhì)功能的設計,研究團隊開(kāi)發(fā)了一種新型深度學(xué)習方法——LigandMPNN,該方法明確地對生物分子系統中的所有非蛋白質(zhì)成分進(jìn)行了建模。
LigandMPNN 的三大創(chuàng )新
1、全局感知的分子圖譜
蛋白質(zhì)-配體交互網(wǎng)絡(luò ):將蛋白質(zhì)殘基與配體原子(小分子、金屬等)構建為圖結構,通過(guò)距離和化學(xué)元素編碼相互作用,模擬真實(shí)生物環(huán)境。
動(dòng)態(tài)信息傳遞:引入兩層神經(jīng)網(wǎng)絡(luò ),分別在配體內部原子間、蛋白質(zhì)與配體間傳遞信息,捕捉氫鍵、疏水作用等關(guān)鍵細節。
2、高效側鏈建模
一步到位設計:傳統方法需分步優(yōu)化序列和構象,而 LigandMPNN 同步預測氨基酸序列及側鏈扭轉角,生成可直接評估結合力的 3D 模型。
混合分布預測:采用環(huán)形正態(tài)分布模擬側鏈自由度,提升組氨酸(金屬結合的關(guān)鍵)等殘基的構象準確性。
3、數據增強與泛化能力
側鏈原子模擬配體:在訓練中隨機將 2%-4% 的蛋白質(zhì)側鏈視為“假配體”,增強模型對結合位點(diǎn)的敏感度。
噪聲抗干擾訓練:對輸入坐標添加高斯噪聲(0.1Å),防止模型死記硬背晶體結構,提升對新骨架的適應力。
性能碾壓:用實(shí)驗數據說(shuō)話(huà)
在與小分子、金屬以及核苷酸相互作用的氨基酸殘基的天然主鏈序列恢復方面,LigandMPNN 全面優(yōu)于 Rosetta 和 ProteinMPNN:
與小分子相互作用:LigandMPNN(63.3%)vs. Rosetta(50.4%)vs. ProteinMPNN(50.5%);
與金屬離子相互作用:LigandMPNN(77.5%) vs. Rosetta(36.0%)vs. ProteinMPNN(40.6%);
與核苷酸相互作用:LigandMPNN(50.5%) vs. Rosetta(35.2%)vs. ProteinMPNN(34.0%);
此外,LigandMPNN 不僅生成主鏈序列,還能更精準地生成側鏈構象,從而能夠對結合相互作用進(jìn)行詳細評估。
實(shí)驗驗證成功案例:
LigandMPNN 已被用于設計超過(guò) 100 種經(jīng)實(shí)驗驗證的小分子和 DNA 結合蛋白,這些蛋白具有高親和力和高結構準確性(由四個(gè) X 射線(xiàn)晶體結構所表明),并且對 Rosetta 小分子結合劑設計的重新設計使結合親和力提高了多達 100 倍。
應用前景
藥物開(kāi)發(fā):設計高親和力抗體或酶,加速靶向療法。
生物傳感器:定制結合金屬/毒素的蛋白,用于環(huán)境監測。
合成生物學(xué):構建人工代謝通路中的關(guān)鍵酶元件。
值得一提的是,研究團隊已在 GitHub 上開(kāi)源了 LigandMPNN 代碼,鏈接:https://github.com/dauparas/LigandMPNN 。
總的來(lái)說(shuō),LigandMPNN 不僅是一次技術(shù)迭代,更是蛋白質(zhì)設計范式的革新。當 AI 開(kāi)始“看見(jiàn)”生命的化學(xué)細節,我們距離定制化生物解決方案的時(shí)代又近了一步。
論文鏈接:
https://www.nature.com/articles/s41592-025-02626-1
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com