人體是由細胞(Cell)構成的馬賽克,其中,免疫細胞通過(guò)增強炎癥來(lái)對抗感染;干細胞可以分化成各種組織;癌細胞避開(kāi)調控信號而無(wú)節制地分裂。然而,盡管這些細胞之間存在顯著(zhù)差異,但這些看上去截然不同的體細胞都攜帶著(zhù)(幾乎)相同的基因組。
細胞的獨特性不僅源于 DNA 的不同,更在于每個(gè)細胞對 DNA 的使用方式。換句話(huà)說(shuō),細胞的特性源自基因表達的變化,即基因在不同時(shí)刻的"開(kāi)啟"和"關(guān)閉"。細胞的基因表達模式--以 RNA 分子的形式體現,而 RNA 分子本身又是從 DNA 轉錄而來(lái),基因的表達不僅決定了細胞的類(lèi)型,還決定了細胞的狀態(tài):細胞基因表達的變化可以揭示細胞如何從健康狀態(tài)轉變?yōu)檠装Y狀態(tài),甚至癌變。通過(guò)測量有或無(wú)化學(xué)或基因干擾的細胞內的 RNA 轉錄本,可以訓練出能夠預測細胞基因表達模式(這是細胞"狀態(tài)"的關(guān)鍵驅動(dòng)因素)將如何變化的人工智能(AI)模型。這樣的 AI 模型甚至能夠預測模型之前未曾遇到的干擾所引發(fā)的反應。
大約 90% 的進(jìn)入臨床試驗的候選藥物最終會(huì )失敗,原因在于療效不佳或產(chǎn)生了意外的副作用。研究人員在實(shí)驗室或患者身上測試的每種藥物,本質(zhì)上都是為以特定方式干擾細胞而量身定制的探針。因此,一個(gè)高度預測性的虛擬細胞(Virtual Cell)模型能夠幫助研究人員發(fā)現新藥物,這些藥物能夠使細胞從"患病狀態(tài)"轉換到"健康狀態(tài)",同時(shí)減少脫靶效應,從而提高臨床試驗的成功率。
近日,Arc 研究所發(fā)布了其第一代虛擬細胞模型--STATE,該虛擬細胞模型旨在預測各類(lèi)干細胞、癌細胞和免疫細胞對藥物、細胞因子或基因擾動(dòng)的反應。STATE 模型基于 1.67 億個(gè)細胞的觀(guān)察數據以及超過(guò) 1 億個(gè)細胞的擾動(dòng)數據進(jìn)行訓練,這些數據涵蓋了 70 種細胞系。該論文已于近期發(fā)表在了預印本平臺 bioRxiv 上。
STATE 的使用很簡(jiǎn)單:給定一個(gè)初始轉錄組和一個(gè)干擾因素,STATE 就能預測 RNA 表達的變化。STATE 由兩個(gè)相互關(guān)聯(lián)的模塊組成--State Embedding(SE)模型和 State Transition(ST)模型。SE 模型基于 1.67 億個(gè)細胞的觀(guān)測數據進(jìn)行訓練,這些數據是細胞在未受干預情況下的行為測量值,而 ST 模型則基于超過(guò) 1 億個(gè)細胞的擾動(dòng)數據進(jìn)行訓練,即這些細胞對基因變化或小分子的反應情況。
SE 模型將轉錄組數據轉換為計算機更易于理解的平滑多維向量空間,并且對技術(shù)噪聲更具不變性。相同類(lèi)型的細胞(比如白血病細胞或神經(jīng)元)在這個(gè)向量空間中會(huì )聚集在一起。ST 模型預測細胞在受到給定干擾時(shí)如何在學(xué)習到的流形的不同部分之間進(jìn)行轉換。該模型基于雙向 Transformer 架構構建,其獨特之處在于利用了對細胞集的自注意力機制,從而使 ST 模型能夠靈活地捕捉生物和技術(shù)異質(zhì)性(例如細胞周期狀態(tài)或 RNA-seq 數據中的偏差),而無(wú)需依賴(lài)明確的分布假設。
STATE 是基于超過(guò) 1 億個(gè)細胞的單細胞擾動(dòng)數據(Tahoe-100M、Parse-PMBC、Replogle-Nadig)進(jìn)行訓練的,訓練數據量超過(guò)了迄今為止的任何其他模型。它在預測新細胞環(huán)境中轉錄組在受到擾動(dòng)后的變化方面,顯著(zhù)優(yōu)于現有的最先進(jìn)的計算方法。在對 Tahoe-100M 進(jìn)行基準測試時(shí),STATE 在區分擾動(dòng)效應方面表現出了 50% 的提升,并且在識別真正差異表達基因的準確性方面是現有模型的 2 倍。此外,STATE 也是首個(gè)在所有測試中都優(yōu)于簡(jiǎn)單線(xiàn)性基線(xiàn)模型的模型。
STATE 最初專(zhuān)注于單細胞 RNA 測序數據建模,因為這是目前研究人員能夠以合理成本大規模生成的唯一無(wú)偏倚的單細胞分辨率數據。遺憾的是,測序數據通常是純觀(guān)察性的,因此通常不足以推斷細胞生物學(xué)中的因果關(guān)系。即使有來(lái)自數百萬(wàn)個(gè)細胞的觀(guān)察數據,虛擬細胞模型也無(wú)法確定導致觀(guān)察到的相關(guān)性出現的因果效應。了解因果關(guān)系對于構建基于生物學(xué)機制的真正的"虛擬細胞"模型至關(guān)重要。
Arc 研究所的研究團隊通過(guò)收集大規模的擾動(dòng)數據來(lái)彌補單細胞 RNA 測序數據數據不足:即通過(guò)實(shí)驗(例如使用 CRISPR 基因編輯工具)生成的數據,在實(shí)驗中特意改變特定基因以觀(guān)察其對細胞的影響。與觀(guān)察性數據不同,擾動(dòng)數據捕捉了基因之間的因果關(guān)系,直接反映了潛在的生物學(xué)機制??赡苄枰獢等f(wàn)次觀(guān)察才能推斷出兩個(gè)基因之間的直接相互作用關(guān)系,而擾動(dòng)數據僅通過(guò)一次測量就能捕捉到相同的相互作用關(guān)系。研究團隊以獨特的方式將技術(shù)開(kāi)發(fā)與機器學(xué)習相結合,從而能夠迅速擴大數據收集規模,并在建模方法上進(jìn)行創(chuàng )新。
迄今為止,大多數單細胞數據來(lái)自規模較小的研究,其中技術(shù)和來(lái)源批次的差異降低了跨多個(gè)項目無(wú)縫整合數據的能力。研究團隊開(kāi)發(fā)并推出了 scBaseCount,這是該領(lǐng)域首個(gè) AI 智能體,旨在統一收集和分析單細胞數據,以最 大程度減少分析誤差。scBaseCount 也是目前最大的單細胞數據開(kāi)源庫。STATE 本身也能夠直接建模這些"混雜"因素,這使其能夠整合來(lái)自世界各地不同實(shí)驗室的大量不同數據集。
研究團隊表,盡管 STATE 只是未來(lái)將不斷改進(jìn)的虛擬細胞模型中的第一個(gè)版本,但隨著(zhù)虛擬細胞訓練數據的增長(cháng),其預測準確性也在提高。這似乎是一個(gè)顯而易見(jiàn)的結果--Scaling Laws(標度律),模型性能隨規模(例如參數、數據量、計算量)增長(cháng)而遵循冪律關(guān)系。但實(shí)際上,Scaling Laws 在生物學(xué)領(lǐng)域直到最近才得以確立,Arc 研究所的研究團隊去年發(fā)布了 DNA 大語(yǔ)言模型 Evo,首次揭示了 DNA 語(yǔ)言建模中的 Scaling Laws。
STATE 的使用案例可能遵循與蛋白質(zhì)折疊模型類(lèi)似的模式--AlphaFold 不僅因為能夠準確預測蛋白質(zhì)結構而變得有用,還因為研究人員找到了將其預測結果整合到工作流程中的方法。例如,通過(guò)快速預測蛋白質(zhì)結構,研究人員能夠更快地發(fā)現可能與這些蛋白質(zhì)結合的小分子。
同樣,研究人員不僅可以利用 STATE 以及未來(lái)的其他模型來(lái)模擬細胞對干擾的反應,還可以利用這些預測來(lái)提名并實(shí)驗性地發(fā)現新藥。
STATE:一種基于 Transfomer 的用于預測細胞集合中的擾動(dòng)效應的虛擬細胞模型
構建虛擬細胞模型的最終愿景,是幫助科學(xué)家探索更廣闊的組合可能性空間。任何活細胞都可以通過(guò)無(wú)數種方式進(jìn)行改變,而要測試每一種可能的基因突變或藥物治療(比如針對癌細胞的治療)是不可能的。一個(gè)高度預測性的虛擬細胞模型將解決這個(gè)問(wèn)題。STATE 正是朝著(zhù)這個(gè)方向邁出的第一步,其目標是通過(guò)未來(lái)的迭代的虛擬細胞模型最終達到實(shí)驗級精度。這將使科學(xué)家能夠進(jìn)行數百萬(wàn)次的計算機模擬干預,從而在進(jìn)行原創(chuàng )性發(fā)現的過(guò)程中"縮小"他們的假設范圍。
為了助力這一愿景,研究團隊還推出了 Cell_Eval,這是一個(gè)用于虛擬細胞建模的全面評估框架,它超越了該領(lǐng)域傳統的基于表達計數等指標的評估方法,納入了一系列具有生物學(xué)相關(guān)性和可解釋性的指標,重點(diǎn)關(guān)注差異表達預測和干擾強度估計。希望 Cell_Eval 能夠幫助透明地評估當前及未來(lái)各代虛擬細胞模型。此外,Arc 研究所還推出了一個(gè)虛擬細胞挑戰賽。
總的來(lái)說(shuō),Arc 研究所公布的這個(gè)虛擬細胞模型--STATE,希望生物學(xué)家們能夠使用它,并開(kāi)始探索將其融入自身工作的途徑。
論文鏈接:
https://www.biorxiv.org/content/10.1101/2025.06.26.661135v1
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com