亚洲第一大网站,欧美三级网络,日韩av在线导航,深夜国产在线,最新日韩视频,亚洲综合中文字幕在线观看,午夜香蕉视频

產(chǎn)品分類(lèi)導航
CPHI制藥在線(xiàn) 資訊 “機器學(xué)習”如何助力新藥研發(fā)?

“機器學(xué)習”如何助力新藥研發(fā)?

熱門(mén)推薦: AI 機器學(xué)習 新藥研發(fā)
作者:藥瘋  來(lái)源:新浪醫藥新聞
  2021-09-17
今天的新藥發(fā)現,已經(jīng)離不開(kāi)計算學(xué)科的支撐,與計算相關(guān)的各種技術(shù)也因新藥研發(fā),而備受行業(yè)的重視。機器學(xué)習,作為AI的一個(gè)重要分支,憑借其輔助發(fā)現潛力化合物、預測相關(guān)參數、節約試驗成本、壓縮開(kāi)發(fā)周期等優(yōu)勢,得到了研發(fā)及投行的極大關(guān)注。

       今天的新藥發(fā)現,已經(jīng)離不開(kāi)計算學(xué)科的支撐,與計算相關(guān)的各種技術(shù)也因新藥研發(fā),而備受行業(yè)的重視。機器學(xué)習,作為AI的一個(gè)重要分支,憑借其輔助發(fā)現潛力化合物、預測相關(guān)參數、節約試驗成本、壓縮開(kāi)發(fā)周期等優(yōu)勢,得到了研發(fā)及投行的極大關(guān)注。本稿件即對機器學(xué)習的歷史及其于醫藥領(lǐng)域的應用進(jìn)行概述,以期與同行進(jìn)行共同學(xué)習。

精準醫學(xué)&藥物發(fā)現

       未來(lái):精準醫學(xué)&藥物發(fā)現

       近年來(lái),精準醫學(xué)的概念越來(lái)越被提及,其強調基于個(gè)體差異(包括基因&環(huán)境&生活方式等)來(lái)進(jìn)行疾病的預防和治療,從而降低“一刀切”的治療方式。出于這個(gè)原因,近年來(lái)產(chǎn)生了大量生物醫學(xué)數據,其來(lái)源非常多樣化:從小型的實(shí)驗室到大型的多中心研究;這些數據主要稱(chēng)為組學(xué)數據(基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、藥物基因組學(xué)等),是科學(xué)界取之不盡的信息來(lái)源,可用于對患者進(jìn)行分類(lèi),獲得特定診斷,以及開(kāi)發(fā)新的治療方法。

       過(guò)去十年中,計算能力的快速提升,已逐漸形成了與傳統藥物發(fā)現過(guò)程中高通量篩選的競爭。機器學(xué)習(ML),作為人工智能的一個(gè)分支,已有多重方法應用于藥物發(fā)現過(guò)程中,從而預測新化學(xué)實(shí)體的分子特征、生物活性、相互作用和不良反應等。這些算法,正在改變著(zhù)新藥發(fā)現的傳統模式。

       圖1.1 精準醫學(xué)背景下-新藥發(fā)現過(guò)程(見(jiàn)參考文獻)

精準醫學(xué)背景下-新藥發(fā)現過(guò)程

       ML在Drug-Discovery領(lǐng)域的發(fā)展

       1964年,Hansch方程的提出,理化描述符(如疏水性參數、電子參數和空間參數)的線(xiàn)性回歸模型,開(kāi)始用于描述二維結構-活性關(guān)系,QSAR的概念逐漸深化發(fā)展。

       1998年,類(lèi)藥性概念的提出,研究者開(kāi)始建立可以高效預測分子是否具備藥物潛質(zhì)的模型,并從1D/2D描述符中慢慢深入。但總的來(lái)說(shuō),2000年以前,ML于藥物發(fā)現領(lǐng)域的應用,并不多,主要原因是數據的可用性問(wèn)題。

       2004年,PubChem和ZINC數據庫的開(kāi)發(fā),為ML于藥物發(fā)現的發(fā)展奠定了基礎;并在2006年和2008年開(kāi)發(fā)了DrugBank和ChEMBL,從而大大滿(mǎn)足了上述的數據可用性問(wèn)題。

       2016年,Molecular Graph Convolutions正式發(fā)布,相關(guān)研究人員的成果也于2020年在Cell雜志刊登,進(jìn)一步展示了機器學(xué)習在該領(lǐng)域的潛力,并發(fā)現了一種具抗菌活性的分子halicin,并在實(shí)驗室中得到了驗證。

藥物發(fā)現領(lǐng)域-機器學(xué)習主要事件時(shí)間表

       圖2.1 藥物發(fā)現領(lǐng)域-機器學(xué)習主要事件時(shí)間表(見(jiàn)參考文獻)

       ML操作流程

       藥物發(fā)現領(lǐng)域的ML方法,涵蓋以下步驟:1)數據收集;2)數學(xué)描述符的生成;3)搜索變量的最 佳子集;4)模型訓練;5)模型驗證。

藥物發(fā)現-機器學(xué)習方法

       圖3.1 藥物發(fā)現-機器學(xué)習方法(見(jiàn)參考文獻)

       如上所述,首先是收集數據,數據除了有助于活性、選擇性、代謝、**、理化性質(zhì)外,甚至還需要易于生產(chǎn)制備等屬性;小分子和肽類(lèi)藥物,可以使用SMILES和FASTA格式表示結構的序列;數據庫如DrugBank、PubChem、ChEMBL、ZINC等,具有大量的數據儲備信息。隨著(zhù)數學(xué)描述符(PCA、t-SNE、FS、Autoencoder相關(guān)技術(shù))的生成,可獲得一系列的數據,ML模型即可以處理這些數據。數據可分為兩個(gè)子集,高比例數據用于模型訓練,低比例數據用于測試,這一過(guò)程可獲得變量相關(guān)的最 佳子集。在模型訓練后,可依此而完成后續的驗證,如果驗證結果具有統計意義,可以說(shuō),即創(chuàng )造了一種新的藥物預測模型。PS:最好的模型是以最低的總成本實(shí)現最高的性能價(jià)值。

       輸入數據-極其重要

       模型的訓練,至關(guān)重要的一個(gè)環(huán)節就是具代表性描述特性的分子描述符的輸入,進(jìn)一步相關(guān)QSAR、分子描述符、計算信息指紋、基于圖的機器算法,等等。

       QSAR

       QSAR,是通過(guò)結構與活性的關(guān)系以數值的形式進(jìn)行關(guān)聯(lián);即通過(guò)整合計算和統計,對生物活性進(jìn)行理論預測,從而可以對未來(lái)可能的新藥進(jìn)行理論設計,理論上節省了研發(fā)成本。要進(jìn)行QSAR研究,需要3類(lèi)信息:1)具有共同作用機制的不同化合物的分子結構;2)每個(gè)配體的生物活性數據;3)理化性質(zhì)。

       分子描述符

       MD,即定量描述相應理化性質(zhì)的分子的數字表示;依此,研究者可根據與計算描述符數值的相似性來(lái)找到具有相似物理化學(xué)性質(zhì)的分子。分子描述符可分為兩大類(lèi):1)實(shí)驗測量值,如logP、偶極矩、極化率等;2)理論值,如結構、拓撲、幾何、電子、理化等等。理論分子描述符又可以根據其維度建立0D/1D/2D/3D/4D/5D/6D描述符,其中3D/4D的研究最為深入。

       計算信息指紋

       FP,是一種特殊形式的分子描述符,通過(guò)具有固定長(cháng)度的位向量快速有效表示分子結構,以表明內部子結構或官能團的存在或不存在。不過(guò),源自化學(xué)結構的指紋忽略了生物特征,從而在分子結構和生物活性之間關(guān)聯(lián)度度降低,以至于前者的微小變化都會(huì )產(chǎn)生生物活性的實(shí)質(zhì)性差異。FP在計算工作中,常常關(guān)聯(lián)MACCS、Pubchem、CDK等。

       基于圖的機器算法

       化合物結構式在圖方面的表示,主要為分子網(wǎng)絡(luò ),網(wǎng)絡(luò )中的每個(gè)原子都表示為網(wǎng)絡(luò )中的一個(gè)節點(diǎn),使用的算法主要為人工神經(jīng)元網(wǎng)絡(luò )。早在2009年,即有研究者提出了圖神經(jīng)網(wǎng)絡(luò )模型;2016年,斯坦福大學(xué)和谷歌公司的研究人員開(kāi)發(fā)了分子卷積圖,而正是由于將卷積算法應用于圖形,藥物發(fā)現中的計算研究向前邁進(jìn)了一步。

       ML&生物學(xué)問(wèn)題

       現代生物學(xué)的復雜性,使計算成為支撐生物學(xué)實(shí)驗必不可少的工具,因為它們允許以高精度編碼理論模型來(lái)處理大量信息,從而促進(jìn)和加速新藥的開(kāi)發(fā)。無(wú)論是從hit-to-lead,還是一定程度的ADMET,計算都能給出一定的預測。通過(guò)抽取2016-2020年的文章樣本,統計相關(guān)生物學(xué)問(wèn)題如下。

2016-2020年樣本文章解決的生物學(xué)問(wèn)題

       圖5.1 2016-2020年樣本文章解決的生物學(xué)問(wèn)題(見(jiàn)參考文獻)

       如上所述,比例最高的為“藥物-靶標相互作用”。靶標研究,位于疾病和藥物發(fā)現的最前端,這個(gè)“開(kāi)頭”的重要性,自不必說(shuō)?;衔?蛋白相互作用,已成為新藥發(fā)現的先決條件,如PDB數據庫的使用,通過(guò)積累大量的受體-配體結晶,為相互作用提供了大量的數據,是藥物計算研究人員必不可少的數據來(lái)源,同時(shí),相應的也誕生了許多進(jìn)行測算的軟件,如MPLs-Pred。

       ML未來(lái)發(fā)展趨勢

       貝葉斯、支持向量機、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò )的深入研究,無(wú)疑會(huì )為機器學(xué)習的精準度大大助力;而基于結構的藥物設計,將更加離不開(kāi)機器學(xué)習,從而達到快速、高效、低成本的行業(yè)要求。然而,機器學(xué)習的優(yōu)點(diǎn)已有大量研究進(jìn)行展示,但不得不說(shuō)的是,真正憑借機器學(xué)習、人工智能為核心技術(shù),而開(kāi)發(fā)出的上市藥物,還沒(méi)有。故,基于機器學(xué)習的藥物發(fā)現,也一直受到行業(yè)的質(zhì)疑。但技術(shù)上的重大突破,往往伴隨著(zhù)前期的極度質(zhì)疑,而一旦實(shí)現質(zhì)的飛躍,也必將受到更大的投資回報。機器學(xué)習,人工智能,正在發(fā)力,未來(lái)可期!

       參考文獻:

       1.review on machine learning approaches and trends in drug discovery. doi.org/10.1016/j.csbj.2021.08.011

       2.AI-based language models powering drug discovery and development. doi.org/10.1016/j.drudis.2021.06.009

       3.Integration of AI and traditional medicine in drug discovery. doi.org/10.1016/j.drudis.2021.01.008

相關(guān)文章

合作咨詢(xún)

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國際展覽有限公司版權所有(保留一切權利) 滬ICP備05034851號-57
荔浦县| 东辽县| 信宜市| 九江市| 平泉县| 永州市| 兰州市| 大埔区| 义乌市| 舞钢市| 昭平县| 佛教| 潍坊市| 南澳县| 广饶县| 会理县| 双柏县| 盐边县| 蓬安县| 葫芦岛市| 万荣县| 大埔区| 朝阳市| 斗六市| 宣汉县| 鲁甸县| 嵊泗县| 和田县| 东台市| 湘潭县| 曲阳县| 孟州市| 商城县| 兴国县| 洪江市| 肥东县| 洞头县| 咸丰县| 鹤峰县| 犍为县| 仙游县|