新藥發(fā)現的速度在不斷提升,但耐藥、治療無(wú)效仍然是困擾大多數患者的艱難問(wèn)題。發(fā)現新的聯(lián)合用藥組合,能為患者帶來(lái)新的可能,也對進(jìn)一步設計全新藥物與現有藥物聯(lián)合作用提供了明確的方向。
作為突破創(chuàng )新藥物研發(fā)平臺,百圖生科以發(fā)現多靶點(diǎn)組合、設計能實(shí)現復雜調控機制的精準藥物為目標,已在藥物組合研究上實(shí)現了一系列的突破。
近日,一項由百圖生科聯(lián)合香港中文大學(xué)、阿卜杜拉國王科技大學(xué)等學(xué)術(shù)機構共同完成的新研究發(fā)表在預印本網(wǎng)站arXiv。
該研究提出的新方法基于超大規模AI預訓練技術(shù),一方面,不僅能實(shí)現對聯(lián)合用藥效果的行業(yè)最佳預測準確率——新方法比此前行業(yè)中的最佳模型提升10%以上,相較經(jīng)典機器學(xué)習方法提升30%以上;另一方面,還能對訓練數據中未見(jiàn)過(guò)的新藥物或細胞系給出理想的聯(lián)合用藥效果預測——與此前行業(yè)最佳的模型相比,新模型的AU ROC超過(guò)了近15%。

多模態(tài)+圖網(wǎng)絡(luò )+預訓練,“三位一體”實(shí)現精準的藥物組合推薦
在該研究中,團隊從涵蓋各種藥物相關(guān)方面的數據集中收集大量數據,并創(chuàng )新性地基于這些多模態(tài)數據開(kāi)展超大規模預訓練,生成藥物、蛋白質(zhì)和疾病的信息表征和特征,更進(jìn)一步的,基于細胞內的蛋白-基因之間的調控關(guān)系網(wǎng)絡(luò )構建出深度圖神經(jīng)網(wǎng)絡(luò )模型,兼具可解釋性和模型預測能力。
文章表明,該模型在一系列藥物協(xié)同作用預測的基準數據集上均實(shí)現了最佳的預測效果,在來(lái)自阿斯利康的藥物組合數據集驗證顯示,這一新方法比目前行業(yè)中的最佳模型提升10%以上,相較經(jīng)典機器學(xué)習方法提升30%以上。
更重要的是,對于訓練數據中未見(jiàn)過(guò)的藥物及其組合的預測,新的模型也表現優(yōu)異。
研究團隊開(kāi)發(fā)了兩個(gè)覆蓋39個(gè)獨立藥物和10個(gè)獨立細胞系的數據集,以測試這些方法在訓練數據中沒(méi)有見(jiàn)過(guò)的藥物和細胞系上的表現。結果表明,新方法在這方面保持了很好的性能,各項指標均達到80%以上,而其他方法如DeepDDS的表現均在70%以下。與此前行業(yè)最佳的模型相比,新模型的AU ROC超過(guò)了近15%。
團隊認為,本次提出的新方法和框架,既有助于在濕實(shí)驗中發(fā)現新型藥物,也將推動(dòng)建立更為精確的組合藥物指南。
與單一藥物治療相比,聯(lián)合用藥治療具有諸多已被廣泛證實(shí)的好處:不但可以提高療效,減少副作用和宿主毒性,甚至可以克服耐藥性。在單一藥物難以奏效的情況下,聯(lián)合用藥治療越來(lái)越多地用于包括HIV、病毒感染和癌癥等復雜的疾病中。
當然,藥物組合能夠發(fā)揮治療價(jià)值的一個(gè)大前提,是準確地找到了合適的藥物組合。
傳統尋找藥物組合的方法,往往基于臨床試驗的不斷試錯,不僅耗時(shí)長(cháng)、成本高,也無(wú)法排除對患者造成傷害的風(fēng)險。此外,受限于既有資源和海量的藥物組合搜索空間,也難以大規模地對所有藥物組合進(jìn)行臨床驗證實(shí)驗。
近年來(lái),隨著(zhù)實(shí)驗技術(shù)的發(fā)展,高通量藥物篩選(HTS)讓探索大型藥物組合空間成為現實(shí),與藥物組合協(xié)同作用相關(guān)的數據量也大幅增加。這類(lèi)公共數據集的出現和完善,推動(dòng)了特定組織的藥物研究,并為計算方法的完善提供了高質(zhì)量的訓練數據,使評估預測藥物組合的計算方法成為可能,尤其是基于深度學(xué)習的AI方法。
而現有模型及其所使用的數據集依然有較大局限性,包括預測目標通常停留在一個(gè)特定的細胞系或組織,或者通常是基于單一的數據庫,距離普適性、無(wú)偏見(jiàn)、可大規模推廣的藥物協(xié)同作用預測模型仍有不少差距。
為了解決上述問(wèn)題,在這項研究中,團隊提出一個(gè)端到端的深度學(xué)習框架,通過(guò)利用多模態(tài)數據、圖神經(jīng)網(wǎng)絡(luò )和大規模無(wú)監督訓練,提取和整合了藥物協(xié)同作用的重要特征,從而準確地預測協(xié)同效應。

圖:該研究提出的藥物組合預測框架
具體而言,模型將藥物的化學(xué)結構圖和細胞系的基因/蛋白質(zhì)表達作為輸入,應用預先訓練好的藥物分子圖transformer和蛋白質(zhì)預訓練語(yǔ)言模型,將藥物和蛋白轉換成嵌入向量,并使用知識嵌入學(xué)習算法,從醫學(xué)知識圖譜中獲得的融合疾病、藥物、蛋白關(guān)聯(lián)關(guān)系的基因表征嵌入向量。
接下來(lái),通過(guò)將藥物-藥物相似性關(guān)系、藥物-靶點(diǎn)基因/蛋白對應關(guān)系、以及蛋白和蛋白相互作用關(guān)系等構建成具有更豐富信息的圖,利用圖神經(jīng)網(wǎng)絡(luò )將生成的嵌入向量作為節點(diǎn)表示,對藥物協(xié)同作用進(jìn)行傳播和推演,在圖神經(jīng)網(wǎng)絡(luò )的基礎上,團隊建立了一個(gè)協(xié)同效應預測器,通過(guò)多層感知器(MLP)來(lái)預測協(xié)同效應。
實(shí)驗效果最優(yōu),且實(shí)現對全新藥物的預測
為了驗證新模型對于藥物組合的預測效果,研究團隊做了一系列的測試。
驗證的第一步,是在公開(kāi)的DrugCom數據集上與最先進(jìn)的方法進(jìn)行比較,其中包括五種深度學(xué)習方法:DeepDDS、 TranSynergy、DeepSynergy、MR-GNN、 MatchMaker,以及兩種經(jīng)典機器學(xué)習方法:XGBoost、Adaboost。

如表2所示,新方法在所有重要指標上都取得了當前最好的結果。具體來(lái)說(shuō),在最重要的兩大指標AU ROC和F1,新方法比第二優(yōu)的DeepDDS方法提升2%以上,比經(jīng)典機器學(xué)習方法更有超過(guò)20%的提升。

更進(jìn)一步的,表3則總結了上述7種方法在行業(yè)公認的阿斯利康(AZ)數據集上遷移測試的表現。這一數據集基于專(zhuān)門(mén)評估藥物協(xié)同預測的賽事“AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge',由阿斯利康、桑格研究所、Sage Bionetworks-DREAM Challenge組委會(huì )共同推出。
相比于其他的方法,新方法在指標上大幅超越了其他的方法,體現了很強的推廣能力。
為了進(jìn)一步驗證新方法的泛化能力,團隊開(kāi)發(fā)了兩個(gè)覆蓋39個(gè)獨立的藥物和10個(gè)獨立的細胞系的數據集,以測試了這些方法在訓練數據中沒(méi)有見(jiàn)過(guò)的藥物和細胞系上的表現。

如表4顯示,新方法在這方面保持了很好的性能,各項指標均達到80%以上,而其他方法如DeepDDS和DeepSynergy出現了下降到70%以下的情況。
總體而言,該研究提出的新模型在實(shí)驗中充分驗證了其有效性和穩健性,并始終且顯著(zhù)優(yōu)于其他模型。
研究團隊認為,將這一模型擴展到更多任務(wù)上,會(huì )是一個(gè)很有前途的研究方向。在未來(lái),將諸如三維分子結構這樣的更多信息納入框架之中,該方法的性能還可以進(jìn)一步提升。此外,研究團隊也將開(kāi)發(fā)能夠進(jìn)行更多的藥物、細胞系和疾病相關(guān)任務(wù)的方法,而不局限于藥物聯(lián)合效應預測。
我們相信,研究團隊提出的新方法可以作為一個(gè)強大的工具,促進(jìn)精確的藥物聯(lián)合治療醫學(xué)的發(fā)展,尤其是實(shí)現全新用藥組合的推薦。