2024年8月26日至30日,備受矚目的數(shù)據(jù)庫理論和系統(tǒng)領(lǐng)域國際頂級學(xué)術(shù)會議VLDB 在廣州召開,深圳計算科學(xué)研究院樊文飛院士科研團隊攜“去病”生物創(chuàng)新藥研發(fā)AI系統(tǒng)(Graph Association Analyses for Early Drug Discovery)參會,獲大會唯一最佳系統(tǒng)演示獎(BEST DEMO AWARD)。
藥物研發(fā)領(lǐng)域一直面臨著“10億、10年、10%”的挑戰(zhàn),即從藥物發(fā)現(xiàn)到最終上市,需要10年時間、耗費10億美金,卻只有不到10%的成功率。隨著人工智能的快速發(fā)展,業(yè)界正在努力尋求利用AI技術(shù)提高研發(fā)效率,加速藥物發(fā)現(xiàn)和開發(fā)過程。
深圳計算科學(xué)研究院開發(fā)的“去病”系統(tǒng),旨在解決傳統(tǒng)藥物研發(fā)過程中的一些關(guān)鍵問題,如依賴專家經(jīng)驗、需要大量的實驗以及數(shù)據(jù)質(zhì)量參差不齊等。該系統(tǒng)采用自主研發(fā)的內(nèi)嵌機器學(xué)習的邏輯規(guī)則“AI+”體系,具備自動化、高精度、可解釋性和低成本優(yōu)勢,顯著提升了藥物早期研發(fā)的效率,從而大幅縮短了藥物發(fā)現(xiàn)的周期。以下是“去病”系統(tǒng)的幾個核心特點:整合大規(guī)模生物醫(yī)學(xué)數(shù)據(jù)構(gòu)建識圖譜,揭示藥物與疾病的復(fù)雜關(guān)聯(lián)關(guān)系;通過邏輯推理與深度學(xué)習相結(jié)合的方式,增強模型的預(yù)測能力;提供AI模型預(yù)測結(jié)果的可解釋性,為研發(fā)人員提供論據(jù)并滿足醫(yī)藥領(lǐng)域的監(jiān)管要求;利用高效的崖山數(shù)據(jù)庫系統(tǒng),實現(xiàn)強大的數(shù)據(jù)管理功能;配置數(shù)據(jù)質(zhì)量控制和增強模塊,為藥物早期發(fā)現(xiàn)提供了前所未有的智能支持。
與通用的大模型相比,“去病”系統(tǒng)在靶點識別、藥物-疾病關(guān)聯(lián)分析以及藥物相互作用等領(lǐng)域表現(xiàn)出更高的效率、準確性和專業(yè)性,并具備更深層次的行業(yè)融合能力。
例如,在靶點識別方面,“去病”系統(tǒng)通過對PPI(蛋白質(zhì)相互作用)網(wǎng)絡(luò)的自動發(fā)現(xiàn),能夠預(yù)測目標蛋白的相互作用。在一個具體案例中,系統(tǒng)只用了三天時間便發(fā)現(xiàn)了SYT2蛋白質(zhì)的自相互作用,并且這種蛋白質(zhì)后來被《Nature》雜志的一篇論文證實與一種呼吸道疾病相關(guān)聯(lián)。在蛋白質(zhì)相互作用的初步識別中,相比于黑盒模型,“去病”系統(tǒng)的預(yù)測準確率提升了43%。
在藥物-疾病關(guān)聯(lián)關(guān)系方面,“去病”系統(tǒng)持續(xù)匯聚、融合、清洗10多個生物醫(yī)藥數(shù)據(jù)庫的數(shù)據(jù),構(gòu)建了一個統(tǒng)一的知識圖譜。基于此圖譜,“去病”系統(tǒng)自動發(fā)現(xiàn)圖關(guān)聯(lián)規(guī)則,并運用機器學(xué)習內(nèi)嵌于規(guī)則體系的GAR技術(shù)深入分析藥物、生物通路、基因以及疾病之間的復(fù)雜拓撲結(jié)構(gòu),從而預(yù)測現(xiàn)有藥物與疾病之間的潛在關(guān)聯(lián)。在實際應(yīng)用中,“去病”系統(tǒng)僅用4小時便識別出5個與帕金森病相關(guān)的藥物候選,這極大地縮短了先導(dǎo)化合物的發(fā)現(xiàn)時間,降低了研發(fā)成本,并加速了藥物研發(fā)的整個流程。
VLDB(International Conference on Very Large Databases) 是數(shù)據(jù)庫領(lǐng)域頂級的國際會議,在全球?qū)W術(shù)界和工業(yè)界享有極高的聲譽。它與SIGMOD、PODS以及ICDE并稱為數(shù)據(jù)庫四大頂級會議,是展示和分享數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)管理領(lǐng)域前沿研究理論和技術(shù)成果的年度重磅國際學(xué)術(shù)盛會。
相關(guān)稿件