科技日?qǐng)?bào)記者 劉艷
百度研究院在“2022科技趨勢(shì)預(yù)測(cè)”中指出,基于AI的生物計(jì)算仍將高速發(fā)展,基礎(chǔ)研究和應(yīng)用場(chǎng)景協(xié)同創(chuàng)新將實(shí)現(xiàn)新突破。這一預(yù)測(cè)首先由百度自己添上了例證。
國(guó)際頂級(jí)學(xué)術(shù)期刊《自然》(Nature)子刊《自然機(jī)器智能》(Nature Machine Intelligence)日前在線發(fā)表的百度生物計(jì)算領(lǐng)域最新研究成果,提出了“基于空間結(jié)構(gòu)的化合物表征學(xué)習(xí)方法”,即“幾何構(gòu)象增強(qiáng)AI算法”(Geometry Enhanced Molecular Representation Learning,GEM模型),揭示了一種基于三維空間結(jié)構(gòu)信息的化合物建模方法,及在藥物研發(fā)中的應(yīng)用。
在該項(xiàng)研究中,百度螺旋槳PaddleHelix團(tuán)隊(duì)首次將化合物的幾何結(jié)構(gòu)信息引入自監(jiān)督學(xué)習(xí)和分子表示模型,并在下游十多項(xiàng)的屬性預(yù)測(cè)任務(wù)中取得 SOTA,成為百度對(duì)外公開(kāi)的AI賦能藥物研發(fā)的又一項(xiàng)重磅成果。
作為藥物研發(fā)的關(guān)鍵一環(huán),候選化合物的性質(zhì)預(yù)測(cè)就像為臨床試驗(yàn)“排雷”,即提前篩選掉毒副作用高、人體吸收代謝不好等具有不良特性的化合物。
這項(xiàng)任務(wù)以前只能通過(guò)傳統(tǒng)仿真實(shí)驗(yàn)進(jìn)行,成本高耗時(shí)長(zhǎng)。也有研究人員引入深度學(xué)習(xí)技術(shù),但大多基于序列或2D圖結(jié)構(gòu)建模,缺乏化合物三維空間結(jié)構(gòu)信息的利用,導(dǎo)致化合物性質(zhì)預(yù)測(cè)結(jié)果的偏差,亟須引入化合物的三維空間信息。
百度的重大突破是,在全球范圍內(nèi)開(kāi)創(chuàng)性地將化合物性質(zhì)預(yù)測(cè)從“2D建?!蓖七M(jìn)到“3D建?!?。同時(shí),引入預(yù)訓(xùn)練技術(shù),利用大量無(wú)標(biāo)注的化合物數(shù)據(jù),通過(guò)自監(jiān)督學(xué)習(xí),構(gòu)建GEM模型的底層能力,有望成為小分子藥物研發(fā)領(lǐng)域的模型底座,解決小分子藥物活性預(yù)測(cè),成藥性預(yù)測(cè),藥物設(shè)計(jì)等核心問(wèn)題,加速藥物,特別是全新藥物的發(fā)現(xiàn)過(guò)程。
從實(shí)驗(yàn)效果看,百度GEM模型已在14個(gè)國(guó)際學(xué)術(shù)界公認(rèn)的應(yīng)用任務(wù)數(shù)據(jù)集上達(dá)到業(yè)界最佳。這些數(shù)據(jù)集包括:抑制HIV艾滋病病毒復(fù)制能力的數(shù)據(jù)集、小分子的生物活性數(shù)據(jù)集、血腦屏障滲透數(shù)據(jù)集等。
在應(yīng)用價(jià)值層面,百度GEM模型可高效學(xué)習(xí)化合物的空間結(jié)構(gòu)知識(shí),并自主推斷出空間結(jié)構(gòu)信息,從而準(zhǔn)確預(yù)測(cè)候選化合物的吸收、代謝、毒性等特性,幫助藥物研發(fā)更快更準(zhǔn)地完成早期篩選,目前已經(jīng)在多個(gè)合作伙伴的研發(fā)管線中實(shí)現(xiàn)商業(yè)化落地,有望通過(guò)AI技術(shù)探索雙靶點(diǎn)抑制劑新的研發(fā)范式,為癌癥病人和自身免疫性疾病病人提供更有效的治療藥物。
此外,該方法還有助于高效測(cè)量藥物-靶標(biāo)相互作用,可加速新藥研發(fā),為老藥發(fā)掘新用途,并探索多種藥物聯(lián)合使用,進(jìn)一步增強(qiáng)療效,降低抗藥性和毒副作用,甚至療治新病癥。
百度這項(xiàng)生物學(xué)與計(jì)算機(jī)科學(xué)的跨學(xué)科創(chuàng)新,為化合物成藥性預(yù)測(cè)、小分子藥物篩選、藥物聯(lián)用等應(yīng)用研究帶來(lái)諸多裨益,未來(lái)更有望擴(kuò)展到蛋白領(lǐng)域,構(gòu)建基于蛋白的表征模型,服務(wù)于大分子的藥物研發(fā)。
GEM模型已基于百度飛槳生物計(jì)算平臺(tái)螺旋槳PaddleHelix在GitHub開(kāi)源。
(圖片提供:百度)