科技日?qǐng)?bào)記者 張佳星
近日,《自然》子刊報(bào)告了一種藥物開(kāi)發(fā)的新技術(shù),利用“達(dá)爾文進(jìn)化論”的加速版,通過(guò)隨機(jī)程序化組裝快速生成數(shù)百萬(wàn)個(gè)小分子組合,迅速找到了新的腫瘤精準(zhǔn)治療的候選藥物。
利用不同的解決方案或研究思路,通過(guò)收集、匯總大量數(shù)據(jù),實(shí)施數(shù)據(jù)挖掘、分析,高效地開(kāi)發(fā)藥物或者制定有針對(duì)性的治療方案,越來(lái)越成為目前醫(yī)藥研發(fā)公司、醫(yī)療服務(wù)機(jī)構(gòu)、醫(yī)院、診斷中心等開(kāi)展精準(zhǔn)治療的有效路徑。
在百萬(wàn)乃至千萬(wàn)級(jí)別的海量數(shù)據(jù)中發(fā)現(xiàn)有效目標(biāo),算法和算力正成為醫(yī)藥研發(fā)領(lǐng)域不可或缺的核心技術(shù)。醫(yī)療大數(shù)據(jù)云端化,將較好地彌補(bǔ)醫(yī)療行業(yè)在算法、算力方面的“短板”,助推精準(zhǔn)治療時(shí)代到來(lái)。
虛擬圖。 由受訪單位提供
云端化數(shù)倍增加數(shù)據(jù)挖掘量
新冠疫情到來(lái),醫(yī)療行業(yè)更加意識(shí)到,需要通過(guò)數(shù)據(jù)的云端化,更好地駕馭更大量的數(shù)據(jù),助推精準(zhǔn)治療時(shí)代到來(lái)。
以阿斯利康為例,作為在研發(fā)新冠疫苗和藥物方面進(jìn)展快速的跨國(guó)型藥企,據(jù)統(tǒng)計(jì),它在24小時(shí)之內(nèi)約需要進(jìn)行510億個(gè)數(shù)據(jù)的統(tǒng)計(jì)分析,這些數(shù)據(jù)包括基因類(lèi)型的數(shù)據(jù)和病患的數(shù)據(jù)。對(duì)這些數(shù)據(jù)的分析,可以支撐他們?cè)?020年同時(shí)進(jìn)行40多種新藥開(kāi)發(fā)的項(xiàng)目。
但并不是所有的數(shù)據(jù)都是能直接用的,在數(shù)據(jù)挖掘之前,必須進(jìn)行大量的“結(jié)構(gòu)化”工作。但事實(shí)上,一些醫(yī)療機(jī)構(gòu)在收集患者數(shù)據(jù)時(shí),經(jīng)常難以結(jié)構(gòu)化,例如對(duì)“浸潤(rùn)”的描述,在不同科室學(xué)術(shù)術(shù)語(yǔ)不同,這使得在算法挖掘時(shí)數(shù)據(jù)不大好用。
為了讓非結(jié)構(gòu)化數(shù)據(jù)也能實(shí)現(xiàn)分析功能,很多醫(yī)療領(lǐng)域的科技公司都在努力地創(chuàng)新、嘗試。亞馬遜云科技通過(guò)降低門(mén)檻、準(zhǔn)備數(shù)據(jù)和標(biāo)注數(shù)據(jù),擴(kuò)大機(jī)器學(xué)習(xí)在醫(yī)療領(lǐng)域的數(shù)據(jù)發(fā)掘范疇。
“我們發(fā)布的應(yīng)用中,之前對(duì)專(zhuān)業(yè)的標(biāo)注有專(zhuān)門(mén)的設(shè)計(jì),在新冠疫情期間,肺炎的數(shù)據(jù)通過(guò)專(zhuān)業(yè)團(tuán)隊(duì)標(biāo)注進(jìn)行了及時(shí)跟進(jìn)?!?亞馬遜云科技機(jī)器學(xué)習(xí)相關(guān)負(fù)責(zé)人介紹,專(zhuān)業(yè)團(tuán)隊(duì)擁有特定領(lǐng)域和專(zhuān)業(yè)的知識(shí),并且符合客戶(hù)對(duì)于數(shù)據(jù)安全和隱私、合規(guī)等要求。
云端化降低了數(shù)據(jù)挖掘的門(mén)檻,讓醫(yī)療行業(yè)更好地駕馭患者數(shù)據(jù),提供精準(zhǔn)化的診斷、治療的方案,提高整個(gè)醫(yī)療服務(wù)運(yùn)營(yíng)的效率。
云端化實(shí)現(xiàn)隨叫隨到的“存儲(chǔ)”
醫(yī)療大數(shù)據(jù)里最常見(jiàn)的是影像數(shù)據(jù),由于影像數(shù)據(jù)格式標(biāo)準(zhǔn),因而容易獲取和使用。中科院分子影像重點(diǎn)實(shí)驗(yàn)室主任田捷曾表示,未來(lái)的影像中心就像飛機(jī)駕駛艙一樣,是各種各樣信息的綜合體;而未來(lái)的醫(yī)生則相當(dāng)于飛行員,要處理各種各樣的信息。
醫(yī)療影像信息有歸檔要求高、數(shù)據(jù)量大、存儲(chǔ)量大的特點(diǎn),對(duì)于云端讀取的實(shí)時(shí)性提出更高的要求。醫(yī)療影像的數(shù)據(jù)長(zhǎng)年不能刪除,需要?dú)w檔很多年。在實(shí)際的應(yīng)用中,這些影像數(shù)據(jù)可能一年都用不到一回,但也可能突然就會(huì)要求馬上調(diào)用這個(gè)數(shù)據(jù)。
醫(yī)療數(shù)據(jù)的存儲(chǔ)特殊性需要云存儲(chǔ)既滿(mǎn)足低成本的長(zhǎng)期存儲(chǔ),又要滿(mǎn)足即時(shí)快速調(diào)用的要求。通過(guò)智能分層的技術(shù),亞馬遜云科技構(gòu)建了及時(shí)索引的分層,可以幫助客戶(hù)在歸檔的數(shù)據(jù)里面產(chǎn)生索引,在需要取用的時(shí)候,仍然能夠像熱數(shù)據(jù)一樣馬上就能索引到。而在不需要索引的時(shí)候,這些數(shù)據(jù)像歸檔存儲(chǔ)一樣,長(zhǎng)期保存在非常低的成本存儲(chǔ)層中。據(jù)介紹,這一技術(shù)可以使歸檔數(shù)據(jù)在毫秒級(jí)完成訪問(wèn),并將節(jié)省近70%的存儲(chǔ)成本。
云端化實(shí)現(xiàn)低門(mén)檻的機(jī)器學(xué)習(xí)
無(wú)論是醫(yī)學(xué)領(lǐng)域還是數(shù)據(jù)科學(xué)領(lǐng)域都是注重實(shí)踐的研究領(lǐng)域。相關(guān)專(zhuān)家表示:人工智能技術(shù)在醫(yī)學(xué)上的研究、應(yīng)用,不是寫(xiě)文章、談概念,也不是紙上談兵,更不僅僅是做篩查,而是要將技術(shù)與臨床緊密結(jié)合,解決實(shí)際臨床問(wèn)題。
然而,缺乏跨學(xué)科的高水平人才,仍舊是讓醫(yī)療行業(yè)與數(shù)據(jù)挖掘融合起來(lái)的難點(diǎn)之一。如何讓對(duì)數(shù)據(jù)和編程一竅不通的醫(yī)療學(xué)者快速上手機(jī)器學(xué)習(xí)呢?
“他們無(wú)需任何技術(shù)背景,完全不需要具備機(jī)器學(xué)習(xí)或者其他的一些技術(shù)能力,就能夠用到我們的人工智能或機(jī)器學(xué)習(xí)服務(wù)。” 亞馬遜云科技機(jī)器學(xué)習(xí)和醫(yī)療人工智能總監(jiān)Taha Kass-Hout博士表示,只需要用自然語(yǔ)言去請(qǐng)求服務(wù),通過(guò)聊天框搜索就能夠使用機(jī)器學(xué)習(xí)服務(wù)。
人工智能可以幫助客戶(hù)更好地去編撰數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理、打標(biāo)簽等工作,實(shí)現(xiàn)機(jī)器學(xué)習(xí)的托管型云服務(wù)。
云端化通過(guò)降低機(jī)器學(xué)習(xí)的使用門(mén)檻,大大加速了臨床治療的精準(zhǔn)性。例如在慕尼黑白血病實(shí)驗(yàn)室建立了世界上最大的白血病數(shù)據(jù),通過(guò)把患者的基因數(shù)據(jù)和患者的電子病歷數(shù)據(jù)整合在一起,用于精準(zhǔn)化的臨床治療。