0
7 月 30 日,成立不到一年的百圖生科(BioMap)宣布完成上億美元的 A 輪融資,這家由李彥宏牽頭發起并親任董事長、原百度風投 CEO 劉維作為聯合創始人兼 CEO 掌舵的「中國首家生物計算驅動的生命科學平臺公司」向外界放出雄心:
公司致力于用高性能生物計算和多組學數據技術加速創新藥物和早篩早診等精準生命科學產品的研發,力圖讓更多疾病可預警、可控制、可治愈,為行業提供更好的生物地圖(BioMap),幫助藥廠找到化合物,幫助醫生找到生物標志物,幫助科研人員找到各種生物數據背后的意義。
不久之前,國際機器學習大牛又宋樂加入李彥宏生物計算軍團。為世界知名機器學習專家,他領導著百圖生科 AI 算法團隊,為獨具特色的生物計算引擎研發提供技術動力。
宋樂博士是著名的機器學習和圖深度學習專家,曾任美國佐治亞理工學院計算機學院終身教授、機器學習中心副主任,阿聯酋 MBZUAI 機器學習系主任,螞蟻金服深度學習團隊負責人(P10)、阿里巴巴達摩院研究員,國際機器學習大會董事會成員,具有豐富的 AI 算法和工程經驗。
自 2008 年起,宋樂博士在 CMU 從事生物計算相關的研究,利用機器學習技術對靶點挖掘、藥物設計取得了一系列突破性成果,獲得 NeurIPS、ICML、AISTATS 等主要機器學習會議的最佳論文獎。社區服務方面,他曾擔任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等 AI 頂會的領域主席,并將出任 ICML 2022 的大會主席,他還是同行評議期刊 JMLR、IEEE TPAMI 的副主編。
近日,由雷峰網(公眾號:雷峰網) & 醫健AI掘金志主辦的GAIR「醫療科技高峰論壇」在深圳正式召開。
這一次,醫健AI掘金志以「醫療AI的破局與新生 」為主題,將話筒傳遞給四位院士、5位IEEE Fellow、19位行業領袖,由他們以分別從歷盡鉛華的醫學影像AI、和風勁正濃的AI制藥兩大賽道出發,為行業的發展提出自己的判斷。
論壇之上,百圖生科首席AI科學家,ICML 2022大會主席宋樂,以《用人工智能賦能新藥研發》為題,發表了一場演講。
宋樂教授提到,大家在憧憬AI可以在新藥發現領域展現巨大作用的同時,還有三個問題要提前考慮。
第一個挑戰,了解復雜疾病的困難。例如胃癌,因為胃連接不同器官;細胞層面上,每個器官有不同細胞進行不同作用,細胞之間通性也是很復雜的網絡;分子層面,細胞里有各種各樣蛋白質等分子產生相互作用,也形成了很復雜的網絡。所以,如果為一種胃部疾病找合適治療靶點,就需要對整個網絡有透徹的了解。
需要測量每一個環節、每一個尺度,包括整個機體組織尺度,整個組織的切片,細胞之間如何通信,如何表達這些基因。甚至要看到細胞里的蛋白質互相作用,收集這些數據會非常復雜。
例如,需要測量單個細胞基因表達量,蛋白質表達量。甚至還需要同時測量單個細胞基因表達、不同細胞在空間、組織里面的表達。
第二,對于包括基因層面的基因測序、表觀組,蛋白質表達、蛋白質代謝,組織層面、機理層面等多維度、多尺度的數據,如何進行復雜且多樣化的融合處理。
傳統方式是對每個維度分開分析,再通過人來做整合;現在可以用AI將多尺度、多樣化數據整合。 除了數據多樣性問題,數據量增加也非常快,生物數據每7個月翻一倍。
第三個挑戰,行業配合問題。數據分析與實驗往往是兩波人,他們之間的溝通缺乏一個非常高效的系統,將預測、模型輸出和試驗系統進行整合,加速迭代。
通常情況下,都是數據分析員根據根據已有知識在腦海里形成假設,然后讓實驗員做實驗;有了數據后,再給數據分析團隊分析,驗證假設是否成立,決定下一次實驗。
整個實驗-數據分析-模型環節比較開環,但不是完全開環,缺少一個非常高效的系統,將預測或模型輸出和實驗系統整合,加速迭代過程。
以下是演講的全部內容,雷峰網做了不改變愿意的整理和編輯:
今天我分享一下對人工智能賦能醫藥的理解以及行業現狀,人工智能在這個領域能做些什么。
首先,這個行業面臨很大的挑戰,我將其定義為雙十挑戰。
第一,醫藥研發漫長;每個新藥從研發到上市需要10年時間甚至更多,藥物篩選過程非常艱難。
很多藥物都是小分子或蛋白質,種類極多,篩選空間甚至有10的60次方,從這么大范圍找出最終的藥物分子,并推到上市,其實非常艱難。
計算節點上,要從10的60次方中找到1萬種,再從里面選幾百個做Preclinical測試,之后再做臨床試驗,整個過程中每一步都有很高的失敗率。
而且,前期篩選經常預測不到后期屬性,導致產物后期無法使用,就要從頭重新篩選,周而復始。

第二個“十”是指,開發一個新藥大約需要10億美金左右的造價。1950年還有很多比較容易治療的疾病未被治愈,
如果當時有10億美金投入,可以發現幾十個藥物。但現在面對的都是比較難的疾病,并且現在我們對藥物的療效、副作用減少的要求越來越高,監管要求越來越嚴。
所以10億美金只能發現一個新藥物。如果我們能把新藥研發的造價降低、成功率提升的話,也可以節約研發經費,這個市場是巨大的。
所以AI新藥研發面對的是一個非常廣闊的市場,但大家在憧憬AI可以在新藥發現領域展現巨大作用的同時,還有三個問題要提前考慮:
第一個挑戰,了解復雜疾病的困難。例如胃癌,因為胃連接不同器官;
細胞層面上,每個器官有不同細胞進行不同作用,細胞之間通性也是很復雜的網絡;
分子層面,細胞里有各種各樣蛋白質等分子產生相互作用,也形成了很復雜的網絡。
所以,如果為一種胃部疾病找合適治療靶點,就需要對整個網絡有透徹的了解。
需要測量每一個環節、每一個尺度,包括整個機體組織尺度,整個組織的切片,細胞之間如何通信,如何表達這些基因。甚至要看到細胞里的蛋白質互相作用,收集這些數據會非常復雜。
例如,需要測量單個細胞基因表達量,蛋白質表達量。甚至還需要同時測量單個細胞基因表達、不同細胞在空間、組織里面的表達。
第二,對于包括基因層面的基因測序、表觀組,蛋白質表達、蛋白質代謝,組織層面、機理層面等多維度、多尺度的數據,如何進行復雜且多樣化的融合處理。
傳統方式是對每個維度分開分析,再通過人來做整合;現在可以用AI將多尺度、多樣化數據整合。
除了數據多樣性問題,數據量增加也非常快,生物數據每7個月翻一倍。
但是傳統方式分析效率卻不高,所以就需要AI模型用HPC方式,把數據里有用或微弱的信息整合。

第三個挑戰,行業配合問題。數據分析與實驗往往是兩波人,他們之間的溝通缺乏一個非常高效的系統,將預測、模型輸出和試驗系統進行整合,加速迭代。
通常情況下,都是數據分析員根據根據已有知識在腦海里形成假設,然后讓實驗員做實驗;有了數據后,再給數據分析團隊分析,驗證假設是否成立,決定下一次實驗。
整個實驗-數據分析-模型環節比較開環,但不是完全開環,缺少一個非常高效的系統,將預測或模型輸出和實驗系統整合,加速迭代過程。
為了解決這三個挑戰,有必要形成一個AI-實驗的閉環系統,把預測和濕試驗的環節打通到同一個系統。
百圖生科建立了干濕試驗閉環的高通量平臺,這個平臺在AI模型有一個巨大的場景,可以整合現有的數據,產生異構的、復雜的知識圖譜。
基于知識圖譜可以進行AI模型擬合,或者整合這些數據并且產生預測。例如要探究某個蛋白質是不是某個疾病的靶點,或者我們設計出方案是不是針對這個靶點有效,直接發放給實驗系統,收集到的可能是生物實驗數據,可能是翻譯的數據,甚至是圖像數據,很快可以通過AI模型或者計算機視覺方法更新,再進行下一個實驗。
接下來,我再介紹一下AI主要在每個環節可以做什么,大概分為三部分:
第一,在藥物發現階段找到新靶點;
第二,根據靶點設計新的藥物分子;
第三,在試驗閉環階段進行交互學習。
下面具體列舉幾個案例:
第一個案例,AI找出目標蛋白質,例如在復雜蛋白質相互作用網絡,或信號通路里找出蛋白質。
細胞膜上有很多蛋白質,阻斷或激活膜蛋白的作用就會產生細胞間的生物作用。而且,每個蛋白質在不同疾病里,對應蛋白質表達單元也不一樣。
尋找針對某個疾病表現的蛋白質,就需要把得到的細胞基因表達數據、蛋白質表達數據整合到同一網絡里。
過去,有很多生物學家做了這方面研究,模型做得很復雜,將很多復雜的AI模型遷移到生物網絡里。
例如在生物計算領域,蛋白質之間連接產生了非常復雜相互作用網絡。
這個網絡不單是兩兩蛋白質作用,也可能有三、四個蛋白質相互形成作用。蛋白質又關系到關鍵基因表達,每個節點有非常復雜的屬性,就需要用圖神經網絡進行推理。

我們也可以借鑒其他領域的圖神經網絡模型,融合在一起學習更好的模型。
圖神經網絡是現在比較火的領域,大量搜索的經驗都可以遷移到靶點發現領域,讓靶點發現變得更有效,融合各種各樣信息。
第二個案例,AI怎樣針對靶點設計有效藥物。一般藥物都是有機小分子或大分子,或蛋白質或RNA。
所以,設計藥物就要涉及很多小分子性質和大分子結構預測。例如AlphaFold 2可以根據給定序列預測蛋白質結構。
蛋白質的結構對其功能、作用非常關鍵,如果知道蛋白質功能結構就可以更好了解其功能,所以,準確蛋白質結構對設計結構非常關鍵。
除了蛋白質,AI領域還能看到各種各樣搜索。例如RNA分子二級結構、三級結構,如果AI預測出這些結構對RNA藥物設計也有幫助。
除此之外,各種各樣小分子以及它們的屬性,毒性、水溶性,針對某一個靶點的有效性,也都可以通過AI模型預測。
其實,生物制藥的數據形態與傳統互聯網差異較大,生物制藥數據中很多是圖數據,而傳統互聯網主要以網絡數據、人的行為數據為主。
在生物制藥領域,如果想對一張圖結構數據進行預測,或者對生成的小分子、大分子等生物序列比對,就需要各種各樣圖數據模型和VAE模型,甚至還要基于VAE模型學習小分子表征,進行小分子搜索和優化。
除了預測結構和功能外,AI在小分子性質優化上也有很多應用,例如已知一個小分子是潛在藥物,利用AI更高效合成這些小分子,這就涉及到AI模型和博弈數搜索的結合。
目前,AI在小分子、大分子的應用已經非常完善,AlphaFold2本身就是非常復雜的AI模型。

第三個案例,預測RNA二級結構折疊,通過RNA序列來預測結構。
我認為RNA藥物未來可能是AI制藥非常好的應用方向。
這是RNA二級結構預測演示,先輸入RNA序列,如果需要預測RNA結構。就要在RNA 序列遠端位點折疊,使空間上比較接近,位點接近程度用接觸圖表征。

AI模型可以在其中基于序列輸入預測接觸圖,目前最好的手段就是深度學習,它的完善程度甚至超越了一些計算機視覺類模型。
用AI分析這樣的數據,首先需要對序列分析,例如可以通過自然語言處理模型表征生物學序列。
這時,Transformer模型預測的是2D的結果,如果要生成圖像數據,還需要做卷積神經網絡產生特征,再預測接觸圖。
而且還要考慮結構的限制,AlphaFold 2就是采用類似的策略,這相比傳統模型確實有巨大提高。

實驗和AI模型閉環情況下,除了基因表達數據、蛋白質表達數據之外,AI還可以解決有細胞圖像的數據。
細胞圖像數據圖像可能有六個頻道熒光圖像,如何基于熒光圖像,描述出微妙的細胞狀態變化,就需要做很多模型開發和設計。
此外,AI還可以提升一些信息含量比較高的實驗的效率。
第四個案例,有效打標簽。這不止是AI模型問題,也是系統設計的問題,而且也需要專家知識。
往往一開始只能獲得少量精標簽,訓練一個尚可的模型。
但是如果讓這個模型變成更準確的模型,就需要閉環的系統,讓AI模型對大量沒有標簽的圖像打標簽,并呈現給無專業背景篩選,再給專家進行精標簽;精標簽打完后,再回流到AI模型更新,進行下一環。
整個過程如果在閉環情況下,就更有可能在少量精標簽情況下,讓模型繼續對大量沒有精標簽的圖像打標簽。
此外,AI還可以輸出分割標準,以及選擇什么樣圖片打標簽,在各個環節都有很多可以做東西,有很多可以提高的空間。

最后總結一下,我們目前面臨的都還是非常復雜的問題,即使有很多觀測手段,收集到大量數據,有如此多的AI模型,也還是杯水車薪。
未來,如何把AI模型、專家知識和實驗手段結合在一起,還需要交叉學科的團隊一起努力,希望感興趣的同學加入這個領域,把生物計算交叉學科研究做得更好。

這是今天我想講的就是以上這些,如果感興趣,額外的信息可以關注我們公司的公眾號并訪問我們的網站。謝謝大家!
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。