GAIR Live｜五位學者大論道：ChatGPT，能否重構中國生命科學界的底層邏輯？｜（下篇）

本文作者：任平

2023-03-13 14:37

導語：中國生命科學的產研之路能否彎道超車？

前不久，騰訊研究院發布《AIGC發展趨勢報告2023：迎接人工智能的下一個時代》指出，AIGC的商業化應用將快速成熟，市場規模會迅速壯大，預測將率先在傳媒、電商、醫療等數字化程度高、內容需求豐富的行業取得重大發展。

與此同時，諸多國外商業咨詢機構更是直接給出數據：未來五年10%-30%的圖片內容由AI參與生成，2030年AIGC市場規模將達到1100億美元。

星星之火，可以燎原。早在五年前，AIGC還籍籍無名。它有一個相當拗口的名字--AI生成虛擬內容。以2018年的視頻換臉技術Deepfake為代表，“AI偽原創”一詞，便從那時傳開。

隨著深度學習的發展，AIGC逐漸滲透在圖像、視頻、CG、AI訓練數據等各類領域，人們對于這一技術的期望也逐漸豐滿。

時至今日，AIGC技術能否用于計算生物領域的新引擎，醫療健康賽道何時迎來新型基礎驅動力，成為時下產學研各界的共同關切。

近日，由雷峰網(公眾號：雷峰網)GAIR Live&《醫健AI掘金志》舉辦的《ChatGPT的一把火，能否燒到AI生命科學界？》線上圓桌論壇落幕。

本次論壇，由中國人民大學數學學院龔新奇擔任主持，中國科學院深圳理工大學（籌）計算機科學與控制工程學院院長潘毅、百圖生科首席AI科學家宋樂、深圳灣實驗室系統與物理生物學研究所資深研究員周耀旗、分子之心創始人許錦波，天壤創始人薛貴榮參與討論。近期ChatGPT爆火，歡迎添加作者微信（微信號：icedaguniang），互通有無。

在上篇中，幾位嘉賓共同辨析“AIGC”這一概念，探討生命科學界中的哪些成果屬于AIGC，以及ChatGPT在生命科學領域中可能實現的任務。

在下篇中，將分別探討AIGC為生命科學帶來的可能性與其自身局限，以及中國能否在應用場景上快人一步，實現技術落地與產業轉化。

“全球人工智能與機器人大會”（GAIR）始于2016年雷峰網與中國計算機學會（CCF）合作創立的CCF-GAIR大會，旨在打造人工智能浪潮下，連接學術界、產業界、投資界的新平臺，而雷峰網“連接三界”的全新定位也在此大會上得以確立。

經過幾年發展，GAIR大會已成為行業標桿，是目前為止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。GAIR Live作為雷峰網旗下視頻直播品牌，旨在輸出新鮮、深度、原創的大咖訪談與對話內容，打造輻射產、學、研、投的特色線上平臺。

以下是主題論壇的現場內容，雷峰網《醫健AI掘金志》做了不改變原意的編輯和整理：

ChatGPT，是否會成為生命科學跨越式發展的契機？

龔新奇：目前來看，ChatGPT的文本生成功能確實挺強，第一次讓我們感覺它像個人一樣，能夠自然地聊天，讀懂你的感情、還可以體會到一些細微的褒貶。而且你可以正反提問，甚至還可以夸獎它、批評它。因此，ChatGPT的出現，能否比肩AlphaGo或是AlphaFold2的出現，是否會成為生命科學跨越式發展的契機？

周耀旗：我不認為ChatGPT可以比肩AlphaGo或是AlphaFold2。AlphaGo當年戰勝了人類最好的棋手，而AlphaFold2在高精度蛋白質結構預測上取得了革命性進展，但ChatGPT對生命科學來講，錯誤率太高、準確度不夠，還不能算作一個跨越性的成果。

但我對它的未來版本充滿了信心，特別是當ChatGPT跟搜索引擎結合，會大幅度提高它的精確度。因為它可以出具文獻出處，還可以幫我們提供各個領域的綜述、問題解決思路、促進不同領域溝通，甚至幫助學者撰寫文章初稿。那么未來跨專業、跨語言的交叉研究就變得容易一些。

所以我認為，未來升級版本的ChatGPT完全可以成為一個創新樞紐。科學家把更多精力放在提出問題上，并根據AI的建議來優化、驗證解決問題的方法和思路。所以ChatGPT的出現還是有一定的意義，它推動了一個有想象力時代的到來。

潘毅：我認為今后ChatGPT很有可能成為生命科學領域跨越式的發展契機。至于它的影響力，我跟周教授有不同看法，我認為ChatGPT的影響力會大于AlphaGo和AlphaFold2。

為什么？

AlphaGo為專為圍棋而設計，AlphaFold是專為蛋白質結構預測而設計，所以它們是一個為專業而生的AI平臺。相比而言，ChatGPT是一款通用型AI平臺，既可以交流，又可以撰寫郵件、視頻腳本、文案、翻譯、代碼，寫論文等等，普羅大眾都可以試一試，所以ChatGPT的影響力要遠比AlphaGo和AlphaFold更廣泛、更深刻。因此，雖然ChatGPT在生命科學領域里比不上AlphaFold，AlphaFold在圍棋上比不上AlphaGo，本質是術業有專攻。

最近我和老同學黃學東聊天，發現他對ChatGPT的評價很高，“微軟如今加碼ChatGPT，是因為ChatGPT之于AI，相當于芯片之于計算機這么重要。”

要知道，黃學東多年擔任微軟Azure AI技術研究員和首席技術官，前不久剛剛當選2023年美國工程院院士，此前他并未將Alphago和AlphaFold定義為一個“里程碑式”的技術突破。

當然，周教授說得很對，ChatGPT在生物領域的影響力也許還沒達到，目前ChatGPT無法處理復雜冗長或者特別專業的語言結構。但隨著AI技術的改進，幾年以后它一定會趕上，甚至會超過AlphaGo和AlphaFold。

從另一方面考慮，如今ChatGPT作為一個通用平臺，應該如何推動生命科學發展？

一、生命科學領域的學者為其注入專業性更強的生物知識，只有進行足夠的語料“喂食”，ChatGPT才有可能生成適當的回答。那時候，它或將用于蛋白質結構預測，蛋白質設計、蛋白質相互作用分析等各類任務。

二、指揮ChatGPT編寫程序，比如Java程序、HTML程序，以及各種API（應用程序編程接口）。那么未來生物學家只需要發出指令，ChatGPT就能完成從代碼編寫、接口耦合到程序測試的一系列工作。這也意味著，盡管很多人不能完全精通各種計算機語言，但我們只需要會做一些策劃性工作，就能快速搞定項目。

宋樂：從通用人工智能的角度來說，ChatGPT確實是一個非常大的進步。因為在A I領域，過去的對話機器人很難媲美ChatGPT。因為ChatGPT除了邏輯嚴密的創造能力之外，還具有記憶能力，在連續的對話中不用大家提供重復信息，其語言組織和表達能力也更接近人類水平，使對話更自然流暢。

但實際上，ChatGPT的創造性、流暢度，多輪對話能力，依賴于多種AI技術的結合，包括它的訓練方式都和過去的AI模型不太一樣。

OpenAI使用了RLHF（Reinforcement Learning from Human Feedback，人類反饋強化學習）技術對ChatGPT進行了訓練，且加入了更多人工監督進行微調。因此，ChatGPT進一步提高了AI模型與人類的交互能力，對信息含義的理解能力，以及自我判斷能力。

所以，ChatGPT的本質是對人類語言（自然語言、程序指令）反應能力的數學逼近。相比較而言，過去我們和計算機交互，要么自己打字，要么輸入非常結構化、死板的程序語言。但現在就可以直接以用自然語言和計算機交互，把它視為人類助手。

最近斯坦福一位教授發現，GPT-3.5的智力已經和9歲的小孩相當，這是以前任何AI 程序都不可能達到的高度。總體而言，我認為ChatGPT是可以被視為里程碑式的AI成果，而且它確實會帶來一系列的工業級應用，甚至未來基于ChatGPT衍生出更高級的AI模型。

說到這里，ChatGPT也有一些局限性，比如因為知識缺失，產生一些不正確或者荒謬的答案。

比如你問它“紅燒蚊子腿怎么做”，它會給你一個正了八經的回答：先把蚊子腿洗干凈，再熬制糖漿，然后放入蔥姜蒜煮熟。”它只是把“紅燒豬肉”的做法重復了一遍，把“豬肉”換成了“蚊子腿”。

還有一些有趣的例子，比如你叫它做一些算數運算。如果只是簡單的單位數運算還好，但如果數字比較長，或者比較復雜，它就做不了。實際上，這體現了ChatGPT當前的訓練模式的局限性，更加偏向于基于序列的擬合，或者表征生成序列的形式去訓練。

所以ChatGPT還能朝什么方向優化？

有三點思路：

一、未來需要向ChatGPT注入一些知識圖譜，比如數學運算能力、生物識別能力，補齊它在這些維度的智慧；

二、對于蛋白質設計、藥物設計等細分領域而言，就可以直接“外掛”一些專業模塊，比如復合物結構模塊、親和力模塊、蛋白質穩定性模塊，當“外掛”越多，它的智力更高，也會輸出更更貼合需求的結果；

三、我們也可以學習ChatGPT的算法思路和模型訓練方式，“投喂”十億級、百億級的蛋白質序列數據，訓練出一個專用于蛋白質設計的模型。

薛貴榮：我們比較有幸，2018年做過AlphaGo的復現，2021年我們做過AlphaFold2的復現。但總體來說，這些領域我們有膽量嘗試，但從來沒有嘗試過的就是語言類AI模型。

眾所周知，自然語言處理（NLP）、機器學習（ML）發展了很多年，但人機交互仍然不能做到問答自如，邏輯流暢。根本原因是建立自然語言處理模型的實用系統，需要不同層面的知識，比如匯學、句法學、語義學和語用學等知識。

而且NLP是一個交叉學科，涉及了方方面面的知識領域，包括計算機科學（給NLP提供模型表示、算法設計、計算機實現的技術）、數學（給NLP提供形式化的數學模型和形式化的數學算法）、電子工程：（給NLP提供信息論的理論基礎和語言信號處理技術），以及心理學、哲學、統計學等等。所以從開發難度上看，ChatGPT都是當之無愧的AI界“天花板”。

另一方面，無論是AlphaGo還是AlphaFold2，都是某一領域的專業軟件，但ChatGPT更像一款平民版AI，能夠承載幾個億的用戶一起測試，因此，它在覆蓋面、影響力上，都遠超AlphaGo和AlphaFold2。未來，大家肯定希望像ChatGPT這樣的技術能夠應用在生命科學場景中。

比如，現在的醫療問題是大家有問題找專家，但在醫療資源分配不均、醫療供給量不足的情況下，這一問題始終得不到解決。那么ChatGPT就可以發揮出“消費級應用”的特長，滲透入看病、制藥等環節，降低專家依賴，一步講清所有深奧的“病理、藥理”。而經歷過疫情三年后，大家更關注健康問題，我們也更加期待ChatGPT能夠聯姻生命科學，實現跨越式發展。

許錦波：從AI的角度來說，ChatGPT的出現意義可以和AlphaGo、AlphaFold2相提并論。它們都是重大技術突破，激發的討論突破了業界的范疇，外溢到公眾層面，可見影響力巨大。但是從生命科學角度來講，在蛋白質設計等方面，ChatGPT并不專精。實際上用AI進行蛋白質設計或預測蛋白質結構，兩年前甚至三年前就發生了，只是模型比ChatGPT更小，當時的算力也比較小。

因此，如今AI領域面臨的重要問題是，現在的算法跟兩年前的AI算法，到底有沒有本質上的區別？

至少目前來說，我沒看到本質上的區別。當然，在蛋白質設計上，現在的算法相比于傳統算法確實取得了進步，很多人也在討論，我們是不是要研發出一個ProtGPT，大幅度提高蛋白質設計的成功率？但要明白一點，所有通過AI設計出來的蛋白質都要有濕實驗驗證。如果未來AI能夠大幅度降低對濕實驗的要求，降低實驗成本和時間，甚至用計算驗證來替代實驗驗證，那將是更大的進步。

技術不確定性，成為最大隱憂

當ChatGPT/AIGC大展拳腳，生命科學領域最明顯的變化會是什么？另一方面，這種概念對于生命科學行業，是否有不確定性或者危機？

周耀旗：我覺得AI已經為生命科學帶來了很大變化，特別是AlphaFold2對大部分蛋白質結構的預測，與真實結構只差一個原子的寬度，達到了人類利用冷凍電鏡等復雜儀器觀察預測的水平。這一重大成果雖然沒有引起媒體和廣大民眾的關注，但生物領域的科學家反應強烈。

可以說，AlphaFold2對生物機制的理解，對藥物設計都帶來了正面影響。當然，未來AIGC一定為生命科學帶來更大的變化，比如AI設計的蛋白質會越來越多，進一步補充PDB蛋白質結構數據庫、功能庫，推動人類對生命科學的理解進入到一個新的高度。

與此同時，ChatGPT對于生命科學行業也有很大的不確定性：

一、預測是否錯誤，錯誤率是多少，以及是否誤導用戶。因為AI是通過海量數據訓練出來的，因此這一缺點也與大數據的問題一樣：數據很精確但錯得離譜。相比而言，AlphaFold2有一個plDDT打分函數，但是打分函數并不一定完全正確，有時候還是錯的；

同時，我們也不可能對每個設計結果都做驗證，所以有時候還是很受誤導，得出一些錯誤的結論。但目前我覺得是可以忍受的，因為模型訓練本身就是在糾錯，除了蛋白質設計以外，其他生物高分子的應用也是會越來越多，不僅僅DNA、RNA、代謝組、糖等各方面都會大展宏圖。

二、鑒于ChatGPT會把原來一篇文章重新編輯，那么我認為未來最大問題是出現假論文、編造假實驗數據、甚至用這個技術做壞事，比如產生新病毒、新細菌，都是潛在風險。

所以長期來講，AIGC會隨著時間更加成熟，這種不確定性和危機也會更加隱蔽，可能十幾年、三十年左右就會來臨。我們需要在科學研究能力和風險管理上提前做好準備。

宋樂：我可以想象，隨著數據量越來越多，算力越來越強，AIGC模型本身的生成能力，以及各種外掛功能（親和力、穩定性、表達量）的加持，或許未來非常多的蛋白質設計工作都是在計算機里進行，后端的濕實驗數量就會大大減少。

那么當ChatGPT/AIGC大展拳腳，生命科學領域最明顯的變化，我認為有幾點：

一、實驗人員減少，要求也因此下降，未來或許也不需要那么多的人體臨床實驗；

二、實驗工作者也要學習數據分析，朝AI的方向走，以及一些高校會將計算機課程設立為藥物、生物等專業學生的基礎課；

三、一些新的工作機會也會創造出來，比如如何更好地銜接外掛和AIGC模型，如何真正地推動AIGC模型加速藥物設計。

但從我的感受來，生物的復雜程度各不相同，比如目前數據量最大的蛋白質序列，那么“AIx蛋白質設計”會最快落地，可能是未來3～5年。但是復雜度更高的領域，比如蛋白質相互作用、細胞設計及相互作用、器官設計以及相互作用，它們需要更多的數據，更大的算力、更長的時間打造AI模型。

總體來說，AI在朝著那個方向走，只不過是時間長短的問題。

薛貴榮：可能我們最快感受到的變化，是藥物研發速度大大提高，比如以前研發一款新藥究竟有多難？醫藥界有個“雙十定律”：一款新藥從研發到上市，平均需要10年時間和10億美元的投入。

那么AIGC的發展，時間、資金可能都會縮短，準確度還會有比較大幅度的提升。

當然周教授也提到，或許不同目的的人會加速制造一些病毒細菌，那么未來監管局既要推動優勢藥物上市，也要防范生化危機，需要盡快建立系統性的管控制度和規范。

潘毅：剛才幾位教授都講得非常好，那么我認為，ChatGPT/AIGC這種技術應用在生命科學領域，第一大危機是什么？

一、數據污染。

因為生命信息領域有諸多基因數據庫，假設有人放入一萬個有攻擊性的數據，并將某些基因數據跟疾病關聯，最終預測結果失準。目前我們還沒有看到這樣的事情，因為ChatGPT剛剛出現，大家普遍想用它寫出“好文章”，前后銜接、邏輯連貫、辭藻優美。但如果你的目的是生成有破壞力的內容，就會拿“爛文章”訓練它，甚至ChatGPT也可能被引誘去做壞事。

二、巨大的算力和電力消耗量。

從技術原理來看，ChatGPT基于Transformer技術，隨著模型不斷迭代，層數也越來越多，對算力的需求也就越來越大。從運行條件來看，ChatGPT完美運行的三個條件：訓練數據+模型算法+算力，需要在基礎模型上進行大規模預訓練，存儲知識的能力來源于1750億參數，需要大量算力。

要知道，一個參數要很多數據支撐，近2000億的參數中需要多少數據，要消耗多少電？假如每個國家每個地區都這么做，能源可能就是一個問題。所以規模也不能這么擴大，我還是強調打造專業領域的BioGPT。

三、用戶沉湎、數據隱私、版權倫理。

用戶過分依賴于AI從事內容創作，可能導致內容非原創，缺乏創造力，引發版權問題，甚至隔絕物理世界，影響身心發展，社會整體運作效率反而降低。

許錦波：ChatGPT帶來的好處，至少讓AI蛋白質設計領域的從業者更有信心。最近一兩年，由于AI的深入發展，蛋白質結構及功能研究取得了巨大的突破，從傳統的物理和統計方法快速走向機器學習，乃至深度學習；分子生物學界的研究范式，也從基于序列的研究轉向基于結構的研究，極大提高了蛋白質從頭設計的效率。

而在產業界，AI蛋白質發現和設計也乘勢而起，成為全球矚目的熱門賽道。

但目前來說，大家還無法確定：AI設計蛋白到底能做得多好？相比于傳統方法效率能提高多少？實驗要求能夠降低多少？這些都還需要繼續探索。

手握ChatGPT入場券，中國能否「彎道超車」？

龔新奇：黃民烈教授接受采訪及近年的現象所示，美國在AI的基礎研究上積累深厚，中國則是強于AI的場景應用。在ChatGPT之后，百度將于3月上線ChatGPT產品，名為文心一言。當AIGC用于生命科學領域，中國在技術落地、產業轉化上，是否具備“彎道超車”的機會？

薛貴榮：最近AIGC和ChatGPT的討論特別多，國內又興起了一波AI熱潮。但就像剛才潘毅教授講到的一個關鍵問題：必須建設各領域的專業版GPT。

在各塊專業領域，中國已經積累了大量知識庫，或許我們有機會做到彎道超車。尤其是在生命科學領域，中國的蛋白質設計技術與國際基本上處于同一水平，已經實現了核心技術的原始創新，為工業酶、生物材料、生物醫藥等功能蛋白的設計奠定了基礎。

舉個例子，去年12月1日，華盛頓大學David Baker團隊發布了RFDiffusion、同日波士頓蛋白質設計公司Generate Biomedicines發布了擴散蛋白生成模型Chroma、同月Meta發布基于150億參數的ESM2語言模型，實現全新的非天然蛋白質設計。今年年初，加州伯克利的一家初創公司Profluent也稱采用類似ChatGPT的蛋白質工程深度學習語言模型——Progen，首次實現了AI預測蛋白質的合成。目前我們也自研了一款擴散模型TRDiffusion，設計多種多樣與天然蛋白質截然不同的全新單鏈蛋白質及復合體，目前已進入實驗驗證階段。

實際上，無論是中國也好，美國也好，最大的優勢是大家都能利用蛋白質設計技術，撬開生命科學的窗口。那么后續大家會更加重視生命科學的產業環境，無論是創新藥環境、環保能源環境、食品安全環境等等，都會跟上技術研發的速度。所以我覺得，無論是科技研發、產業落地、還是風險投資，我們一定要對未來的產業環境有足夠的信心和投入。

對于天壤而言，未來在算法升級，干濕實驗室搭建、平臺開發上都需要很大的投入；

其次，大家都知道，蛋白質被稱為“生命的基石”，在已知的天然蛋白質的背后，蘊藏著一個隱密而巨大的“蛋白質礦山”。大家都想最先找到那塊金礦，這方面特別考驗團隊的算力、算法、人才隊伍，以及下游的產業合作。所以這是一個聯動的工作，研發做快了，后面也得跟著快。

因此，回到剛才講到的中國能否彎道超車的問題，我認為這是一個非常具有挑戰性的事情，但最根本的一點，我們不能從一直follow別人的技術，而是要從中國本土的產業轉化和人民需要上找問題，這才是我們彎道超車的機會。

周耀旗：我認為如今的ChatGPT有點像新一波AI熱潮。

2020年AlphaFold2出來的時候，大家對AI的興趣特別大，很多投資方出手，但很快發現AI公司并沒有那么快出效果，所以去年AI熱度又降了下來。如今ChatGPT讓AI再次回熱，但也有人發現它距離SOTA （state-of-the-art model，最先進的模型）還有一段距離，所以我估計大部人很快又會失望。

另一方面，從公司的角度來說，OpenAI公司成立于2015年，8年時間才產生了ChatGPT這樣的轟動項目。但國內有多少家投資商和公司，有耐心等8年？

有人說，中國會發展出更好的ChatGPT，認為中文內容的廣度、深度遠遠超過英文內容。實際上，如今即使是中國人所發表的前沿知識，大部分都是以英文的方式呈現。英文知識庫擴大的速度很快，而中文很慢。因此，只有把中英知識全部結合起來，才能充分利用全人類的積累的知識。

舉個例子，為什么谷歌搜索占據世界第一，國內搜索公司的回答準確性卻很低，甚至它的應用市場只縮在中國？

這是非常現實的問題，主要原因是因為很多國內公司沒有胸懷世界的前景觀，認為專精于中國知識庫就夠了。那么，借助ChatGPT的熱潮，我們到底能不能實現彎道超車？

從國內生物醫藥的政策環境來看，某種意義上我們還存在一些阻礙，特別是國內創新藥市場的帶量集采模式，類似于傳統的統購統銷模式，導致創新藥價格被壓得很低，上游科研、生產等環節都缺乏動力。

相比較而言，全球主要國家創新藥市場銷售額情況，美國占比在50%以上，其他發達國家中，歐洲五國占比約16%，日本韓國占比8%，中國僅占3%，與發達國家差距較大。

這也側面反映了美國在研發，轉化，市場方面具備更深厚的經驗積累，中國還有很多的學習機會。

先不說超車，今后我們要多久才能跟上美國步伐，現在還是很大的挑戰。另外，中國在芯片方面被限制，所以盡管最近很多開源方案可以復用，但大家如果想大幅度超過國際水平，我覺得還是有一點困難。

龔新奇：周教授給我們的建議，我們先能跟跑，再是超車。2021年5月，百圖生科計劃在蘇州工業園區創意產業園建立蘇州研發中心，百度創始人李彥宏到場，看來是想花很大心思想引領中國的“BT+IT”的發展。宋樂老師是百圖生科在AI生命科學方面的的領導者，你覺得，你們有什么樣的規劃可以助力中國來彎路超車？

宋樂：我可以從行業現狀分享一些看法。我觀察一些美國大藥企和美國AI公司在合作上釋放了一個機會窗口給中國。

怎么說呢？美國很多傳統大藥企，更加聚焦于用一些生物手段、實驗手段做藥物篩選，研究大多以生物學家、醫學家為主導。沿用這條舊有的的研發模式，他們非常成功，很賺錢，也花費了大量的實驗成本、試驗周期。但這些公司里的IT、AI團隊都很小，只有3～5個人，很難做出大規模預訓練模型，以及更復雜的結構預測模型。為了促進干濕實驗結合，他們只好源源不斷地引入外部公司研發的AI模型。

但這類公司囿于人力、組織結構，很多情況下他們都是處于觀望和學習的階段。而國外還有一類公司，卻是強于AI，能夠孵化出諸多世界級的前沿AI生物技術。比如Deepmind、Meta、它們強于算法迭代，頻繁在蛋白質結構預測和生上吊打其他公司。

比如最近Meta基于大語言模型而推出的蛋白質設計工具，就被在Meta任職多年的首席AI科學家Yann LeCun直言：效果驚人。因此國外生命科學界的研發落地模式，屬于“頂級AI公司+Biotech公司”強強聯手，不斷擬合兩者之間的gap。

但實際上，跨公司之間的合作矛盾無可避免，成果落地也存在拉扯。截至目前，國外諸多公司只是在算法層面給了我們很多希望，離真實的實驗驗證、技術落地、產業轉化，以及臨床應用，還存在很遠的距離。所以總體來說，美國兩種不同的研發公司，都存在各式不一的先天性缺陷，反而給中國公司提供了一個“時間窗口”。

比如，中國走的路線是將多學科的學者集中起來，在發展之初就強調“AI+實驗”的一體化模式。盡管這種模式在AI制藥的研發、臨床等前期階段耗時長，但只要跨過死亡谷，在硬科技產品商業化、面向市場的階段，或超速美國。

以AI制藥為例，當一個創新藥物進入臨床1-3期的時候，就已經證明了自身市場價值。至于后端的臨床、市場能否產生效益，實際上與資本和政策支持密不可分。換句話說，百圖生科等公司的任務是，做好產業最前端的算法技術升級、藥物發現和篩選，從而進一步縮短藥物交付時間，如此才能真正惠及患者。

總體來說，我們是有一個時間窗口做到彎道超車，但不單是公司模式要革新，投資界也要樹立一種新的視角，學習和借鑒國外“AI+Biotech”的投資理念，如此才能推動產學研生態繁榮。

潘毅：我們所謂的要彎道超車是什么意思？我們說基于GPT的算法做出上層應用，實現市場繁榮。但實際上，GPT是最底層的技術，如果我們做出適用于生物知識問答的BioGPT，蛋白質結構設計的ProGPT，那么我們毫無疑問將彎道超車。

但能否超越國外的算法模型，我們是沒有底氣的，如果GPT4，5...出來了，甚至算法封鎖，國內所有應用層的東西都無法進行。

所以很重要的一點，國內多家互聯網公司模式，盡管做到最大，錢賺得最多，但是底層技術卻仍然落后和依賴“拿來”的東西。這種情況下，我們國家再怎么主導、地方再怎么支持、公司再怎么運作，都無法將底層技術沉淀下來。

問題出在哪里？是我們能不能沉下心來，花上幾年時間，投入巨大的資金，做出一個震驚世界的成果。

相比較而言，做出ChatGPT的OpenAI是怎么是做到的？

2015年，OpenAI成立，核心宗旨在于“實現安全的通用人工智能”，使其有益于人類。創立3年半后，OpenAI建立了新的公司架構，現在的OpenAI由營利性公司OpenAI LP和非營利性母公司OpenAI Inc組成。不過，為了不與最初的使命沖突，OpenAI規定，參與首輪融資的投資者最高可獲得100倍于初始投資的收益，超出的部分都將返還給非營利組織。

2019年7月22日，微軟一擲千金，投資OpenAI 10億美元，今年1月份，微軟宣布向OpenAI追加投資數十億美元，這也是人工智能領域史上規模最大的一筆投資。據說微軟還計劃向OpenAI投資高達100億美元，同時正在討論拿到OpenAI 75%的利潤股份，直到收回投資，之后微軟將獲得OpenAI 49%的股份。

這說明，OpenAI做好了一家實驗室的使命，投資公司也完成了自己最擅長的事情。

但遺憾的是，國內卻沒有一個公司，愿意花上千億，組建百人團隊，賭上自己的十年。這才是真正的問題。所以我們現在要做的，是變革“產學研+投”的發展模式，計劃下我們怎么彎道超車。另外，還有一種方式做到彎道超車--做出專精某一領域的GPT。

現在我們在關注生物信息領域，可以做出與生物有關的GPT。等這一領域的的算力、算法模型、公司實力都愈發強大，就可以將其復用在其他領域。比如法律的LawGPT，經管的FintechGPT，以及方方面面的專有工GPT。

舉個例子，當初我的一個碩士生用半年時間做了一個AI軟件，打敗了AlphaGo。很多人可能會覺得，“你竟然打敗了AlphaGo ，太了不起了”。但這是我們是參照別人已有的AI模型做的改進，技術的復現并不難。難的是，我們不是第一個想到做這樣模型的人。有時候，敢想才是創新的第一步。

許錦波：我覺得中國是有彎道超車的機會，因為“AIGCx生命科學”也不過兩三年的時間，大家都處于發展初期。

其次，中國市場空間更大，對生命科學產業也愈發重視，未來隨著數據、算法、算力的升級，將極大推動技術的發展以及產業轉化。

但回歸到一個核心問題，目前的生物數據能否足夠訓練出生物界的“ChatGPT”？

這當然要看你的要求有多高，好消息是現在蛋白質領域的數據已經非常多，比如蛋白質序列數據已經有幾十億條。我們也在通過濕實驗收集針對特定任務的數據。有了蛋白質通用的序列數據、結構數據，加上特定任務的實驗數據，我很期待未來能夠訓練出更好的AI蛋白質生成模型。

所以現在的關鍵問題在于大家怎么做出更好的AI蛋白質設計算法，如何把各種各樣的數據整合在一起發揮更有效的價值。

隨著高通量技術可以產生更多的實驗數據，相信會促進AI算法越來越好。所以總體來說，我還是很看好中國市場。

圓桌策劃人吳彤，長期關注生物信息學，AI制藥，醫療機器人。近期ChatGPT爆火，歡迎添加作者微信（微信號：icedaguniang），互通有無。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

任平

作者

關注科技

掃描關注作者微信

發私信

當月熱門文章