0

在生產環節中,95% 是一個分水嶺。
以人為對照標準,人工的準確率在 92% 至 98% 之間,因此,行業對機器容忍度的判別標準取之中位數,未達到 95% 的部分,無論是 80% 乃至 90% 的準確率,對模型生成容忍度極低的生產環節而言,二者沒有區別。
過去幾年,以計算機視覺、語音等為代表的 AI 技術領域取得了極大的成功,但受限于模型可解釋性差、通用性不強等弊端,AI 的大規模道路難以展開。
直至大模型技術出現,它通過與人類的交互中不斷學習,進而獲得更好解決問題的能力。這當中,行業 Know-How 在生成內容中起到關鍵作用,對醫學、金融、安全、法律等領域帶來了變革性的影響。
9 月 7 日,在 2023 騰訊全球數字生態大會- Techo 騰訊科學家專場上,論壇聯手 CSIG 前沿探索俱樂部及新基石科學基金會,邀請了騰訊各大實驗室科學家及“科學探索獎”獲獎人,聚焦科學前沿探索和技術應用,以對話的形式,分享最新的落地成果。
大模型技術探索和落地方興未艾,一個業界共識是,大模型深入行業,與各個領域結合,在激發生產力的同時,對原有生產鏈條也將帶來顛覆性的影響,從底層出發向上層邏輯的重塑,最終逐漸影響到技術研發、產品開發、服務消費等各個環節。
多位研究者在與雷峰網交談中提到,AI 技術正被用于生命科學、醫學制藥等研發創新中,越來越多人開始意識到,大模型為新科學規律的發現和 AI for Science 發展提供了更便捷的工具,有學者預測,未來十年內,科學范式將會被生成式 AI 重新定義。
距離科研更近的人,深知復雜科學問題背后的前沿與顛覆,而貼近產業側的開發者,更清楚 AI 技術在應用階段的挑戰與機遇。大模型的出現對 AI for Science 有什么意義?又會對其發展帶來哪些影響?
能力越大,責任越大
“知識增強型”行業大模型已成為共識,是更接近人類大腦、釋放智能生產力的 AI 落地范式,將行業領域知識注入模型當中,提升模型對知識的記憶和推理能力,可以有效填補基礎模型和場景之間的認知鴻溝。
但在實際操作中,從業者往往會發現事情并沒有那么簡單:
一家從事醫療 AI 結合大模型技術服務商告訴雷峰網,從 B 端側來說,醫療大模型可以劃分為診前、診中和診后三個階段,為了應用不同階段會產生的問題,因此,醫療領域大模型在訓練要求就很高。
比如說診前,過去醫生在看病時,需要事先了解許多患者相關的信息和問題,根據收集到的信息判斷大概的情況,這個過程耗時長且占用精力。有了大模型后,這部分工作可以借助 GPT 來完成,醫生通過向模型注入醫療數據和自己知識體系,GPT 可模仿醫生的習慣、提前跟患者了解病理信息。
但一個亟待解決的難題是:醫療環境中對深層語義的要求很高,患者在與醫生溝通時,很少涉及有指征性的專業醫學術語,患者有哪些癥狀是由醫生根據其描述來判斷,當這件事交給模型去做時,它能否將患者的描述與對應的病理問題對齊、做出正確的判斷,對構建醫療大模型而言是個不小的挑戰。
醫學非常復雜,如何與大模型等為代表的 AI 技術相結合,成為學界和工業界共同關注的焦點。
在 Techo 騰訊科學家專場上,北京郵電大學信息與通信工程學院特聘研究員、2022 年“科學探索獎”信息電子領域獲獎人王光宇,與騰訊杰出科學家、騰訊天衍實驗室負責人鄭冶楓,分別從學術視角和工業視角,就對流行病研究、監測及防控的技術思路的異同點,以及大模型、多模態在醫療領域的落地展開了探討和暢想。

鄭冶楓對話王光宇
為了解決醫療大模型“醫學專業度”和可信任問題,騰訊在醫療大模型中加入了天衍實驗室多年來在醫療領域積累的專業 Know-How,涵蓋 285 萬醫學實體、1250 萬醫學關系等結構化數據,基本可覆蓋 98% 的醫學知識。
鄭冶楓指出,通過把專業知識給到模型,讓模型推理時候參考這些知識,比如在患者提問的問題里,采用自然理解語言技術,自動提取一些相關的疾病,相關的藥品,在數據庫里將相關知識給到模型,可以讓模型去做更準確的問答。
同時,打造高質量、專業的醫療大模型,對于提升科學抗議的準確性也具有重要作用。此前,王光宇和團隊在研究中發現,通過預訓練大模型的技術,構建一個通用的蛋白質相互作用的框架,可以有效計算病毒蛋白質對人體的親和力,從而更好地預測病毒未來哪些可能的突變位點發生之后,對人的感染性會更強。
而伴隨著大模型深入具體場景、具體應用和具體問題,它所展現出來的影響力不斷擴大,其實踐和落地的邊界也得以進一步拓寬。
清華大學計算機科學與技術系教授、2020 年“科學探索獎”信息電子領域獲獎人朱軍,與騰訊杰出科學家、騰訊安全玄武實驗室負責人于旸都是聚焦 AI 安全前沿研究的,面對新興技術風口下的網絡安全發展趨勢及挑戰,他們在對話中圍繞相關話題進行了探討分析。

于旸對話朱軍
現階段的網絡安全威脅已呈現出全球化趨勢,不夸張的說,地球上每一分鐘都有還沒睡覺的攻擊者存在。如何防范AI 安全和它帶來的攻擊賦能問題?于旸提出,借助大模型技術加持,安全人員可以有效改變之前需要通過“投喂”大量相關數據進行學習訓練的難題,僅需要做少量的調整,即可實現指令的執行。同時,借助外部工具并對處理結果進行分析,可判斷是否需要再用別的工具,從而完成任務需求。
這樣一來,大模型的能力就越大,能夠改變的領域也越多,所肩負的責任也越大。
朱軍也表示,AI 提升了復雜的推理決策能力后,能夠在較少的數據標注的情況下,通過不斷地交互和試錯,提升大模型自身能力,并調整策略,可實現對網絡安全的助力與增效,這將給整個安全行業帶來巨大的變化。
可以看到,以混元通用大模型為基座、結合行業大模型兩條腿走路,騰訊正對外釋放出大模型深入行業的服務能力,這也是大模型落地最為清晰的一個路徑。
新科學,新范式
2018 年,AI for Science 的概念被提出,為了解決當前科研范式下面臨的諸多難題,AI 技術成為輔助科學家的工具。
其中最具代表性的工作之一,是 2021 年提出的 AlphaFold2 ,開源僅一周的時間里,98.5% 的人類蛋白質結構被 AlphaFold2 所預測,而在此之前,全球多少頂尖科學家耗時數十年的努力,也只解碼了覆蓋人類蛋白質序列中 17% 的氨基酸殘基。
又例如今天爆火的大模型和數據庫,可以有效提高處理海量數據、整合知識的效率。
自十五、十六世紀以來,科學發現以兩條路徑展開:一是基于第一性原理,對物理世界基本理論的探索;其二,則是以數據驅動的方式,對應用基本規律的歸納。
受量子力學建立的影響,第一條路徑瀕臨瓶頸,多數科學問題在理論基礎上、可使用相關的物理模型進行求解。進入真實場景中,面對復雜環境里的實際問題,量子計算產業熱潮興起,應用潛力大,但現實的問題是,其成長周期還很漫長。
中國科學技術大學教授、2022年“科學探索獎”數學物理學領域獲獎人朱曉波與騰訊杰出科學家、騰訊量子實驗室負責人張勝譽二人在交談中就提到,AIGC 對于量子科研或更廣范圍的科學會起到非常大、非常深遠的影響。

張勝譽對話朱曉波
目前,雖然學界與工業界在關于量子計算研究與應用的探索上有重疊,但受不同思維方式的影響,學界更關注實驗室場景下、將事情做得多好,做成;而工業界則更多考慮到研究能否落地,落地后所產生的價值、可規模化的商業價值等。
舉個例子,在實驗室驗證量子算法在某些問題上、最終會比經典算法跑得更快,可能對學界而言是個有價值的工作,但對于具體產業應用來說,距離能夠使用還有很長的一段距離要走。
而在以數據為驅動的第二條路徑中,小規模數據僅限于粗顆粒度的模擬與預測,要提升算法模型的能力,則離不開更大規模的數據支撐。
數據的重要性之于技術發展長期存在。但在國內,高質量、經梳理過的數據短缺是一大問題,特別是有效的中文數據更是稀缺。此外,隨著數據量級的增加,僅依賴傳統的數據處理方式,還會面臨計算代價激增、數據分析效果遞減的問題。
以多媒體通信為例,傳統多媒體應用中的數字化信息數據量龐大,對存儲器的存儲容量、網絡帶寬以及計算機的處理速度等都有較高要求,很難完全通過增加硬件設施來滿足現實的需求。因此,基于腦電信號的智能信息通信成為一個熱門的研究方向。
清華大學電子工程系教授、2021年“科學探索獎”信息電子領域獲獎人陶曉明,與騰訊杰出科學家、騰訊多媒體實驗室負責人劉杉在對話中指出,通過對大腦在感知和信息處理機制方面的研究和理解,可以探索更加智能化的、高效的數據處理和傳輸方法。
與傳統通信場景不同,廣域場景下,受到資源限制、環境復雜等因素影響,通信需求也會受到一定的干擾,劉杉團隊此前的工作經驗,為制定特定場景的壓縮和傳輸標準可提供參考性建議;而在某些資源受限的場景下,壓縮傳輸正展現出越來越重要的角色。
陶曉明表示,在未來面向機器視覺的語義通信方面,結合視頻編碼和語義通信,將可實現特定場景下對關鍵語義信息的更好保護,提高通信的智能化和效率。

劉杉對話陶曉明
今天,大模型之于技術變革和生產力解放的積極意義已經顯現,不局限于物理世界,AI 對生物世界的探索和理解也在生成。
一位從事智能產業研究的科研人員告訴雷峰網(公眾號:雷峰網),目前 AI 研究中所使用的許多數據,是科學家們基于舊范式所得的數據基礎,通過把大模型分布調整至可解決具體任務的參數,并借助 Prompt 對數據再次收集,可獲得更適合大模型發展、AI 進步的新數據。
可以預想,或許在不久的將來,將誕生一個吸收了海量科學訓練數據的大模型,在理解科學知識的基礎上構建出新的假設,產生新的科學發現的可能性,反哺科學研究,從而推動 AI for Science 進一步發展。
仰望星空,腳踏實地
物理科學家狄拉克曾預言,尋求數據建模所需要的基本規律的任務已大體完成:困難只在于這些定律的應用,得到的方程一般都太復雜而無法求解。
直至二十世紀五十年代,電子計算機投入使用,以及微分方程數值方法的出現,人類自此實現了從基本原理出發解決實際問題的能力,并構建起現代工業和技術賴以生存的基礎。
而今,人工智能技術的發展,AI for Science 作為一個正處于茁壯成長期的新的交叉學科,已經成為科研范式的重要創新方向。
一項技術之所以能被賦予“變革”的重量,不能僅停留在實驗室階段,靠的是它的觸角得以延伸至各行各業,解決具體的問題,在應用階段激活生命力。
大模型之于 AI for Science 發展更是如此。
騰訊 AI Lab AI 醫療首席科學家姚建華在同北京大學理學部副主任、北京大學化學與分子工程學院教授、北京大學生物醫學前沿創新中心研究員高毅勤的對話中舉了這么一個例子。

姚建華對話高毅勤
過去,新藥研發是一個漫長的過程。一項發表在 Drug Discovery Today 雜志的分析顯示,制藥巨頭平均每款新藥的成本高達 61.6 億美元,將一款新藥推向市場需要不少于 10 年的時間。但有了 AI 的幫助,不僅可以提升臨床試驗的效率和數據準確性,還能更清晰的進行病理分析,從而大幅提升新藥誕生的效率。
姚建華預測,人類疾病中特別關注的是蛋白,在可見的未來,針對蛋白來進行藥物的設計以及疾病的診療,將是 AI 應用落地創新的重要方向。這不僅需要科研人員對前沿技術保持強大的熱情、仰望星空,也需要如騰訊等工業界一同參與,腳踏實地,實現技術與產業的對接。
對此,高毅勤也表示,只有真正把基于大數據的,基于高精度的、高通量的科學計算的和基于由人工智能直接融合的實驗結合起來,才能更好地發揮 AI 在生命科學領域的重要作用。
科學研究的兩大根本目的,一是對于事物本質的研究和探索,二是解決實際的問題。
依托于這一科學理念,騰訊成立了天衍實驗室、AI Lab 實驗室、多媒體實驗室、玄武實驗室和量子實驗室,圍繞醫療、AI、多媒體、安全和量子五大領域,與業內頂級高校團隊和研究機構展開合作 ,共同探索底層及前沿技術創新及落地應用的可能性。
以天衍實驗室推出的騰訊醫療大模型為例,該大模型當前已具備文案生成、智能問答、病歷結構化和檢索、影像報告、輔助診斷等,可嵌入到診前、診中、診后的醫療環節全流程中去,完成“醫療咨詢平臺+大模型”的升級,提高醫生的就診效率,同時也能進一步做好患者的診后情況跟進。
又比如 AI for Science 領域,在 2022 年 NeurIPS 上 ,騰訊 AI Lab 與多家高校聯合團隊,獲得了第二屆 Open Catalyst Challenge(OCP)競賽冠軍,相較此前 MSRA 的冠軍方案,整體效果提升了 27.6%。
在 ICLR 2022 上,騰訊 AI Lab 提出了基于獨立 SE 等變模型的蛋白-蛋白交互系統 EquiDock,首次實現直接預測旋轉平移和形變,突破了傳統對接軟件中耗時不準的缺點,并將預測速度提升達到 500 倍。
每個行業有每個行業的難題,由于細分場景的數量難以統計,長期以來,提供算法、模型的 AI 公司往往難以洞悉每個行業自身的特殊場景需求。
為此,在量子計算研究領域,騰訊量子實驗室已構建了包括組合優化問題的容錯量子算法,中等規模含噪(NISQ)的量子算法,量子電路的優化,量子噪聲的刻畫等量子算法和軟件在內的量子布局。在此基礎上,還同化學、材料、制藥、金融等行業合作,通過經典算法,AI,軟件開發,數據庫構建,工作流搭建,云平臺上的 SaaS 服務等多方面的理論和實踐研發,加速在工業領域的落地。
中國科學技術大學教授朱曉波對此頗有共鳴,他在對話中指出,得益于騰訊在產業界的巨大優勢,可以基于此找到更有價值的應用場景,轉化成為量子計算機的算法,從而推動學術界努力提升量子計算的性能,在近期和遠期算法兩方面,真正實現讓量子計算機逐步“用起來”。
仰望星空,不忘腳踏實地。
而今,騰訊帶著混元大模型而來,深入領域中去,可以期待,在不久的未來與生物科學、醫學、量子計算、安全、多媒體等研究相結合,率先打響了大模型之于新科學的競賽,這亦是對科學范式變革的關鍵性探索。
經過數月的發展,雖然人們暫時還不清楚大模型在何種條件下可以實現能力“涌現”,例如到底需要多少神經元、多少參數,但相互作用已然出現。通過大模型研究,不僅可以成為解決復雜問題、提高計算效率的工具,更為探索 AI for Science 發展提供了系統性的借鑒思路。
(雷峰網雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。