騰訊研究成果登《Nature》子刊：「scBERT」模型攻克單細胞測序數(shù)據(jù)分析痛點

本文作者：嘉嘉

2022-09-28 15:05

導(dǎo)語：AI算法有何解法？

9月27日，騰訊在人工智能、生命科學(xué)跨學(xué)科應(yīng)用領(lǐng)域的最新研究成果《scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data》（《基于大規(guī)模預(yù)訓(xùn)練語言模型的單細胞轉(zhuǎn)錄組細胞類型注釋算法》），登上國際頂級學(xué)術(shù)期刊《Nature》子刊《Nature Machine Intelligence》。

據(jù)了解，《Nature Machine Intelligence》只關(guān)注對該領(lǐng)域具有重要影響的科研成果。因其嚴格的評審標準，每年收錄論文數(shù)量平均僅60篇左右。目前該期刊在計算機科學(xué)、人工智能領(lǐng)域期刊中排名第一。

騰訊在論文中創(chuàng)新性地提出關(guān)于單細胞注釋的“scBERT”算法模型，受到《Nature Machine Intelligence》雜志評審高度認可，表示該成果對于單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析領(lǐng)域未來研究具有深遠意義。

單細胞測序技術(shù)是生命科學(xué)領(lǐng)域的一項革命性技術(shù)，可以細粒度地觀察和刻畫各個物種中組織、器官和有機體中單細胞分子圖譜（細胞表達），便于更好地了解腫瘤微環(huán)境，以達到精細分析病因、精準匹配治療方案的效果，對于“精準醫(yī)療”具有極高的應(yīng)用價值。

值得注意的是，受數(shù)據(jù)樣本量小、人工干預(yù)多、過度依賴marker gene（已報道的特異性基因）等因素的影響，單細胞測序細胞類型注釋技術(shù)一直面臨著泛化性、可解釋性、穩(wěn)定性均比較低的問題，現(xiàn)存的算法難以有更廣泛的應(yīng)用。

針對以上問題，論文中首次提出“基于大規(guī)模預(yù)訓(xùn)練語言模型的單細胞轉(zhuǎn)錄組細胞類型注釋算法”，即“scBERT”模型，首次將“transformer”（自然語言處理算法經(jīng)典計算單元）運用到單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析領(lǐng)域。

該模型基于BERT范式，將細胞中基因的表達信息轉(zhuǎn)化成可被計算機理解、學(xué)習(xí)的“語言”，并對細胞進行精準標注。

為了保證全基因組內(nèi)基因級別的可解釋性，“scBERT”在預(yù)訓(xùn)練數(shù)據(jù)上沒有做任何的降維或篩選處理，最大程度上保留數(shù)據(jù)本身的特性和信息。

此外，該模型復(fù)用了大規(guī)模的公開數(shù)據(jù)集，包含不同實驗來源、批次和組織類型的單細胞數(shù)據(jù)，以保證模型能學(xué)習(xí)到更為“通用”的知識，精準捕獲單個基因的表達信息及兩兩基因之間的作用關(guān)系。

從結(jié)果上來看，“scBERT”模型實現(xiàn)了高解釋性、高泛化性、高穩(wěn)定性的單細胞類型注釋技術(shù)。

截至目前，通過了9個獨立數(shù)據(jù)集、超過50萬個細胞、覆蓋17種主要人體器官和主流測序技術(shù)組成的大規(guī)模benchmarking測試數(shù)據(jù)集上，該算法模型的優(yōu)越性均得以驗證。

其中，在極具挑戰(zhàn)的外周血細胞亞型細分任務(wù)上，相較現(xiàn)有最優(yōu)方法的70%準確度提升了7%。

在應(yīng)用價值層面，該項技術(shù)能給細胞中的每個基因都印上專屬“身份證”，可用于臨床單細胞測序數(shù)據(jù)，并輔助醫(yī)生描述準確的腫瘤微環(huán)境、檢測出微量癌細胞，從而實現(xiàn)個性化治療方案或者癌癥早篩。

同時，對疾病致病機制分析、耐藥性、藥物靶點發(fā)現(xiàn)、預(yù)后分析、免疫療法設(shè)計等領(lǐng)域都具有極其重要的作用。

此前，騰訊AI Lab團隊科研成果曾多次入選《Nature Communications》、ACL-IJCNLP等國際權(quán)威期刊，研究方向涵蓋文本理解、文本生成、智能對話、機器翻譯、信息抽取、信息檢索等領(lǐng)域。

未來，騰訊會繼續(xù)基于自身先進AI技術(shù)的積累，與下游臨床、制藥和生命科學(xué)基礎(chǔ)研究領(lǐng)域進行密切合作，為行業(yè)貢獻更多價值。

0人收藏

相關(guān)文章

嘉嘉

編輯

發(fā)私信

當月熱門文章