0
| 本文作者: 李雨晨 | 2018-01-31 10:10 |
雷鋒網消息,谷歌在ArXiv上公開了一篇論文,也很可能是谷歌使用深度學習模型在電子病歷建模分析方面的首篇文章。這篇論文由“編譯器從不警告Jeff,Jeff會警告編譯器”的谷歌大腦高級研究員Jeff Dean率隊,聯合了UCSF、Stanford、UChicago等知名機構的眾多大牛。
論文地址:https://arxiv.org/pdf/1801.07860.pdf

在這篇文章里,Google選擇了UCSF、Stanford、UChicago作為合作單位,在兩個大的醫院系統——CSF和UChicago的電子病歷數據上,用深度學習模型預測四件事情:住院期間的死亡風險、規劃之外的再住院風險、長時間的住院天數以及出院的疾病診斷。
據雷鋒網了解,本篇論文的作者團隊背景豪華。Quoc Le等人是深度學習界耳熟能詳的人物。此外,Nigam Shah是Stanford生物醫學信息中心的終身教授,一直大力推動機器學習、數據挖掘技術在醫學信息學中的應用。而Atul Butte則是醫學信息學界最有影響力的學者之一,本人是UCSF計算健康科學中心(Institute for Computational Health Science)的首任director,美國醫學院院士。
他們總結了這篇論文得到的兩個成果。首先,提出了一個通用的數據處理途徑,可以將原始的EHR數據作為輸入,并且在沒有手動特征協調的情況下生成FHIR標準輸出。這一成果使得系統可以相對容易地部署到新醫院。
其次,基于兩家具有普通患者群體(不局限于ICU)的醫院數據,展示了在各種預測問題和設置中使用深度學習模型的有效性。
雷鋒網了解到,作者從2012-2016年的加州大學舊金山分校(UCSF)以及2009-2016年的芝加哥大學醫學(UCM)中獲取了EHR數據。他們把每個衛生系統稱為A醫院和B醫院。所有電子健康記錄都進行了脫敏。這兩個數據集都包含患者人口統計數據、診斷記錄、藥物治療、生命體征等數據。UCM數據集(但不是UCSF)還包含了不確定的、免費的醫學注釋。
此外,作者還采用了FHIR標準,開發了一個單獨的數據結構,而不需要手動創建的數據集。
盡管考慮到數據的巨大潛力,但是提高預測模型的可擴展性是困難的,因為對于傳統的預測建模技術來說,要預測的每一個結果都需要創建具有特定變量的自定義數據集。人們普遍認為,分析模型中80%的工作是預處理、合并、自定義和清理數據集,而不是對此進行分析,這極大地限制了預測模型的可擴展性。
我們主要采用了三種模型:LSTM、前饋神經網絡和決策樹。在輸入模型之前,所有電子病歷中的事件全都被嵌入到一個統一的低維空間中。
我們使用了兩個美國學術醫療中心的EHR數據來驗證我們的方法,其中包括住院至少24小時的216221名病例。深度學習模型對住院期間死亡風險(AUROC)、規劃之外的再住院風險(AUROC 0.75-0.76)、長時間的住院天數(AUROC 0.85-0.86)和出院的疾病診斷(頻率加權AUROC 0.90)都具有較高的準確性。這些模型在所有情況下都優于最先進的傳統預測模型。
事實上,常規收集的病人醫療數據還沒有用于臨床醫生改善護理服務的預測統計模型。另一個挑戰是,電子健康記錄(EHR)中潛在的預測變量的數量可能會很容易地達到數千個之多。傳統的建模方法僅僅通過選擇非常有限的常用變量,由此產生的模型可能會產生不精確的預測:假陽性的預測可能會加重醫生、護士的負擔。
深度學習和人工神經網絡的發展可以使我們應對這些挑戰。一個關鍵的優點是,調查人員通常不需要指定考慮哪些潛在的預測變量,以及如何進行組合;相反,神經網絡可以學習來自數據本身的關鍵因素和交互表示。具體來說,這種深度學習方法可以將電子健康記錄(包括自由文本注釋)納入到對一系列臨床問題和結果的預測中,這些問題和結果比傳統的預測模型要好得多。
使用計算機系統從“高度組織和記錄的數據庫”中學習臨床數據具有悠久的歷史。盡管目前EHRs的數據已經數字化,但最近對醫學文獻的系統回顧發現,用EHR數據構建的預測模型使用的變量的中位數為27,依賴于傳統的廣義線性模型,并且是在單個中心使用數據構建的。在臨床實踐中,最常用的是更簡單的模型,比如CURB-65,這是一個5因素模型,或者是單參數的警告分數。
對每個患者使用更多可用數據的一個主要挑戰是,來自多個站點的衛生數據缺乏標準和語義互操作性。通常為每個新的預測任務選擇一組獨特的變量,通常需要耗費大量勞動來提取和規范來自不同站點的數據。
重要的前期研究集中于在傳統關系數據庫中通過耗時的數據標準化來解決可擴展性問題,如OHDSI聯盟定義的OMOP標準。這樣的標準允許跨站點的預測模型的一致性開發,但是只適應原始數據的一部分。
最近,一種被稱為FHIR的數據結構被開發出來,以一種一致的、分層的、可擴展的容器格式來表示臨床數據,而不考慮衛生系統,它簡化了站點之間的數據交換。然而,這種格式并不保證語義一致性,增加了處理不協調數據的額外技術需要。
通過電子健康記錄和深度學習方法的發展,對電子健康記錄數據的深度學習的應用迅速發展。在一項著名的研究中,研究人員使用自動編碼器預測一組特定的診斷結果。隨后的工作擴展了這種方法,通過對患者記錄中發生的事件的時間序列進行建模,這可以提高依賴于事件順序的場景的準確性,以及卷積和遞歸神經網絡。
一般來說,以前的工作集中于EHR中可用的特性的子集,而不是在電子健康記錄中所有可用的數據,包括臨床自由文本注釋以及大量結構化和半結構化數據。由于重癥監護(模擬)數據的醫療信息市場的可用性,許多先前的研究也集中在單一中心的ICU患者;其他單中心研究也關注ICU患者。每個ICU患者的數據都比普通醫院病人多得多,盡管非ICU的住院人數比ICU的住院人數多出6倍。
我們感興趣的是,深度學習能否在廣泛的臨床問題和結果中產生有效的預測。因此,我們選擇了來自不同領域的結果,包括住院期間的死亡風險;規劃之外的再住院風險;長時間的住院天數;出院的疾病診斷。
住院期間的死亡風險:我們預測住院病人的死亡率,定義為“過期”的出院處置。

圖1:來自每個衛生系統的數據,一個合適的FHIR資源,并按時間順序排列。深度學習模型可以在做出預測之前使用所有可用的數據。因此,不管任務如何,每個預測都使用相同的數據。
規劃之外的再住院風險:我們預計將在30天內重新入院,并在出院后30天內入院。如果入院日期在出院后30天內,住院治療被認為是“重新入院”。一個重新接納的計劃只能算一次。
長時間的住院天數:我們預測至少7天的時間,住院時間是指住院和出院之間的時間。
出院的疾病診斷:我們預測了全部的初級和二級ICD-9賬單診斷。
我們共納入了216221例住院病例,涉及114003例獨立病人。住院死亡率為2.3%(4930/ 216221),計劃外30天的入院率為12.9%(27918/216221),較長住院時間(23.9%),患者的出院診斷范圍為1到228次。人口統計和利用特征見表1。為了預測住院死亡率,AUROC在24小時內入院后,醫院A為0.95(95% CI 0.94 - -0.96),醫院B為0.93(95% CI 0.92 - -0.94)。這明顯比傳統的預測模型更準確。



圖2:箱線圖顯示了EHR中的數據量,以及它在接收過程中的時間變化。我們將一個令牌定義為電子健康記錄中的單個數據元素,如藥物名稱,在特定時間點。每個令牌都被認為是深度學習模型的潛在預測因子。箱線圖中的線表示中位數,方框表示四分位范圍(IQR),須為IQR的1.5倍。令牌數量穩步增加,從入院到出院。出院時,A醫院的代幣數中位數為86477,醫院B為122961。

圖3:接收人操作曲線下的區域顯示了深度學習和基線模型在入院前和住院后12小時內的住院死亡率的預測。 對于住院病死率,與加利福尼亞大學舊金山分校(UCSF)和芝加哥大學醫學院(UCM)分組的基線相比,深度學習模型在每個預測時間都實現了更高的識別率。 這兩種模式在前24小時都有所改善,但深度學習模式在UCM提前約24小時達到類似的精確度,甚至提前48小時達到UCSF的水平。錯誤條表示引導的95%置信區間。
我們可以總結一下,這種深度學習方法,將整個電子健康記錄納入其中,對各種臨床問題和結果進行預測,結果超過了最先進的傳統預測模型。

圖4:患者記錄顯示一名患有惡性胸腔積液和膿胸的轉移性乳腺癌患者。在圖的頂部的病人時間線包含了每個時間步驟的圓圈,其中至少有一個標記為病人而存在,而水平線顯示的是數據類型。我們訓練了每種數據類型的模型,并在紅色中突出顯示了模型所關注的標記——非突出顯示的文本沒有被處理,而是顯示在上下文環境中。這些模型在藥物、護理流程和臨床記錄中提取特征來進行預測。
因為我們感興趣的是深度學習能否在不同的醫療領域產生有效的預測,該方法在臨床護理預測模型的可擴展性方面具有重要的先進性。首先,我們的研究方法是將整個EHR的單一數據表示作為事件序列,允許該系統用于任何可能在臨床或操作上有用的預測,而無需額外的數據準備。傳統的預測模型需要大量的工作來準備一個具有特定變量的數據集,由專家選擇,并由分析師為每一個新的預測進行組裝。這些數據的準備和清理通常消耗掉預測分析項目80%的工作量,限制了預測模型在醫療保健行業中的可擴展性。
其次,用病人的所有預測圖來做預測不僅能提高可擴展性,還能提供更多的數據來做出準確的預測。對于出院時的預測,我們的深度學習模型考慮了超過460億份EHR數據,并在醫院停留的時間比傳統模型更準確地做出了預測。
據我們所知,我們的模型在預測死亡率(0.92-0.94 vs 0.91)上優于現有的EHR文獻,例如評價死亡風險的NEWS分數,以及評價再住院風險的HOSPITAL分數等,作者對這些模型做了微小的改進。最終通過比較,作者的模型都顯著好于這些傳統模型(AUC普遍提高0.1左右)。
然而,這種方法的新穎之處并不僅僅在于增量模型性能的改進。更確切地說,這種預測性能是在沒有人工選擇專家認為重要的變量的情況下實現的,這與深度學習對EHR數據的其他應用類似。相反,我們的模型可以訪問每個病人的成千上萬個預測因子,包括自由文本注釋,并了解什么對于特定的預測是重要的。
此外,我們的研究也有重要的局限性。
第一,它是一個回顧性的研究,具有所有通常的局限性。
第二,盡管人們普遍認為準確的預測可以用于改善護理,但這并不是一個預料之中的結論,需要進行前瞻性試驗來證明這一點。
第三,個性化預測的一個含義是,它們利用了許多特定EHR的小數據點,而不是一些常見的變量。未來的研究需要確定如何在一個站點上訓練的模型能夠最好地應用于另一個站點,這對于那些具有有限歷史數據的站點尤其有用。作為第一步,我們證明了類似的模型架構和訓練方法為兩個地理上截然不同的衛生系統提供了可比較的模型,但是在這一點上還需要進一步的研究。
最后,計算資源耗費大,花費時間大于20萬GPU小時。
在我們的研究中,最具挑戰性的預測可能是預測病人的全部出院診斷。由于幾個原因,這個預測很困難。首先,一個病人可能有1到228次出院診斷范圍,而這個數字在預測的時候是不知道的。
其次,每項診斷可以從大約14025個ICD-9診斷代碼中選擇,這使得可能的組合總數指數級增大。最后,許多ICD-9編碼在臨床上類似,但在數字上是不同的(例如,011.30“支氣管結核,未說明”與011.31“支氣管結核,細菌學或組織學檢查沒有完成”)。這就產生了將隨機誤差引入預測的效果。微F1評分是一個指標,當預測超過一個單一結果(例如多個診斷)時,我們的模型比在ICU數據集的文獻中所報告的更少。這是一個概念驗證,證明可以從日常的EHR數據中推斷出診斷,這可以幫助觸發決策支持或臨床試驗招募。
使用自由文本進行預測還可以提高預測的可解釋性。 由于溝通機制的問題,臨床醫生歷來不了解神經網絡模型。 我們展示了我們的方法如何可視化模型“查看”每個病人的數據,臨床醫生可以使用這些數據來確定預測是否基于可信的事實,并可能有助于確定行動。
在我們的案例研究中,該模型確定了患者的歷史和放射學研究結果的元素,這是至關重要的數據點,臨床醫生也會使用。這種方法可以解決這樣的問題:這種“黑盒”方法是不可靠的。然而,對于深度學習模型的可解釋性還有其他可能的技術,需要進一步研究這一方法的認知影響和它的臨床效用。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。