帝國理工：如何用 AI 解決 80% 專科醫(yī)生擔憂的心律裝置移植手術(shù)難題

本文作者：李雨晨

2019-04-29 08:44

導語：這是首次利用人工智能從X光圖像中識別心律裝置的研究。對于從未見過的圖像，AI識別設(shè)備制造商的準確率為99.6%，對應(yīng)的專家識別準確率為62.3%到88.9%。

倫敦帝國理工學院的研究人員開發(fā)了一種基于AI的軟件，目前，這款軟件被稱為PPMnn（永久起搏器神經(jīng)網(wǎng)絡(luò)），用于識別起搏器或者除顫器的制造商和型號。該研究結(jié)果發(fā)表在美國心臟病學會（JACC）：臨床電生理學雜志上。這篇論文介紹了基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)的開發(fā)、驗證和有效性。

背景

全世界每年有超過一百萬人進行心律裝置的移植手術(shù)，在移植過程中，醫(yī)護人員通常是通過一些算法來輔助自己識別設(shè)備的X圖像，進而確定起搏器或除顫器的制造商和型號。但即使是最有效的算法，識別也不是完美的，而一旦錯誤就會導致病情延誤。

事實上，多達80%的心臟相關(guān)專科醫(yī)生報告說他們“經(jīng)常”難以識別設(shè)備。

研究人員對來自5家生產(chǎn)廠家的45種型號的1676臺設(shè)備的X光圖像進行提取。利用1451幅圖像作為訓練集，建立了卷積神經(jīng)網(wǎng)絡(luò)對圖像進行分類。測試集還包含其余的225幅圖像，每種型號包括5個樣本，并將神經(jīng)網(wǎng)絡(luò)識別設(shè)備的能力與心臟病專家進行了比較。

結(jié)果顯示，神經(jīng)網(wǎng)絡(luò)對制造商設(shè)備的識別準確率為99.6%(95%置信區(qū)間：97.5 ~ 100)，對型號的識別準確率為96.4%(95%置信區(qū)間：93.1 ~ 98.5)。5名心臟病專家對制造商識別正確率的均值為72.0%(范圍為62.2% ~ 88.9%)，無法進行型號識別。可以看出，基于神經(jīng)網(wǎng)絡(luò)識別的能力明顯優(yōu)于所有心臟病專家。

方法

數(shù)據(jù)提取

在本研究中，數(shù)據(jù)集是選取1998年2月至2018年5月期間在 Imperial College Healthcare NHS Trust醫(yī)療保健中心植入的心率儀的圖像。

訓練神經(jīng)網(wǎng)絡(luò)需要足夠多的類別樣例，每一類至少包括25幅圖像，包括便攜式和部門AP/PA胸片，不包括側(cè)位胸片。從連續(xù)病例患者中提取圖像，每個型號最多提取40張圖像，以最小化類不平衡。從每張X光圖像中，分割出一個比設(shè)備稍大的正方形區(qū)域，該區(qū)域最大限度地提高了網(wǎng)絡(luò)的信噪比。然后將這些裁剪后的圖像調(diào)整為224×224像素，并進行歸一化，得到0到1之間的像素值。在提取過程中注意，在某些情況下，如果制造商引進一種新型號時，在X光圖像上沒有檢測到變化，這可能只是設(shè)備軟件上的一個更新，或者是部件外觀上幾乎相同無法區(qū)分。

第一步，是從45類中隨機分配5張圖片作為“測試集”，這在網(wǎng)絡(luò)的任何訓練階段都不會用到，在最終驗證準確性時才會使用。

剩下的“訓練集”用于訓練網(wǎng)絡(luò)，分為兩個不同階段：第一個階段是決定使用哪個底層網(wǎng)絡(luò)(包括結(jié)構(gòu)特征，如層的數(shù)量和大小)以及訓練的快慢(稱為 “學習率”)。這些卷積神經(jīng)網(wǎng)絡(luò)類似于人類大腦的層次結(jié)構(gòu)組織，解決圖像分類問題；第二階段是調(diào)整權(quán)重的詳細過程，以對起搏器進行分類。這兩個階段都使用了訓練集，但方式不同。

在網(wǎng)絡(luò)訓練第一階段 (如圖1所示)，每種神經(jīng)網(wǎng)絡(luò)候選模型都從75%的訓練集中學習，并正確預(yù)測剩余25%的訓練集。如此重復4次，這樣所有的訓練集都輪流扮演了兩個角色。這個過程被稱為“4次交叉驗證”。

帝國理工：如何用 AI 解決 80% 專科醫(yī)生擔憂的心律裝置移植手術(shù)難題

圖1 網(wǎng)絡(luò)設(shè)計流程圖

第二階段，基于第一階段選擇的神經(jīng)網(wǎng)絡(luò)模型開始，但是使用整個訓練集對網(wǎng)絡(luò)進行訓練，得到最終的神經(jīng)網(wǎng)絡(luò)模型。

最后，這個訓練好的網(wǎng)絡(luò)模型第一次向“測試集”公開，“測試集”始終保持獨立，以評估其正確分類制造商和型號的能力。

該研究獲得了衛(wèi)生研究管理局(集成研究應(yīng)用系統(tǒng)標識249461)的監(jiān)管批準。

卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)與訓練

我們評估了五種不同的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(DenseNet、Inception V3、VGGNet、ResNet和Xception)，這些架構(gòu)在近幾年都是世界領(lǐng)先級的。在對整個模型進行再訓練時，使用ImageNet上訓練得到的權(quán)值對所有網(wǎng)絡(luò)進行初始化。

對于每個網(wǎng)絡(luò)，輸出層設(shè)置為45個密集連接的神經(jīng)元(對應(yīng)每個設(shè)備型號1個)。使用交叉熵損失函數(shù)對其中16幅圖像進行損失計算，并使用ADADELTA優(yōu)化器更新權(quán)重。損失是用來評估網(wǎng)絡(luò)性能和改進網(wǎng)絡(luò)性能的技術(shù)指標。損失比簡單的錯誤率(準確度的倒數(shù))更敏感，因為要獲得滿分(零損失)，網(wǎng)絡(luò)對每個心臟起搏器圖像的正確預(yù)測達到100%。

神經(jīng)網(wǎng)絡(luò)的訓練是一個自動調(diào)整權(quán)值以使損失最小化的過程，直到損失函數(shù)達到穩(wěn)定。使用Tensorflow和Keras機器學習框架的Python編程語言進行編程。

可視化

對每個例子進行處理以提供特征映射，其中梯度最高的像素對應(yīng)于正確的類(突出顯示對網(wǎng)絡(luò)決策貢獻最大的像素)，這可以使用Keras-vis軟件完成。

借助算法的專家測試

將225張圖像的測試集提供給5名心臟病專家（其中兩個是電生理學家），同時提供心律儀識別算法CaRDIA-X(3)。該算法只針對制造商進行區(qū)分，而不能識別特定的型號。對于每一幅圖像，都已知是起搏器、除顫器還是循環(huán)記錄器。

我們要求評分者將每種設(shè)備分類為Biotronik、Boston Scientific、Medtronic、Sorin或St. Jude Medical。

統(tǒng)計分析

對比測試神經(jīng)網(wǎng)絡(luò)和借助CaRDIA-X算法的專家對制造商分類的結(jié)果。采用McNemar檢驗進行評估，p值0.05作為統(tǒng)計特征閾值。最后參照每位專家的評估結(jié)果計算精度均值。

精確度定義為測試集中正確分類的圖像數(shù)量除以測試集中圖像的總數(shù)。精確度的置信區(qū)間使用二項式方法計算。對于大小不相等的制造商類別，也計算F1分數(shù)，定義為精度和召回率的平均值的兩倍，范圍在0和1之間。

使用費希爾精確檢驗，對網(wǎng)絡(luò)的準確性進行了不同子組的評估。韋爾奇不等方差t檢驗通過計算每張圖像的拉普拉斯方差來評估部門和便攜式x線片在圖像清晰度方面的差異，采用R軟件進行統(tǒng)計分析。

結(jié)果

數(shù)據(jù)集

數(shù)據(jù)集總共包括來自1575名患者的1676張不同設(shè)備的圖像。盡管有66種不同的設(shè)備型號，但其中一些在視覺上是無法區(qū)分的，這可能只是設(shè)備中軟件的變化。型號組共有45個，其中278張X光圖像來自便攜式設(shè)備，其余1398臺為部門AP/PA片。

測試集45種型號中每種型號由5個樣本組成，總共225個樣本。

帝國理工：如何用 AI 解決 80% 專科醫(yī)生擔憂的心律裝置移植手術(shù)難題

（左）條形圖顯示了識別5個人類報告者和神經(jīng)網(wǎng)絡(luò)中的設(shè)備制造商的比較準確性。p值是指中位數(shù)和最佳人類評分之上的神經(jīng)網(wǎng)絡(luò)的優(yōu)越性。（右）混淆矩陣顯示網(wǎng)絡(luò)在預(yù)測正確的設(shè)備制造商時的準確性。BIO = Biotronik; BOS = Boston Scientific; MDT =美敦力; SOR =索林; STJ = St. Jude。

階段1：不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能比較

對于所有的網(wǎng)絡(luò)模型，經(jīng)過階段1的訓練后，網(wǎng)絡(luò)的性能都達到了一個穩(wěn)定狀態(tài)，損失函數(shù)也下降到一個平穩(wěn)水平。VGGNet的準確率為4.4%，Xception的準確率為91.1%。

第一階段的結(jié)論是為第2階段選擇Xception架構(gòu)打下基礎(chǔ)，并預(yù)先指定訓練的epoch為15。然后第二階段從一個全新的Xception神經(jīng)網(wǎng)絡(luò)開始，使用1451張完整的訓練集進行訓練。最后，使用第二階段生成的最終神經(jīng)網(wǎng)絡(luò)對“測試集”數(shù)據(jù)進行測試驗證。

階段2： “測試集”驗證神經(jīng)網(wǎng)絡(luò)性能

最終的神經(jīng)網(wǎng)絡(luò)識別設(shè)備制造商的準確率為99.6%，對應(yīng)的F1得分為0.996。性能如圖1所示。唯一錯誤分類的圖像是Medtronic Adapta設(shè)備被誤認為Sorin Reply設(shè)備。

不可避免地，識別模型組（而不僅僅是制造商）的性能較低，準確率為96.4% (95% CI: 93.1 ~ 98.5)， F1評分為0.964分。值得注意的是，在其中的8個預(yù)測中，正確的型號是前3個預(yù)測中的1個。因此，通常描述為“前3名”的準確率為99.6% (95% CI: 97.5到100.0)。

帝國理工：如何用 AI 解決 80% 專科醫(yī)生擔憂的心律裝置移植手術(shù)難題

型號識別矩陣

便攜式X光圖像的型號識別準確率為89.5% (95% CI: 75.2 - 97.1)，而部門X線圖像的準確率為97.9% (95% CI: 94.6 - 99.4)(兩組間差異p = 0.029)。然而，唯一的制造商分類錯誤是部門X光圖像。起搏器組準確率為95.0% (95% CI: 90.4 - 97.8)，ICDs組準確率為96.4% (95% CI: 87.5 - 99.6%)(兩組間差異p = 1.00)，準確率在不同廠家之間差異不顯著(p = 0.954)。

與醫(yī)學專家的性能進行比較

五名心臟病專家使用CaRDIA-X算法對5家制造商的225張測試集圖像進行分類。他們的準確率從62.3%到88.9%不等，平均準確率為72.0%，神經(jīng)網(wǎng)絡(luò)的準確率顯著高于專家。

可視化分析

在另一項探索性分析中，我們對測試集中的每張圖像都生成了特征圖，顯示它們所描述的心率儀的最大特征，就類似于臨床醫(yī)學中疾病的病征。

圖3顯示了包含2個不同型號的4幅圖像，圖4表明AT500設(shè)備的特征映射，顯示圍繞該設(shè)備特有的環(huán)形電路板組件。

帝國理工：如何用 AI 解決 80% 專科醫(yī)生擔憂的心律裝置移植手術(shù)難題

圖3

帝國理工：如何用 AI 解決 80% 專科醫(yī)生擔憂的心律裝置移植手術(shù)難題

圖4

討論

這是首次利用人工智能從X光圖像中識別心律裝置的研究。該神經(jīng)網(wǎng)絡(luò)在識別設(shè)備制造商方面具有更高的準確性。對于從未見過的圖像，該網(wǎng)絡(luò)識別設(shè)備制造商的準確率為99.6%，對應(yīng)的專家識別準確率為62.3%到88.9%。

臨床應(yīng)用

在一些臨床應(yīng)用中，使用更快的、可靠的（至少和心臟病專家一樣）工具會大有用處。醫(yī)生用它從一個簡單的胸片快速評估心臟設(shè)備的性質(zhì)。因為只有特定的制造商才能與病人的設(shè)備通信，知道帶哪個程序員來可以節(jié)省寶貴的臨床時間，這樣可以在緊急情況下快速訪問設(shè)備，提供緊急治療。

機器學習：特征圖

在圖3中，大多數(shù)人包括心臟病專家，都很難區(qū)分起搏器的兩種模型。然而，神經(jīng)網(wǎng)絡(luò)不僅能準確地區(qū)分它們，特征圖還能突出區(qū)分它們最明顯的特征。此外，一旦這個顯著的特性被指出來（圖4），就很容易區(qū)分。

網(wǎng)絡(luò)架構(gòu)極大地影響性能

表2顯示了不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能水平，VGGNet在這項任務(wù)上的表現(xiàn)很差。ResNet設(shè)計了“殘差連接”，這種方法使原始圖像可用于網(wǎng)絡(luò)的所有后續(xù)層，而不僅僅是第一層。GoogLeNet Inception使用“1×1卷積”在層之間壓縮信息，大大降低網(wǎng)絡(luò)的復雜性。性能最好的設(shè)計是Xception，它廣泛使用了這兩種創(chuàng)新“殘差連接”和“1×1卷積”。

局限性

該神經(jīng)網(wǎng)絡(luò)可以識別英國地區(qū)常用的設(shè)備，無法適應(yīng)所有的設(shè)備。當然，該網(wǎng)絡(luò)能夠不斷地擴展，訓練神經(jīng)網(wǎng)絡(luò)只需要新設(shè)備的25個樣本。

有時候，神經(jīng)網(wǎng)絡(luò)也會得出錯誤的結(jié)論。盡管網(wǎng)絡(luò)選擇的正確率在96.4%。但（巧合的是）在99.6%的情況下，正確的型號是前3個預(yù)測中的1個。

所有的神經(jīng)網(wǎng)絡(luò)都有“過度擬合”的風險。我們試圖以兩種方式將過度擬合的風險降至最低。首先，網(wǎng)絡(luò)的性能被定義為在未經(jīng)過訓練的“測試集”上的準確性。其次，網(wǎng)絡(luò)中包括各種“正規(guī)化”方法，例如丟失和權(quán)重衰減。

讓神經(jīng)網(wǎng)絡(luò)，從“工作臺走到病床邊”的部署可能很困難，因為在護理時并不總是需要很大的處理能力。通過提供任何人都可以使用的在線Web門戶，我們可以緩解這種情況。

結(jié)論

本研究證明卷積神經(jīng)網(wǎng)絡(luò)能夠從X光片上準確識別心律裝置的制造商和型號。此外，它的性能顯著超過使用流程圖的心臟病專家。

醫(yī)學能力：機器學習和人工智能在醫(yī)學領(lǐng)域，特別是在醫(yī)學圖像分析領(lǐng)域，得到了迅速的發(fā)展。我們的方法會加速患者的診斷和治療。本文也表明了神經(jīng)網(wǎng)絡(luò)越來越多的處理大量的醫(yī)學數(shù)據(jù)（整個衛(wèi)生保健系統(tǒng)），以及未來病人護理可能會越來越多地依賴計算機輔助決策。

成果轉(zhuǎn)化：將機器學習的成果從計算機實驗室轉(zhuǎn)化為現(xiàn)實應(yīng)用往往是困難的。通過研究，我們提供了一個在線教育門戶網(wǎng)站，醫(yī)生可以在線與網(wǎng)絡(luò)互動。與以往一樣，在將神經(jīng)網(wǎng)絡(luò)部署為有效工具之前，進一步的臨床研究對于評估網(wǎng)絡(luò)的準確性至關(guān)重要。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

李雨晨

新智駕主編

專注蔚小理等造車新勢力的原創(chuàng)報道 |微信：Gru1993

發(fā)私信

當月熱門文章