0
| 本文作者: 李雨晨 | 2019-04-29 08:44 |

倫敦帝國理工學院的研究人員開發(fā)了一種基于AI的軟件,目前,這款軟件被稱為PPMnn(永久起搏器神經(jīng)網(wǎng)絡(luò)), 用于識別起搏器或者除顫器的制造商和型號。該研究結(jié)果發(fā)表在美國心臟病學會(JACC):臨床電生理學雜志上。這篇論文介紹了基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)的開發(fā)、驗證和有效性。
全世界每年有超過一百萬人進行心律裝置的移植手術(shù),在移植過程中,醫(yī)護人員通常是通過一些算法來輔助自己識別設(shè)備的X圖像,進而確定起搏器或除顫器的制造商和型號。但即使是最有效的算法,識別也不是完美的,而一旦錯誤就會導致病情延誤。
事實上,多達80%的心臟相關(guān)專科醫(yī)生報告說他們“經(jīng)常”難以識別設(shè)備。
研究人員對來自5家生產(chǎn)廠家的45種型號的1676臺設(shè)備的X光圖像進行提取。利用1451幅圖像作為訓練集,建立了卷積神經(jīng)網(wǎng)絡(luò)對圖像進行分類。測試集還包含其余的225幅圖像,每種型號包括5個樣本,并將神經(jīng)網(wǎng)絡(luò)識別設(shè)備的能力與心臟病專家進行了比較。
結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)對制造商設(shè)備的識別準確率為99.6%(95%置信區(qū)間:97.5 ~ 100),對型號的識別準確率為96.4%(95%置信區(qū)間:93.1 ~ 98.5)。5名心臟病專家對制造商識別正確率的均值為72.0%(范圍為62.2% ~ 88.9%),無法進行型號識別。可以看出,基于神經(jīng)網(wǎng)絡(luò)識別的能力明顯優(yōu)于所有心臟病專家。
數(shù)據(jù)提取
在本研究中,數(shù)據(jù)集是選取1998年2月至2018年5月期間在 Imperial College Healthcare NHS Trust醫(yī)療保健中心植入的心率儀的圖像。
訓練神經(jīng)網(wǎng)絡(luò)需要足夠多的類別樣例,每一類至少包括25幅圖像,包括便攜式和部門AP/PA胸片,不包括側(cè)位胸片。從連續(xù)病例患者中提取圖像,每個型號最多提取40張圖像,以最小化類不平衡。從每張X光圖像中,分割出一個比設(shè)備稍大的正方形區(qū)域,該區(qū)域最大限度地提高了網(wǎng)絡(luò)的信噪比。然后將這些裁剪后的圖像調(diào)整為224×224像素,并進行歸一化,得到0到1之間的像素值。在提取過程中注意,在某些情況下,如果制造商引進一種新型號時,在X光圖像上沒有檢測到變化,這可能只是設(shè)備軟件上的一個更新,或者是部件外觀上幾乎相同無法區(qū)分。
第一步,是從45類中隨機分配5張圖片作為“測試集”,這在網(wǎng)絡(luò)的任何訓練階段都不會用到,在最終驗證準確性時才會使用。
剩下的“訓練集”用于訓練網(wǎng)絡(luò),分為兩個不同階段:第一個階段是決定使用哪個底層網(wǎng)絡(luò)(包括結(jié)構(gòu)特征,如層的數(shù)量和大小)以及訓練的快慢(稱為 “學習率”)。這些卷積神經(jīng)網(wǎng)絡(luò)類似于人類大腦的層次結(jié)構(gòu)組織,解決圖像分類問題;第二階段是調(diào)整權(quán)重的詳細過程,以對起搏器進行分類。這兩個階段都使用了訓練集,但方式不同。
在網(wǎng)絡(luò)訓練第一階段 (如圖1所示),每種神經(jīng)網(wǎng)絡(luò)候選模型都從75%的訓練集中學習,并正確預(yù)測剩余25%的訓練集。如此重復4次,這樣所有的訓練集都輪流扮演了兩個角色。這個過程被稱為“4次交叉驗證”。

圖1 網(wǎng)絡(luò)設(shè)計流程圖
第二階段,基于第一階段選擇的神經(jīng)網(wǎng)絡(luò)模型開始,但是使用整個訓練集對網(wǎng)絡(luò)進行訓練,得到最終的神經(jīng)網(wǎng)絡(luò)模型。
最后,這個訓練好的網(wǎng)絡(luò)模型第一次向“測試集”公開,“測試集”始終保持獨立,以評估其正確分類制造商和型號的能力。
該研究獲得了衛(wèi)生研究管理局(集成研究應(yīng)用系統(tǒng)標識249461)的監(jiān)管批準。
卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)與訓練
我們評估了五種不同的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(DenseNet、Inception V3、VGGNet、ResNet和Xception),這些架構(gòu)在近幾年都是世界領(lǐng)先級的。在對整個模型進行再訓練時,使用ImageNet上訓練得到的權(quán)值對所有網(wǎng)絡(luò)進行初始化。
對于每個網(wǎng)絡(luò),輸出層設(shè)置為45個密集連接的神經(jīng)元(對應(yīng)每個設(shè)備型號1個)。使用交叉熵損失函數(shù)對其中16幅圖像進行損失計算,并使用ADADELTA優(yōu)化器更新權(quán)重。損失是用來評估網(wǎng)絡(luò)性能和改進網(wǎng)絡(luò)性能的技術(shù)指標。損失比簡單的錯誤率(準確度的倒數(shù))更敏感,因為要獲得滿分(零損失),網(wǎng)絡(luò)對每個心臟起搏器圖像的正確預(yù)測達到100%。
神經(jīng)網(wǎng)絡(luò)的訓練是一個自動調(diào)整權(quán)值以使損失最小化的過程,直到損失函數(shù)達到穩(wěn)定。使用Tensorflow和Keras機器學習框架的Python編程語言進行編程。
可視化
對每個例子進行處理以提供特征映射,其中梯度最高的像素對應(yīng)于正確的類(突出顯示對網(wǎng)絡(luò)決策貢獻最大的像素),這可以使用Keras-vis軟件完成 。
借助算法的專家測試
將225張圖像的測試集提供給5名心臟病專家(其中兩個是電生理學家),同時提供心律儀識別算法CaRDIA-X(3)。該算法只針對制造商進行區(qū)分,而不能識別特定的型號。對于每一幅圖像,都已知是起搏器、除顫器還是循環(huán)記錄器。
我們要求評分者將每種設(shè)備分類為Biotronik、Boston Scientific、Medtronic、Sorin或St. Jude Medical。
統(tǒng)計分析
對比測試神經(jīng)網(wǎng)絡(luò)和借助CaRDIA-X算法的專家對制造商分類的結(jié)果。采用McNemar檢驗進行評估,p值0.05作為統(tǒng)計特征閾值。最后參照每位專家的評估結(jié)果計算精度均值。
精確度定義為測試集中正確分類的圖像數(shù)量除以測試集中圖像的總數(shù)。精確度的置信區(qū)間使用二項式方法計算。對于大小不相等的制造商類別,也計算F1分數(shù),定義為精度和召回率的平均值的兩倍,范圍在0和1之間。
使用費希爾精確檢驗,對網(wǎng)絡(luò)的準確性進行了不同子組的評估。韋爾奇不等方差t檢驗通過計算每張圖像的拉普拉斯方差來評估部門和便攜式x線片在圖像清晰度方面的差異,采用R軟件進行統(tǒng)計分析。
數(shù)據(jù)集
數(shù)據(jù)集總共包括來自1575名患者的1676張不同設(shè)備的圖像。盡管有66種不同的設(shè)備型號,但其中一些在視覺上是無法區(qū)分的,這可能只是設(shè)備中軟件的變化。型號組共有45個,其中278張X光圖像來自便攜式設(shè)備,其余1398臺為部門AP/PA片。
測試集45種型號中每種型號由5個樣本組成,總共225個樣本。

(左)條形圖顯示了識別5個人類報告者和神經(jīng)網(wǎng)絡(luò)中的設(shè)備制造商的比較準確性。p值是指中位數(shù)和最佳人類評分之上的神經(jīng)網(wǎng)絡(luò)的優(yōu)越性。(右)混淆矩陣顯示網(wǎng)絡(luò)在預(yù)測正確的設(shè)備制造商時的準確性。BIO = Biotronik; BOS = Boston Scientific; MDT =美敦力; SOR =索林; STJ = St. Jude。
階段1:不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能比較
對于所有的網(wǎng)絡(luò)模型,經(jīng)過階段1的訓練后,網(wǎng)絡(luò)的性能都達到了一個穩(wěn)定狀態(tài),損失函數(shù)也下降到一個平穩(wěn)水平。VGGNet的準確率為4.4%,Xception的準確率為91.1%。
第一階段的結(jié)論是為第2階段選擇Xception架構(gòu)打下基礎(chǔ),并預(yù)先指定訓練的epoch為15。然后第二階段從一個全新的Xception神經(jīng)網(wǎng)絡(luò)開始,使用1451張完整的訓練集進行訓練。最后,使用第二階段生成的最終神經(jīng)網(wǎng)絡(luò)對“測試集”數(shù)據(jù)進行測試驗證。
階段2: “測試集”驗證神經(jīng)網(wǎng)絡(luò)性能
最終的神經(jīng)網(wǎng)絡(luò)識別設(shè)備制造商的準確率為99.6%,對應(yīng)的F1得分為0.996。性能如圖1所示。唯一錯誤分類的圖像是Medtronic Adapta設(shè)備被誤認為Sorin Reply設(shè)備。
不可避免地,識別模型組(而不僅僅是制造商)的性能較低,準確率為96.4% (95% CI: 93.1 ~ 98.5), F1評分為0.964分。值得注意的是,在其中的8個預(yù)測中,正確的型號是前3個預(yù)測中的1個。因此,通常描述為“前3名”的準確率為99.6% (95% CI: 97.5到100.0)。

型號識別矩陣
便攜式X光圖像的型號識別準確率為89.5% (95% CI: 75.2 - 97.1),而部門X線圖像的準確率為97.9% (95% CI: 94.6 - 99.4)(兩組間差異p = 0.029)。然而,唯一的制造商分類錯誤是部門X光圖像。起搏器組準確率為95.0% (95% CI: 90.4 - 97.8),ICDs組準確率為96.4% (95% CI: 87.5 - 99.6%)(兩組間差異p = 1.00),準確率在不同廠家之間差異不顯著(p = 0.954)。
與醫(yī)學專家的性能進行比較
五名心臟病專家使用CaRDIA-X算法對5家制造商的225張測試集圖像進行分類。他們的準確率從62.3%到88.9%不等,平均準確率為72.0%,神經(jīng)網(wǎng)絡(luò)的準確率顯著高于專家。
可視化分析
在另一項探索性分析中,我們對測試集中的每張圖像都生成了特征圖,顯示它們所描述的心率儀的最大特征,就類似于臨床醫(yī)學中疾病的病征。
圖3顯示了包含2個不同型號的4幅圖像,圖4表明AT500設(shè)備的特征映射,顯示圍繞該設(shè)備特有的環(huán)形電路板組件。

圖3

圖4
這是首次利用人工智能從X光圖像中識別心律裝置的研究。該神經(jīng)網(wǎng)絡(luò)在識別設(shè)備制造商方面具有更高的準確性。對于從未見過的圖像,該網(wǎng)絡(luò)識別設(shè)備制造商的準確率為99.6%,對應(yīng)的專家識別準確率為62.3%到88.9%。
臨床應(yīng)用
在一些臨床應(yīng)用中,使用更快的、可靠的(至少和心臟病專家一樣)工具會大有用處。醫(yī)生用它從一個簡單的胸片快速評估心臟設(shè)備的性質(zhì)。因為只有特定的制造商才能與病人的設(shè)備通信,知道帶哪個程序員來可以節(jié)省寶貴的臨床時間,這樣可以在緊急情況下快速訪問設(shè)備,提供緊急治療。
機器學習:特征圖
在圖3中,大多數(shù)人包括心臟病專家,都很難區(qū)分起搏器的兩種模型。然而,神經(jīng)網(wǎng)絡(luò)不僅能準確地區(qū)分它們,特征圖還能突出區(qū)分它們最明顯的特征。此外,一旦這個顯著的特性被指出來(圖4),就很容易區(qū)分。
網(wǎng)絡(luò)架構(gòu)極大地影響性能
表2顯示了不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能水平,VGGNet在這項任務(wù)上的表現(xiàn)很差。ResNet設(shè)計了“殘差連接”,這種方法使原始圖像可用于網(wǎng)絡(luò)的所有后續(xù)層,而不僅僅是第一層。GoogLeNet Inception使用“1×1卷積”在層之間壓縮信息,大大降低網(wǎng)絡(luò)的復雜性。性能最好的設(shè)計是Xception,它廣泛使用了這兩種創(chuàng)新“殘差連接”和“1×1卷積”。
局限性
該神經(jīng)網(wǎng)絡(luò)可以識別英國地區(qū)常用的設(shè)備,無法適應(yīng)所有的設(shè)備。當然,該網(wǎng)絡(luò)能夠不斷地擴展,訓練神經(jīng)網(wǎng)絡(luò)只需要新設(shè)備的25個樣本。
有時候,神經(jīng)網(wǎng)絡(luò)也會得出錯誤的結(jié)論。盡管網(wǎng)絡(luò)選擇的正確率在96.4%。但(巧合的是)在99.6%的情況下,正確的型號是前3個預(yù)測中的1個。
所有的神經(jīng)網(wǎng)絡(luò)都有“過度擬合”的風險。我們試圖以兩種方式將過度擬合的風險降至最低。首先,網(wǎng)絡(luò)的性能被定義為在未經(jīng)過訓練的“測試集”上的準確性。其次,網(wǎng)絡(luò)中包括各種“正規(guī)化”方法,例如丟失和權(quán)重衰減。
讓神經(jīng)網(wǎng)絡(luò),從“工作臺走到病床邊”的部署可能很困難,因為在護理時并不總是需要很大的處理能力。通過提供任何人都可以使用的在線Web門戶,我們可以緩解這種情況。
本研究證明卷積神經(jīng)網(wǎng)絡(luò)能夠從X光片上準確識別心律裝置的制造商和型號。此外,它的性能顯著超過使用流程圖的心臟病專家。
醫(yī)學能力:機器學習和人工智能在醫(yī)學領(lǐng)域,特別是在醫(yī)學圖像分析領(lǐng)域,得到了迅速的發(fā)展。我們的方法會加速患者的診斷和治療。本文也表明了神經(jīng)網(wǎng)絡(luò)越來越多的處理大量的醫(yī)學數(shù)據(jù)(整個衛(wèi)生保健系統(tǒng)),以及未來病人護理可能會越來越多地依賴計算機輔助決策。
成果轉(zhuǎn)化:將機器學習的成果從計算機實驗室轉(zhuǎn)化為現(xiàn)實應(yīng)用往往是困難的。通過研究,我們提供了一個在線教育門戶網(wǎng)站,醫(yī)生可以在線與網(wǎng)絡(luò)互動。與以往一樣,在將神經(jīng)網(wǎng)絡(luò)部署為有效工具之前,進一步的臨床研究對于評估網(wǎng)絡(luò)的準確性至關(guān)重要。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。