我們是否能信任算法？不信任又能怎么辦?

本文作者：這只萌萌

2020-04-20 18:00

導語：直接告知「目前我無法幫助您」，或許才是更值得信賴的行為

醫藥和刑事司法等行業引入了越來越多的算法和系統應用，隨之而來的算法倫理問題也引起了日益廣泛的公眾關注。

其中最根本的一個問題是我們是否應該相信我們所聽到的信息，以及算法和系統告訴我們的信息。

這要求人們能夠辨別算法和系統的真實性，這也體現了在算法研究過程中應用統計科學進行評估和驗證的可信度（即所謂的「智能透明」）的重要性。

劍橋大學丘吉爾學院院士、英國皇家學會院士、現任英國皇家統計學會主席、風險專家問題專家 David Spiegelhalter 從自身被算法誤導的經歷出發，基于算法在醫藥和刑事司法的應用案例，對算法的可靠性提出了質疑，因而利用統計科學對算法進行驗證評估顯得尤其重要。

文章最后，他也提到了在應用算法時，應該從哪些方面進行評估，遇到同樣困擾的研究者不妨借鑒一二。

正文內容如下：

一、序言

我們去年在葡萄牙度假時，一路都使用谷歌地圖進行導航。當我們行駛到古老的科英布拉大學城里狹窄的街道時，聽信了谷歌地圖的指引并向左轉，結果前方道路突然變成了臺階，幸好我們及時剎車，原路返回。

從那以后，我就不怎么相信谷歌地圖的導航了。

不只是導航算法，應用在醫藥和刑事司法行業中那些復雜各異的算法和系統都需要謹慎對待。例如英國用于評估累犯風險的系統 HART（危害評估風險工具），基于隨機森林算法而得。這一系統在可信度和公平性上引起了巨大的爭議，且不討論其在面部識別上的爭議，人權組織 Liberty 最近在報告中指出，司法預測算法的使用有損害人們權利的風險。

我們不能完全被人工智能的“神秘感”所迷惑，如今大量媒體新聞充斥著機器學習和人工智能的「神話」，我們不能偏聽偏信，因為這樣的新聞通常都是基于商業主張而發布。

從本質上講，很多算法都是通過獲取一些數據并使用規則或者數學公式來生成結果，輔助專業判斷。刑事司法中應用算法并不是什么新鮮事件，早在數十年前，基于統計回歸的簡單的累犯評分系統就已經開始納入刑事司法使用，只是并不廣為大眾所知。基本量刑準則可以被認為是一種一致性算法，以此為基礎，法官對特定案件可以行使酌處權進行調整。

事實上，Liberty 評論司法預測算法的報告只是算法倫理問題的中的一個案例而已，目前從事算法，AI 和機器學習倫理問題研究的人甚至超過了從事技術研究的人，很多倫理問題的應對舉措也隨之而來，例如，針對司法的 Algo-care，FATML（ML的公平性、問責制和透明度）社區建議所有算法需要發布一項社會影響聲明，在聲明中詳細說明：

責任：出問題時該找誰。
可解釋性：向利益相關者提供普適的語言解釋。
準確性：確定錯誤和不確定性的來源。
可審核性：允許第三方進行檢查和批評。
公平：針對不同的受眾特征。

美國在刑事司法中應用 COMPAS 系統進行累犯預測，輔助罪犯保釋決策。COMPAS 系統輸入 137 項特征，評分為 1 到 10，將累犯風險分為低/中/高。

但是該系統是專有程序，完全是個「黑匣子」，COMPAS 系統曾被指控存在種族偏見，受到了強烈質疑，有人上訴反對 COMPAS 的評分結果，但以失敗告終。盡管如此，COMPAS 在大多數 FATM 標準上似乎都表現不佳。

因此，回歸到一個簡單的問題——我們可以信任算法嗎？

二、主動信任和值得信賴

在這個大量信息魚龍混雜，真假難辨的年代，各種網絡聲音常常爭辯激烈，我們都希望得到信任。

但正如哲學家Onora O’Neill)所言，我們不應該期望大眾信任自己，而應該主動證明自身值得信賴，這需要自身的誠實，能力和可靠性。奧尼爾這一提議簡單有力，英國國家統計局在修訂版的職業準則中，也將誠信作為第一要素。

要成為大眾所信賴的算法，需要在聲明中表達清楚以下兩點信息。首先，開發人員說清楚算法可以做什么，如何進行驗證和評估。其次，算法在遇到特定案例時如何處理。

算法的驗證評估是一個非常復雜的話題，統計學在其中可以發揮很大作用，數十年來一直應用于數據驗證和評估。下面讓我們更詳細地了解這兩點：

1）算法和系統結果的可信度

正如路透社最近的一份報告所言，如今在人工智能這一話題上，充斥著太多商業驅動的炒作言論。Eric Topol 去年在醫學 AI 發表權威評論，表示目前 AI 的炒作言論已經遠遠超出了科學言論，尤其是在算法驗證和實施準備階段。

按照FATML建議，算法和系統可以通過發表社會影響聲明來傳達其可信性。但還有一點似乎未被提及，那就是算法和系統所帶來的影響。理論上來說，算法的應用應該是有益的，但這一點無法得到充分保證，所以，FATML提議在聲明中增加這一點：

2）影響：實際使用中有什么益處和危害？

20 世紀 60 年代那場「反應停」藥物災難事件中，因藥物造成胎兒四肢畸形，奪去了數以萬計嬰兒的生命。發生了這一史無前例的藥害丑聞以后，所有新藥的測試都需要經過極為嚴苛的評估模型。

統計學應用于結構化評估中是極為常見的，我和 Stead 等人通過長期研究，類比藥物測試評估模型，總結出了算法和系統的驗證評估模型，表 1 展示了藥物測試的四階段評估模型，以及算法和系統的驗證評估模型。

我們是否能信任算法？不信任又能怎么辦?

表1. 公認的藥物測試四階段評估模型，以及建議的算法評估模型

從已發表的文獻中發現，醫療和刑事司法行業的算法，其驗證評估都聚焦于階段 1，即數據集準確性。但數據集準確性僅僅是評估過程的開始。

目前邁入階段 2 的算法正在由少變多，階段 2 常應用圖靈測試，即將算法性能用來與人類「專家」進行比較。將人類「專家」和算法得出的判斷結果進行混合，由獨立專家來評估判斷結果的質量。在圖靈測試中，判斷結果是出自人類「專家」還是自出算法是不作考慮的。

例如，醫療 AI 公司 Babylon曾進行了一項階段 2 的驗證評估，將他們的診斷系統與醫生診斷結果進行對比，這一測試隨后在《柳葉刀》雜志上被強烈批評。康奈爾大學人工智能專業的Kleinberg 教授等人類比了累犯預測算法的評估流程和藥物測試的四階段評估模型，對人類決策與算法決策階段 2 比較進行了建模。

Topol 還指出，幾乎沒有任何前瞻性的驗證，能證明機器可以幫助臨床醫生有效地診斷或預測臨床結果。這也就意味著，很少有算法的驗證評估能邁入階段 3，即驗證系統在實踐中是否確實利大于弊。即便是簡單的風險評分系統也幾乎沒有在隨機試驗中進行階段 3 評估。

當然并不是完全沒有算法評估應用了階段 3，在心血管疾病預防領域，曾有 Cochrane 系統評價得出結論：「評分預測系統會稍許降低 CVD 風險因子水平，并在沒有危害的情況下為高危人群開具預防性用藥處方。」

算法可能會產生一些意料不到的影響。早在 1980 年代，我就參與了「計算機輔助診斷」的研究，當時在診所的角落里放置了一臺笨拙的大型個人計算機。

在一項隨機試驗中，我們發現，即使是效果較差的算法也有助于改善診斷和治療急性腹痛的臨床表現，這并不是因為醫生聽取了計算機的結果，而是因為「計算機輔助診斷」這種形式鼓勵了醫生更為系統化地收集患者病史并做出初步診斷。

然而，通過類比藥物測試評估模型得出的算法評估模型存在其局限性。我們知道處方藥通常只對個人起作用，除了過度使用抗抑郁藥和鴉片類藥物外，處方藥幾乎不會對整個社會產生影響。

而算法不一樣，其廣泛應用是可能會對全社會造成影響的，因此藥物測試評估模型在階段 3 采用基于個體的隨機對照試驗這種傳統做法，對于算法評估而言是不完全適用的，需要補充人群影響的研究作為輔助驗證。

英國醫學研究理事會應對復雜醫學干預措施的評估模型與此類似，這一評估模型最初的版本與前文提到的藥物測試評估模型非常相似，但其隨后的修訂版轉為了更具迭代化的模型，對實驗方法的重視程度有所降低，將影響驗證的評估擴展到其他學科，而不再強調隨機對照試驗的應用。

出于監管目的，臨床算法被歐盟和食品藥品監督管理局（FDA）視為醫療設備，因此是不受表 1 中的藥物測試評估模型所約束的。

臨床算法不一定要通過階段 3 的隨機試驗，其更為注重的是技術，或者說是代碼本身的可靠性。但前提是，算法必須在實驗室中證明是具有合理性和準確性的，并能在實踐中有所益處，能證明這幾點有利于提高算法在社會影響聲明中的可信度。

三、向使用對象公布算法結果的可信性

當罪犯必須接受累犯風險預測系統的預測結果時，或者患者需要接受醫療輔助系統的診斷結果時，他們或他們的代表應該有權利獲得以下問題的明確答案：

當前的案例是否在算法的能力范圍內？
得出最終結果的推理過程是什么？
如果算法的輸入被否定，結果會如何 (反事實思維)？
是否存在重要的信息能讓算法「打破平衡」？
算法得出的結果是否存在不確定性？

當前有許多創新嘗試能讓復雜的算法更具可解釋性，減少「黑匣子」情況的出現。例如，由 Moorfields 眼科醫院和谷歌聯合開發的 Google DeepMind 眼部診斷系統，基于一種深度學習算法并精心設計，可以分層可視化地解釋從原始圖像到最終診斷結果之間的中間步驟。

雖然深度學習算法適合于圖像數據的自動分析，但是當輸入數據較少時，其有可能首先構建一個更簡單，更易于解釋的模型。

統計科學主要集中在線性回歸模型上，對特征進行加權，構建評分系統。例如，Caruana 等人使用廣義相加模型 (Generalized Additive Model) 得出肺炎風險評分系統。

人們常說，算法的可解釋性與性能之間是無法兼得的，必須進行權衡。正是因此，累犯預測系統 COMPAS 受到了質疑。一項在線測試表明，未經過培訓的公眾可以達到和 COMPAS 系統一樣的準確度 (65% 的準確度)，甚至可以通過簡單的基于規則的分類器和只需要年齡和犯罪前科兩個預測變量的回歸模型來匹配 COMPAS 的預測性能。進一步來說，不確定性評估是統計科學的核心組成部分。

四、透明化

算法要被大眾信賴，需要透明化，不過這種透明化不是魚缸式的透明，不能只是提供大量晦澀難懂的信息。而且透明化并不是必須要可解釋的，如果系統確實非常復雜，即使是提供代碼，也不能很好的滿足可解釋性。Onora O’Neill 再次為發展「智能透明」理念做出了重大貢獻，她認為信息應該：

易于訪問：能夠讓感興趣的人們輕松找到。
可理解的：能夠讓人們容易理解。
可用的：能夠解決人們的擔憂。
可評估的：如果有需要，算法決策的評估依據能夠提供。

最終的評判標準很重要：一個可信賴的算法應該有能力，向想要了解它推理過程的人展示它是如何發揮作用的。雖然大多數用戶可能很樂意「信任」算法的判斷結果，但利益各方還是有方法評估其可靠性。Lai＆Tan 2019年發現，提供算法的個性化解釋和提供算法質量的普適保證一樣有效。

我們嘗試通過以上的評判標準完成一個算法的可信度聲明。新診斷乳腺癌婦女的預測算法，通過輸入疾病的詳細信息和可能的治療方法來輔助醫療診斷。我們將可能的術后治療的潛在利弊以文字，數字和圖形的方式表達出來，提供了多種級別和多種格式的解釋，并公布了算法甚至是代碼的全部細節，以供審查需要。

當然，這樣的方法是透明化的且有吸引力的，但它也可能導致「過度信任」，即算法的結果被視為是完全準確且毫無質疑的。真正值得信賴的算法應該公布其自身的局限性，確保它不會被公眾「過度信任」。

五、結論

要證明算法的可靠性，需要分階段的質量評估過程并應用強大的統計學原理。Topol 指出，臨床算法在推出和實施之前，需要進行嚴苛的研究，在同行評審的期刊上公布結果，并在真實環境中進行臨床驗證。刑事司法算法和系統應用需要采用同樣的方法。

最后，當聽到關于任何算法的聲明時，可提出的問題清單如下：

在現實世界進行嘗試有什么益處？
是否能更簡單，更透明，更可靠？
我能夠向感興趣的人解釋清楚它是如何工作的嗎？
我可以向一個人解釋在特定情況下它如何得出結論嗎？
它知道何時處于不穩定狀態嗎？它能夠承認不確定性嗎？
人們是否帶著適當的質疑態度正確使用了它？
它在實踐中真的有幫助嗎？

其中，我認為問題 5 特別重要。

谷歌地圖在本不確定的路線中給出了錯誤導航，讓我對其不再信任。

但如果它能換一種方式，告知我「目前我無法幫助您」并很快恢復如常，這對我來說，才是值得信賴的行為。即算法知道自己什么情況無法處理，并誠實地告知大家，這樣的謙卑態度才是值得我們嘉獎的。

via https://hdsr.mitpress.mit.edu/pub/56lnenzj 雷鋒網雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

這只萌萌

知情人士

發私信

當月熱門文章