IBM NeurIPS 2018 poster：把深度學習模型的表現遷移到傳統機器學習模型獲得高可解釋性

本文作者： MrBear

編輯：楊曉凡

2018-12-13 17:18

專題：NeurIPS 2018

導語：IBM黑科技，可以將深度學習模型的性能遷移到傳統機器學習模型上。這是通用版的知識蒸餾嗎？

雷鋒網 AI 科技評論按：為了解釋深度神經網絡，研究人員們想了各種各樣的辦法。IBM 研究院的論文《Improving Simple Models with Confidence Profiles》也從一個角度研究了這個問題，并被 NeurIPS 2018 接收為 poster 論文。雷鋒網 AI 科技評論把論文主要內容介紹如下。

在許多機器學習系統中，系統的可解釋性和模型性能往往是不可兼得的。因為許多性能最好的模型（即深度神經網絡）本質上都是黑盒。在 IBM 研究院改進簡單模型的工作中（https://arxiv.org/abs/1807.07506 ），他們提出一種將信息從高性能的神經網絡遷移到另一個領域專家或應用程序可能需要的模型的方法，從而彌補性能和可解釋性之間的鴻溝。例如，在計算生物學和經濟學中，稀疏的線性模型往往是從業者的首選方案，而在半導體制造等復雜儀器領域中，工程師們可能更喜歡使用決策樹。這種更簡單的可解釋模型可以與專家建立信任，并提供有用的分析結果，從而發現新的、以前未知的事實。他們的目標如下圖所示，在這個例子中，他們試圖提升決策樹的性能。

IBM NeurIPS 2018 poster：把深度學習模型的表現遷移到傳統機器學習模型獲得高可解釋性

假設網絡是一位表現出色的老師，我們可以將它的一些信息傳授給簡單、可解釋但通常性能不佳的學生模型。根據樣本建模的難易程度對樣本進行加權，可以幫助簡單的模型在訓練時專注于更容易建模的樣本，從而獲得更好的整體性能。他們的研究與 boost 集成學習方法不同：在 boosting 方法中，對于之前的一個「弱分類器」難以建模的示例會被重點關注，以便讓后續的訓練創建多樣性的訓練結果。在這里，困難的示例指的是對于構建一個準確率很高的復雜模型而言的。這意味著這些標簽幾乎是隨機分布的。而且，如果一個復雜的模型不能解決這些問題，那么復雜度被固定的簡單模型就沒有希望了。因此，在他們的研究中，重點關注簡單模型可以解決的簡單示例是非常重要的。

為此，他們根據網絡的難易程度為樣本分配權值從而對其進行分類，并通過引入「探針」來具體實現這樣的思路。每個探針從一個隱層獲取它的輸入。每個探針都含有一個全連接層，全連接層后還附有一個softmax層，該softmax層的維度與連接到該層的網絡輸出相同。第 i 層的探針相當于一個分類器，它只使用第 i 層之前的網絡的。假設即使對于第一層的探針來說，簡單的實例可以以高置信度被分類，那么他們就可以通過所有探針得到每個實例的置信水平 p_i。他們使用所有的 p_i 來計算實例的難度 w_i ，例如 p_i 的 ROC 曲線下的面積（AUC）。下圖顯示了一個簡單示例和一個困難示例之間的區別。

IBM NeurIPS 2018 poster：把深度學習模型的表現遷移到傳統機器學習模型獲得高可解釋性

現在他們可以使用權重在最終加權后的數據集上對簡單模型重新進行訓練。他們把這種方法稱為由「探針，獲取置信度權重，再訓練過程」組成的工作流。

對于如何計算數據集中示例的權重，他們提出了兩種備選方案。在上面所提到的 AUC 方法中，他們標注出了在原始訓練集上訓練時，簡單模型的驗證錯誤率/準確率。他們會選出一個準確率至少為 α（> 0，大于簡單的模型的準確率）的探針。每個示例都是基于真實標簽的平均置信度得分進行加權的，該得分是使用來自探針的 softmax 預測計算出來的。

第二種備選方案是使用神經網絡進行優化。這里他們通過優化下面的目標函數來學習訓練集的最優權值：

IBM NeurIPS 2018 poster：把深度學習模型的表現遷移到傳統機器學習模型獲得高可解釋性

其中，w 代表為每個實例計算出的權重，β 表示簡單模型 S 的參數空間，而 λ 是其損失函數。他們需要對權值進行約束，否則所有權值趨于 0 的平凡解（Ax=0 中的零解）將自然而然地成為上述目標函數的最優解。他們在論文中證明了，E[w]=1 的約束條件與尋找最優重要抽樣有關。

在更一般的情況下，ProfWeight 可以被用于將知識遷移到更簡單但不透明的模型（如較小的神經網絡），這些模型可能在內存和功率受限的領域中非常有用。實際上，當他們在物聯網系統、移動設備或無人機的邊緣設備上部署模型時，就會遇到這種約束。

他們在兩個領域測試了我們的方法：公共圖像數據集 CIFAR-10和 IBM 專有的數據集。在第一個數據集上，他們的簡單模型是更小的神經網絡，它將遵守嚴格的內存和功率約束。他們看到，在這種情況下，新方法的性能得到了 3- 4% 的提升。在第二個數據集上，他們的簡單模型是一個決策樹，他們在該模型上取得了大約 13% 的顯著提升，從而得到了可以被工程師在實際項目中使用的結果。下面他們將 ProfWeight與在該數據集上使用的其它方法進行比較。如圖所示，他們比其它方法有相當大的優勢。

IBM NeurIPS 2018 poster：把深度學習模型的表現遷移到傳統機器學習模型獲得高可解釋性