怎么使未來機器人“乖乖聽主人的話”，不“闖禍”？

本文作者：高婓

2016-08-16 09:45

導語：摘要我們圍繞一個問題來研究機器學習的八個領域：隨著機器學習系統日益變得智能化與自動化，應當制定什么樣的原則以確保機器學習的行為與操作者

摘要

我們圍繞一個問題來研究機器學習的八個領域：隨著機器學習系統日益變得智能化與自動化，應當制定什么樣的原則以確保機器學習的行為與操作者的利益相一致？我們聚焦于實現AI一致性過程中遇到的兩個技術瓶頸：確定一個合適的目標函數遇到的挑戰；即使目標函數未能與設計者的意圖達到完全匹配，設計出能夠避免超出預料范圍的結果與不可取的行為的AI系統所遇到的挑戰。

在本研究中涉及到的開放性問題包括：我們如何通過強化手段訓練學習者采取行動，以便他們能夠經得起智能化監督器的有意義的評估？應當選用何種目標函數，以便系統“不會產生過大的影響”，“也不會產生太多負面影響”？在文章中，我們將討論這些問題，相關的研究及對未來研究產生的潛在影響，旨在強調機器學習領域中目前可以駕馭研究的相關研究話題。

引言

近年來人工智能研究領域取得的進步再次激發了人們對Russell和Norvig(2010)所提出的問題興趣，“倘若我們成功了？”如果AI研究者成功地設計出能與人類媲美的具有跨領域學習與決策能力的機器，這將會對科學，技術，人類的生活產生不可估量的影響。

比如，假設一個研究團隊希望運用一種高級的ML系統制定相關方案，以發現治療帕金森綜合癥的方法。如果這種高級ML系統能夠制定計劃，從而提供計算資源在治療方法空間內開展廣泛且有效的搜索，該團隊將對這一高級ML系統持肯定支持的態度。如果該高級ML系統能夠制定出計劃，快速擴展機器人實驗室，該種類型的機器人實驗室能夠實施快速而有效的實驗，卻會對生物圈產生大規模的負面影響，該團隊將對這一系統持反對的態度。問題在于，我們應當如何設計系統（及選擇目標函數），以使我們的ML系統能夠可靠地實現第一個目標，而非第二個目標？

憑直覺來講，倘若我們能夠規范自己想要表達的意思---“找到一種治療帕金森綜合癥的方法，而非使用任何極端的手段”，那么Bostrom(2014)在“超智能化”一書中描述的危險將會被減少。但是，為了實現這一目標而為正式確定令人滿意的目標函數作出任何不成熟的嘗試，這種行為通常將生成產生超出人們預期的行為的函數。

主要的技術難題表現在哪些方面？Russell（2014）強調兩點：由于很難對人類的價值觀念進行清晰界定，如此便難以找到一種與人類價值體系完美匹配的系統目標函數；任何具有實力的智能系統均偏重于保證自身的存在性與獲取物理和計算資源---不是為了其自身的利益，而是為了成功地完成既定的任務。換句話講，至少存在兩種明顯的研究類型：這兩種研究類型能夠提高未來研究者設計出具有一致性AI系統的能力：我們能夠可以做一些研究以便較容易確定目標函數；我們可以做一些研究以設計出能夠避免大量負面影響和負面刺激的AI系統，即便有時目標函數不能與設計者的意圖達到完全的一致。Soares與Fallenstein（2014）稱前面一種方法為“價值規范”，后一種為“錯誤容忍”。

本研究基于這兩種保持高級ML系統一致性的方法，探索8個研究領域，其中一些領域已經在更大的ML研究社區中激起研究興趣。其中，一些研究領域聚焦于價值規范，一些聚焦于錯誤容忍，還有一些將兩者結合在一起。由于減少容易犯錯的人類程序員可能到來的錯誤風險本身就是人類共享的價值理念，這兩種研究目標之間的界限可能并不是那么清晰。

為了使下文討論的解決問題的方案在未來更為有用，這些方案必須能夠適用于那些比現存的ML系統更為有效的系統。那些主要依靠于系統對于某個可發現的事實的不敏感，或依靠于系統無法提出一個特殊的策略的解決方案，從長遠來看，這些方案都不甚令人滿意。正如Christiano(2015c)所討論的，如果用于保持ML系統與其設計者的意圖相一致的技術不能與智能相匹配，那么在我們可以運用ML系統在保守條件下可以取得的成果與可以運用該系統有效取得的成果兩者之間將出現差異。

我們將聚焦于安全保障，在目前運用ML的典型環境中，這些安全保障可能會顯得極端，例如保障形式，“過一段時間后，該系統將會出現零顯著錯誤”。這些保障形式在以安全為主的系統中是不可或缺的，因為一個小錯誤將在現實世界中產生災難性的后果。（這種形式的保障之前是有先例的，例如，Li,Littman,與Walsh（2008）的KWIK學習框架中提及到的）。當我們在考慮小問題和簡單的例子時，我們應當把這些強有力的保障方式記在心中。

我們考慮的八個研究主題如下：

1.歸納式歧義識別：我們如何訓練ML系統來檢測并告知我們通過訓練數據并不能夠確定測試數據的分類？

2.強健的仿真方法：我們如何設計并訓練ML系統以有效地模仿復雜且困難任務中人類的行為活動？

3.知情式監督：我們如何訓練一種強化學習系統，在精確評估系統性能方面能夠幫助一個智能監督者，如人類？

4.可普及的環境目標：我們如何創建一些系統，使這類系統能夠強健地追求環境狀態下確定的目標，而非追求基于感官數據確定的目標？

5.保守性的概念：如何訓練一個分類器，以提出一些有用的概念來排除那些極為非典型的例子和邊緣化的案例？

6.影響措施：應當采取什么樣的措施來刺激系統以最小的負面影響來追求目標？

7.溫和型優化措施：我們如何設計出不會過分追求其目標的系統，即當所追求的目標已經得到很好的實現時便適可而止，而不是為了實現絕對優化的預期成果，投入過多的精力搜索資源？

8.避免工具性激勵措施：我們應當如何設計并訓練系統，使這些系統缺少默認的激勵措施來操縱與欺騙操作人員，競爭稀缺資源等？

在第2部分，我們將輪流簡要介紹每一個研究主題及每一個研究領域中相關的研究案例。接下來我們將討論對于未來研究的啟示，即鑒于大量的計算資源和自動化，我們期望能夠衍生出有助于設計出強健且可靠的ML系統的工具來。

研究動機

近年來，機器學習領域已經取得突飛猛進的發展。Xu等(2015)運用一個基于注意的模型能夠極為精確地評估并描述圖像（通過字幕）。Mnih等(2016)運用深度神經網絡和強化學習在多種Atari圍棋比賽中取得了好的性能測試結果。Silver等(2016)運用經由監督式學習和強化學習訓練，且與蒙特卡洛模型技術相匹配的深度神經網絡戰勝了人類圍棋世界冠軍。Lake,Salakhutdinov及Tenenbaum(2015)運用分級式Bayesian模型僅需要使用一個單一的例子便可以學習視覺概念。

從長遠看來，運用機器學習和其他AI技術的計算機系統將會變得越來也智能，人類也將有可能相信那些系統可以作出更多的決策，變得更加自動化。隨著這些系統的性能越來越高，使這些系統的行為與操作者的意圖保持一致，不會對全社會造成危害，這一點變得尤為重要。

當AI系統在性能方面得到越來越快的提升，設計出能夠可靠地把這些系統與預期的目標保持一致的訓練程序和測試準則將變得越來越困難。例如，我們來看一下下面這個例子：依據得分實施獎勵，訓練一個強化學習者來玩視頻游戲的任務（per Mnih等，2013）。倘若學習者在游戲過程中找到一些能夠使其獲得高分的漏洞，他將采取措施利用那些漏洞，忽視程序員感興趣的游戲特征。與我們的直覺相反，提高系統的性能將減少這些學習者在游戲中取勝的機率，這在某種程度上與我們的感覺相反，由于系統越智能，越能夠找出訓練程序與測試準則中的漏洞（如若獲取一個較弱強化學習者的這種行為的簡單實例，請參照Murphy(2013)）。

智能系統能夠以驚人的方式解決問題的能力稱得上是一種特征，而非一種瑕疵。它們能夠以一種連程序員都無法想出的聰明的方式來達到目標，這是這類學習系統具有吸引力的重要特征之一。但是，這一性質是一柄雙刃劍：當這一系統變得更善于找到與人們直覺相反的解決方法，它也將更善于找到能夠形式上實現操作者的直接目標，而不滿足其預期的目標的方法。

由于這些智能系統追求現實生活中目標，這些漏洞也將變得更為微妙，更為冗余，且更為重要。就此，我們可以考慮一下為學習系統設計出強健的目標函數，以使得這些學習系統能夠代表程序員觀點與欲望，在此過程中會遇到的挑戰與困難。當程序員了解到該系統的目標函數未得到正確規范，他們便想要修復這一缺陷。然而，當學習者意識到這樣一點，他將視其為一個自然的刺激，便會想辦法掩蓋目標函數中存在的這些缺陷，因為如果該系統被用于追求不同的目標，其當前目標將不可能得到實現。（這一現象將在Bostrom,2014與Yudkowsky,2008一文中作詳細討論。Benson-Tilsen與Soares(2016)提供了一個簡潔的闡釋）。

上述討論結果激勵我們研究規范目標函數的工具與方法，使得這些目標函數能夠避免那些默認的激勵措施，及研發ML系統的工具與方法，使得這些機器學習系統在追求那些目標時不要過度優化。

下文是對提到的八個研究主題及相關研究成果作詳細介紹，在此不做贅述。