MIT開發出新算法可幫助AI系統規避對抗性輸入

作者：

時間：1900/1/1 0:00:00

據國外媒體報道，美國麻省理工學院(MIT)的研究人員開發了一種新的深度學習算法，可以為接收到的測量數據和輸入建立一種完善的“懷疑”機制，以幫助機器在真實和不完美的世界中導航。

文章的主要作者、麻省理工學院航空航天系博士后邁克爾·埃弗雷特(Michael Everett)表示:“盡管基于深度神經網絡的系統在許多機器人任務中非常先進，但在安全關鍵領域仍然非常危險，因為深度神經網絡系統的網絡魯棒性沒有得到正式保證。一旦傳感器輸入受到小的干擾(比如噪音或者對抗性的例子)，通常會改變基于網絡的決策，比如自動駕駛汽車會變道。

鑒于上述危險，研究人員開發了許多算法，基于這些對抗性輸入建立防御機制。部分對抗性輸入也可以提供形式上的魯棒性保證或證明。這項工作利用已證明的對策魯棒性，然后開發一個可靠的在線魯棒性算法的深度強化學習算法。

Discovery, Ford

(來源:麻省理工學院)

由于潛在的對抗和噪聲，最壞的偏差可能出現在輸入空間，因此所提出的防御措施將需要在魯棒操作執行期的識別和選擇期間計算狀態操作值的保證下限。而且，即使驗證者可能因為干擾而不知道真實狀態和最佳操作，最終的策略仍然可以有解的質量保證。"

研究團隊將強化學習算法與深度神經網絡相結合，構建了一種新方法:CARRL，即深度強化學習的認證對抗魯棒性。研究人員已經在不同的場景中測試了這種方法，例如碰撞模擬測試和視頻游戲Pong。發現CARRL即使在不確定和對抗性輸入的情況下，也比標準的機器學習技術表現更好，不僅成功避免了碰撞，而且在Pong游戲中多次獲勝。

埃弗雷特還說:“當出現對抗性時，用戶總是認為有人入侵了他們的電腦，但這可能是傳感器性能不佳或測量工具錯誤，這種情況很常見。我們的新算法可以解決這個問題，并做出安全決策。任何需要極高安全性的地方都應該考慮這種算法。”

可能的現實:為了讓AI系統抵抗對抗性輸入，研究人員對監督學習使用了防御措施。通常，神經網絡被訓練成將標簽或動作與給定的輸入相關聯。例如，一個接收了大量標記為貓、房子和熱狗的圖像的神經網絡可以正確地將新圖像標記為貓。

在一個強大的AI系統中，同樣的監督學習技術可以用稍微修改的圖像版本進行測試。如果網絡把每一張圖片都貼上“貓”的標簽，不管有沒有改動，很有可能圖片確實是貓，那么網絡對任何對抗性影響都有很強的魯棒性。然而，不可能瀏覽所有的圖像，并且很難處理高時間任務，例如避免碰撞。此外，如果網絡不穩定，一些修改的貓圖片會被標記為房屋或熱狗，現有的方法無法識別圖像標簽或確定采取什么措施。

研究人員bjrn lütjens說:“為了在安全性要求高的場景中使用神經網絡，我們必須知道如何在最壞的情況下做出實時決策。”

該團隊希望基于強化學習。強化學習是機器學習的另一種形式，它不需要將標記的輸入與輸出相關聯，而是旨在加強對某些輸入的響應。這種方法通常用于訓練計算機競技游戲，如國際象棋和圍棋。采用強化學習的前提是輸入正確。Everett和他的同事們表示，這項研究首次為強化學習中的不確定性和對抗性輸入帶來了“可驗證的魯棒性”。

他們的方法CARRL使用現有的深度強化學習算法來訓練深度Q網絡或DKN(一種多層神經網絡，最終將輸入與Q值或獎勵水平相關聯)。該方法接受輸入(例如，具有單個點的圖像)并考慮對抗性影響或實際上可能在該點周圍的區域。基礎……在麻省理工學院研究生崔偉“Lily”Weng博士開發的技術上，這個點被DQN連接在區域內每一個可能的位置上，并發現相關的動作，從而導致最好和最壞的情況發生。

對抗的世界:在電子游戲Pong的測試中，兩個玩家拿著球拍在屏幕兩側來回傳遞乒乓球。研究人員在游戲中加入了一個“對手”，并將球拉得比實際球高得多。他們發現，隨著對手影響力的增加，CARRL比標準技術的勝率更高。

埃弗雷特說:“如果預設的測量值不完全可信，乒乓球可能在固定區域的任何地方，那么就用這種方法通知計算機把球拍放在區域的中間，這樣就能保證乒乓球以最差的偏差被擊中。”

該方法在碰撞測試中也是魯棒的。在碰撞測試中，團隊模擬了一個藍色和橙色的代理，試圖在沒有碰撞的情況下交換位置。當團隊擾亂橙色特工對藍色特工位置的觀察時，CARRL引導橙色特工繞過另一名特工。隨著對手越來越強，泊位越來越寬，藍色特工的位置變得更加不確定。

CARRL的保守變化使得orange代理假設另一個代理可能在它附近的任何地方，并且作為響應，它可能錯過目的地。埃弗里特表示，這種極其保守的方法非常有用，研究人員可以將其作為限制來調整算法的魯棒性。例如，算法可能會考慮小偏差或不確定性區域，這仍然會讓代理獲得更高的獎勵并到達目的地。Everett還表示，除了克服傳感器缺陷，CARRL可能是幫助機器人安全處理現實世界中不可預測的交互的開始。

埃弗里特說:“人類是對抗性的，比如站在機器人面前阻擋傳感器或者與它們互動，但不一定是出于最好的意圖。機器人如何思考人類可能嘗試做的一切？如何避開它們？應該防御什么樣的對抗模式？這是我們正在考慮的方法。”作為麻省理工學院的盟友，福特也為這項研究提供了一些支持。據國外媒體報道，麻省理工學院(MIT)的研究人員開發了一種新的深度學習算法，可以為接收到的測量數據和輸入建立一種完善的“懷疑”機制，以幫助機器在真實和不完美的世界中導航。

Discovery, Ford

(來源:麻省理工學院)

埃弗雷特還說:“當出現對立情緒時，用戶總是認為有人入侵了他們的電腦，……但也可能是傳感器性能差或者測量工具不對，這種情況很常見。我們的新算法可以解決這個問題，并做出安全決策。任何需要極高安全性的地方都應該考慮這種算法。"

研究人員bjrn lütjens說:“為了在安全性要求高的場景中使用神經網絡，我們必須知道如何在最壞的情況下做出實時決策。”

他們的方法CARRL使用現有的深度強化學習算法來訓練深度Q網絡或DKN(一種多層神經網絡，最終將輸入與Q值或獎勵水平相關聯)。該方法接受輸入(例如，具有單個點的圖像)并考慮對抗性影響或實際上可能在該點周圍的區域。基于麻省理工學院研究生崔偉“Lily”Weng博士開發的技術，通過DQN在該區域的每個可能的位置連接該點，并找到相關的動作，從而導致最好和最壞的情況發生。

埃弗里特說:“人類是對抗性的，比如站在機器人面前阻擋傳感器或者與它們互動，但不一定是出于最好的意圖。機器人如何思考人類可能嘗試做的一切？如何避開它們？應該防御什么樣的對抗模式？這是我們正在考慮的方法。”作為麻省理工學院的盟友，福特也為這項研究提供了一些支持。

標簽：發現福特