Atari大師新的AI在視頻游戲挑戰中摧毀了Google DeepMind

2022-05-18 12:08:02 編輯：榮和梁來源：

導讀一種新的算法使Atari視頻游戲的掌握速度比最先進的AI快10倍，并且采用了突破性的解決問題的方法。一種新的算法使Atari視頻游戲的掌握速度比

一種新的算法使Atari視頻游戲的掌握速度比最先進的AI快10倍，并且采用了突破性的解決問題的方法。一種新的算法使Atari視頻游戲的掌握速度比最先進的AI快10倍，并且采用了突破性的解決問題的方法。設計可以協商規劃問題的人工智能，尤其是獎勵不是很明顯的人工智能，是推動該領域最重要的研究挑戰之一。一項著名的2015年研究顯示，Google DeepMind AI學會了將視頻彈球等Atari視頻游戲發揮到人性化水平，但由于游戲的復雜性，臭名昭著的未能通過20世紀80年代電子游戲Montezuma's Revenge的第一把關鍵路徑。

在澳大利亞墨爾本皇家墨爾本理工大學開發的新方法中，計算機設置為自主玩蒙特祖瑪的復仇從錯誤中學習并確定子目標比谷歌DeepMind快10倍完成游戲。

來自皇家墨爾本理工大學的Fabio Zambetta副教授于本周五在美國第33屆AAAI人工智能會議上公布了這種新方法。

該方法是與RMIT的John Thangarajah教授和Michael Dann合作開發的，它將“胡蘿卜加大棒”強化學習與內在激勵方法結合起來，獎勵人工智能，使其好奇并探索其環境。

“真正智能的AI需要能夠學會在模糊的環境中自主完成任務，”Zambetta說。

“我們已經證明，正確的算法可以使用更智能的方法來改善結果，而不是純粹粗暴地在非常強大的計算機上端到端地解決問題。

“我們的研究結果表明，如果我們希望在這一領域取得實質性進展，我們能夠更加接近自主AI，并且可能成為一個重要的調查線。”

Zambetta的方法獎勵系統自主探索有用的子目標，例如“攀爬那個階梯”或“跳過那個坑”，這對于計算機而言，在完成更大任務的背景下可能并不明顯。

其他最先進的系統需要人工輸入來識別這些子目標，否則決定下一步隨機做什么。

“不僅我們的算法在玩Montezuma's Revenge時自動識別相關任務的速度比Google DeepMind大約快10倍，他們還表現出相對類似人類的行為，”Zambetta說。

“例如，在你可以進入游戲的第二個屏幕之前，你需要確定一些子任務，例如爬梯子，跳過一個敵人，然后最終拿起鑰匙，大致按照這個順序。

“這最終會在很長一段時間后隨機發生，但在我們的測試中如此自然地發生了某種意圖。

“這使我們成為第一個完全自主的面向目標的代理商，與這些游戲中最先進的代理商真正競爭。”