一種生成記憶方法可實現終身強化學習

2019-06-03 10:46:29 編輯：來源：

導讀現有人工智能(AI)系統的一個關鍵限制是它們無法處理未經過培訓的任務。事實上，即使他們接受了再培訓，大多數這些系統都容易發生災難性遺忘

現有人工智能(AI)系統的一個關鍵限制是它們無法處理未經過培訓的任務。事實上，即使他們接受了再培訓，大多數這些系統都容易發生“災難性遺忘”，這實際上意味著新項目可能會破壞他們以前獲得的知識。

例如，如果最初訓練模型以完成任務 A然后隨后在任務B上重新訓練，則其在任務A上的表現可能會顯著下降。一個天真的解決方案是無限添加更多的神經層來支持正在訓練的其他任務或項目，但這種方法效率不高，甚至功能可擴展。

SRI國際的研究人員最近嘗試將生物記憶傳遞機制應用于AI系統，因為他們認為這可以提高他們的表現并使他們更具適應性。他們的研究預先發表在arXiv上，從人類記憶轉移機制中汲取靈感，如長期和短期記憶。

“我們正在構建可以從經驗中學習的新一代人工智能系統，” DARPA終身學習機(L2M)項目的聯合PI的Sek Chai 告訴TechXplore。“這意味著他們可以根據自己的經驗適應新的情景。今天，AI系統因為不適應而失敗。由Hava Siegelmann博士領導的DARPA L2M項目旨在實現人工智能能力的范式轉變。”

記憶轉移需要一系列復雜的動態過程，使人們在思考，計劃，創建或預測未來事件時能夠輕松訪問顯著或相關的記憶。睡眠被認為在鞏固記憶方面起著至關重要的作用，特別是REM睡眠，即最常發生夢的階段。

在他們的研究中，Chai和他的SRI同事開發了一種生成記憶機制，可用于以偽排練的方式訓練AI系統。使用重放和強化學習(RL)，該機制允許AI系統在其整個生命周期中從顯著記憶中學習，并且可以使用大量訓練任務或項目進行擴展。Chai及其同事開發的生成記憶方法使用編碼方法來分離潛在空間。這允許AI系統即使在任務沒有明確定義或任務數量未知時也能學習。

“我們的AI系統不會直接存儲原始數據，例如視頻，音頻等，”Chai解釋道。“相反，我們使用生成記憶來生成或想象它以前經歷過的東西。生成AI系統已被用于創造藝術，音樂等。在我們的研究中，我們使用它們來編碼生成體驗，以后可以用于強化學習這種方法的靈感來自睡眠和夢境中的生物機制，在這里，我們回想起或想象在我們的長期記憶中得到強化的經驗碎片。“

將來，Chai及其同事介紹的新的生成記憶方法可以幫助解決基于神經網絡的模型中的災難性遺忘問題，從而實現AI系統中的終身學習。研究人員現在正在測試他們在基于計算機的策略游戲上的方法，這些游戲通常用于訓練和評估AI系統。

“我們正在使用像星際爭霸2這樣的即時戰略游戲來培訓和研究我們的AI代理人的終身學習指標，如適應性，穩健性和安全性，”Chai說。“我們的AI代理人在游戲中注入了驚喜(例如地形和單位能力的變化)。”

標簽：終身強化學習