2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
從他們生命的最初幾年開始,人類就具有不斷學習的天生能力,并通過觀察周圍環境中的事物或人與他們互動來建立世界的心理模型。認知心理學研究表明,人類廣泛使用這種先前獲得的知識,特別是當他們遇到新的情況或做出決定時。

盡管最近在人工智能(AI)領域取得了重大進展,但大多數虛擬代理仍然需要數百小時的培訓才能在多個任務中實現人類級別的性能,而人類可以在幾小時或更短時間內學會完成這些任務。最近的研究突出了人類獲得知識的能力的兩個關鍵因素 - 即直覺物理學和直覺心理學。
這些直覺模型已經在人類從發展的早期階段觀察到,可能是未來學習的核心推動者。基于這一想法,韓國高等科學技術研究院(KAIST)的研究人員最近開發了一種內在獎勵歸一化方法,允許AI代理選擇最能改善其直覺模型的行為。在他們的論文中,預先發表在arXiv上,研究人員特別提出了一個圖形物理網絡,它與深層強化學習相結合,受到人類嬰兒學習行為的啟發。
研究人員在他們的論文中解釋說:“想象一個房間里的人類嬰兒,玩具周圍有可到達的距離。” “他們不斷地抓住,投擲和對物體采取行動;有時,他們會觀察他們行為的后果,但有時,他們會失去興趣并轉向另一個物體。”作為科學家的兒童觀點表明,人類嬰兒是內在動機進行自己的實驗,發現更多信息,并最終學會區分不同的對象,并創造更豐富的內部表征。“
心理學研究表明,在人生的最初幾年,人類不斷嘗試周圍環境,這使他們能夠形成對世界的重要理解。此外,當兒童觀察到的結果不符合他們之前的期望時(稱為預期違規),他們經常被鼓勵進一步嘗試,以更好地了解他們所處的情況。
KAIST的研究小組試圖使用強化學習方法在AI代理中重現這些行為。在他們的研究中,他們首先引入了一個圖形物理網絡,可以提取對象之間的物理關系,并預測它們在三維環境中的后續行為。隨后,他們將該網絡與深度強化學習模型相結合,引入了內在獎勵規范化技術,鼓勵AI代理人探索并識別將不斷改進其直覺模型的行為。
研究人員使用三維物理引擎證明了他們的圖形物理網絡能夠有效地推斷出不同物體的位置和速度。他們還發現,他們的方法允許深度強化學習網絡不斷改進其直覺模型,鼓勵它僅僅基于內在動機與對象進行交互。
在一系列評估中,由該團隊的研究人員設計的新技術實現了非凡的準確性,AI代理執行了大量不同的探索行動。在未來,它可以為機器學習工具的開發提供信息,這些工具可以更快,更有效地從過去的經驗中學習。
研究人員在他們的論文中解釋說:“我們已經在各種場景中用固定和非固定問題測試我們的網絡,其中球形物體具有不同的質量和半徑。” “我們希望這些預先訓練好的直覺模型將被用作其他目標導向任務的先驗知識,如ATARI游戲或視頻預測。”
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。