2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
對人工智能的期望是非常真實和非常高的。“福布斯”項目的收入分析將從2018年的16.2億美元飆升至2025年的312億美元。報告還包括一項調查顯示,84%的企業認為投資人工智能將帶來競爭優勢。

“看到近年來取得的巨大成功和進步令人興奮,”匹茲堡斯旺森工程學院工業工程助理教授Daniel Jiang說。“為了延續這一趨勢,我們正在尋求開發更復雜的算法方法,以學習最優決策的策略。”
Jiang博士設計了在復雜和不確定環境中學習決策策略的算法。通過在模擬環境中測試算法,他們可以從錯誤中吸取教訓,同時發現和加強成功策略。為了完善這一過程,蔣博士和他所在領域的許多研究人員需要模擬現實世界。
“作為工業工程師,我們通常會處理以運營為重點的問題。例如,運輸,物流和供應鏈,能源系統和醫療保健是幾個重要領域,”他說。“所有這些問題都是具有現實后果的高風險操作。它們沒有為嘗試實驗技術創造最佳環境,特別是當我們的許多算法被認為是重復'試錯'的巧妙方法時所有可能的行動。“
準備高級AI以應對現實場景和復雜性的一種策略是使用歷史數據。例如,算法可以運行數十年的數據,以確定哪些決策有效,哪些決策導致效果不佳。然而,研究人員發現很難測試僅使用過去數據來學習自適應行為的算法。
蔣博士解釋說:“歷史數據可能是一個問題,因為人們的行為可以解決后果,也不會提出其他可能性。換句話說,算法很難提出問題'如果我選擇門會有什么不同的事情B代替門A?' 在歷史數據中,我們只能看到門A的后果。“
視頻游戲作為替代方案,提供了豐富的測試環境,充滿了復雜的決策制定,而沒有讓不成熟的AI充分掌控的危險。與現實世界不同,它們為算法提供了一種安全的方法來從錯誤中吸取教訓。
“視頻游戲設計師并不打算以測試模型或模擬為目標來構建游戲,”江博士說。“他們經常設計具有雙重任務的游戲:創造模仿現實世界的環境,并挑戰玩家做出艱難的決定。這些目標恰好與我們正在尋找的東西保持一致。此外,游戲也很多在幾個小時的實時中,我們可以評估數十萬個游戲玩法決策的結果。“
為了測試他的算法,江博士使用了一種名為Multiplayer Online Battle Arena或MOBA的視頻游戲。諸如英雄聯盟或風暴英雄等游戲是流行的MOBA,其中玩家控制幾個“英雄”角色中的一個,并試圖在保護自己的同時摧毀對手的基地。
用于訓練游戲玩法AI的成功算法必須克服幾個挑戰,例如實時決策和長決策視野 - 一個數學術語,用于何時直到很久以后才能知道某些決策的后果。
“我們設計的算法用于評估41條信息,然后輸出22種不同動作中的一種,包括移動,攻擊和特殊動作,”江博士說。“我們將不同的訓練方法相互比較。最成功的玩家使用一種稱為蒙特卡羅樹搜索的方法來生成數據,然后將其輸入神經網絡。”
蒙特卡羅樹搜索是一種決策制定策略,其中玩家通過模擬或視頻游戲隨機移動。然后,該算法分析游戲結果,以便為更成功的動作賦予更多權重。隨著時間的推移和游戲的多次迭代,更成功的動作持續存在,并且玩家在贏得游戲方面變得更好。
“我們的研究也給出了一些理論結果,表明蒙特卡洛樹搜索是一種有效的策略,可以訓練代理人成功地做出艱難的決策,即使在不確定的世界中進行操作,”江博士解釋說。
江博士發表了他的研究成果 與Emmanuel Ekwedike和Han Liu共同撰寫的一篇論文,并于今年夏天在瑞典斯德哥爾摩舉行的2018年機器學習國際會議上公布了結果。
在匹茲堡大學,他繼續在博士學位的連續決策領域工作。學生Yijia Wang和Ibrahim El-Shar。該團隊專注于與乘車共享,能源市場和公共健康相關的問題。隨著行業準備讓AI負責關鍵職責,蔣博士確保基礎算法始終處于游戲的頂端。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)