欧美日韩激情电影,久久亚洲精品毛片,日日夜夜天天综合入口,亚洲激情六月丁香

您的位置: 首頁 >科技 >

Facebook研究人員已經開發了一個通用的AI框架

2020-07-31 08:42:42 編輯: 來源:國際品牌資訊
導讀 Facebook研究人員已經開發了一個通用的AI框架,稱為遞歸基于信念的學習(ReBeL),他們說單挑,無限制的德州撲克游戲在單挑,無限制德州撲克

Facebook研究人員已經開發了一個通用的AI框架,稱為遞歸基于信念的學習(ReBeL),他們說單挑,無限制的德州撲克游戲在單挑,無限制德州撲克中的表現要好于人類,同時使用的領域知識也比以前任何撲克AI都要少。他們斷言,ReBeL是朝著開發用于多主體交互的通用技術邁出的一步,換句話說,就是可以在大規模多主體設置中部署的通用算法。從拍賣,談判和網絡安全到自動駕駛汽車和卡車,潛在的應用范圍廣泛。

將強化學習與AI模型訓練和測試時間的搜索相結合,帶來了許多進步。強化學習是代理商通過最大化獎勵來學習實現目標的過程,而搜索是從開始到目標狀態的導航過程。例如,DeepMind的AlphaZero運用強化學習和搜索功能,在棋類,將棋和圍棋等棋盤游戲中獲得最先進的表現。但是,將組合方法應用于諸如撲克(或剪刀石頭布)之類的信息不完善的游戲時,性能會受到影響,因為它會做出許多在這些情況下不成立的假設。任何給定動作的價值取決于其被選擇的可能性,并且更普遍地取決于整個游戲策略。

Facebook研究人員建議ReBeL提供修復程序。ReBeL建立在工作的基礎上,其中“博弈狀態”的概念得到了擴展,以包括代理商根據常識和其他代理商的政策對他們可能處于何種狀態的信念。ReBeL通過自我強化學習為州訓練了兩個AI模型-一個價值網絡和一個政策網絡。它在自播放期間使用兩種模型進行搜索。結果是一種簡單,靈活的算法,研究人員聲稱該算法能夠在大規模的兩人不完全信息游戲中擊敗頂尖的人類玩家。

在較高的級別上,ReBeL在公眾信仰狀態而非世界狀態(即游戲狀態)上運行。公眾信仰國家(PBS)將“國家價值”的概念推廣到不完全信息的游戲中,例如撲克。PBS是在有限的可能動作和狀態序列(也稱為歷史記錄)上的常見知識概率分布。(概率分布是一種特殊的函數,可提供發生不同可能結果的可能性。)在完美信息游戲中,PBS可以提取到歷史記錄,而在兩人零和游戲中,PBS可以有效地提取到世界狀態。撲克中的PBS是玩家可以做出的一系列決定,以及特定手牌,底池和籌碼時他們的結果。

ReBeL在每個游戲開始時都會生成一個與原始游戲相同的“子游戲”,只是它起源于最初的PBS。該算法通過運行“均衡查找”算法的迭代并使用訓練后的值網絡在每次迭代中近似值來贏得勝利。通過強化學習,發現值并將其添加為價值網絡的訓練示例,并且子游戲中的策略可選地添加為策略網絡的示例。然后重復該過程,使PBS成為新的子游戲根,直到準確性達到某個閾值。

在實驗中,研究人員對ReBeL進行了單挑德州撲克無限


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ   備案號:

本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)

主站蜘蛛池模板: jlzzjlzz欧美| 在线国产1区| www在线播放| 午夜伦全在线观看| 黄网站在线观看高清免费| 丁香花高清视频完整版在线观看| 国产黄网站在线观看| 在线免费看黄| 国产精品一区二区婷婷| 在线观看wwww| 国产精品国产三级国产试看| 激情网站在线| 白浆爆出在线观看| 亚洲一区免费在线| 国产黄色片在线观看| 天堂在线免费视频| 国产在线你懂得| 麻豆福利在线观看| 麻豆视频国产| 九九热在线播放| 国产在线视频自拍| 免费a级人成a大片在线观看| av片在线观看| av中文天堂在线| 天堂中文在线观看| 日本黄在线观看| 牛牛在线精品视频| www亚洲天堂| 国产在线观看av| 成年网站免费入口在线观看| 麻豆视频国产| 国产蜜臀av在线播放| 美女被人操视频在线观看| 日本不卡视频一区二区| 超碰免费在线| 国产尤物视频在线| 国产一卡二卡3卡4卡四卡在线| 国产一级性片| 精品乱码一区二区三四区视频| 国产传媒在线播放| 亚洲精品xxxxx|