AI擊敗了六人撲克中的專業人士

2022-05-15 05:12:02 編輯：鄭瀅維來源：

導讀由卡內基梅隆大學與Facebook AI合作開發的人工智能程序擊敗了世界上最受歡迎的撲克形式的六人無限制德州撲克中的領先專業人士。名為Plurib

由卡內基梅隆大學與Facebook AI合作開發的人工智能程序擊敗了世界上最受歡迎的撲克形式的六人無限制德州撲克中的領先專業人士。名為Pluribus的AI擊敗了撲克職業選手Darren Elias，他贏得了大多數世界撲克巡回賽冠軍的記錄，以及Chris“Jesus”Ferguson，六次世界撲克錦標賽的冠軍。每個職業玩家分別玩了5000手撲克牌對抗五份Pluribus。在另一項涉及13名職業選手的實驗中，所有人都贏得了超過100萬美元的撲克游戲，Pluribus一次共有5名職業玩家，共有10,000手牌，并再次取得勝利。

“Pluribus在多人撲克中取得了超人的表現，這是人工智能和博弈理論中公認的里程碑，已經開放了數十年，”天使喬丹計算機科學教授Tuomas Sandholm說道，他與Noam Brown一起開發了Pluribus，正在完成他的博士學位在卡內基梅隆大學計算機科學系擔任Facebook AI的研究科學家。“到目前為止，戰略推理中的超人AI里程碑僅限于兩方競爭。在如此復雜的游戲中擊敗其他五名玩家的能力為使用AI解決各種各樣的現實問題開辟了新的機會。”

去年加入Facebook AI的布朗表示，“玩六人游戲而不是直接面對，需要對人工智能如何制定其游戲策略進行根本改變。”“我們對其表現感到高興，并相信一些Pluribus的比賽策略甚至可能會改變職業選手的比賽方式。”

Pluribus的算法在其策略中創造了一些令人驚訝的特征。例如，大多數人類玩家避免“下注” - 也就是說，通過一個電話結束一輪，然后通過下注開始下一輪。它被視為一種通常沒有戰略意義的弱勢舉動。但是Pluribus比其擊敗的專業人士更頻繁地下注。

“它的主要優勢在于它能夠運用混合策略，”Elias上周為2019年世界撲克錦標賽主賽事做準備時表示。“這與人類試圖做的事情是一樣的。這是人類的執行問題 - 以完全隨機的方式做到這一點并且始終這樣做。大多數人都做不到。”

埃利亞斯表示，Pluribus在具有統計意義的情況下取得了穩固的勝利，尤其令人印象深刻。“機器人不僅僅是在對抗一些中間道路的職業選手。它正在扮演一些世界上最好的球員。”

Michael“Gags”Gagliano在職業生涯中獲得了近200萬美元的收入，他還與Pluribus競爭。

Gagliano說：“與撲克機器人對戰并看到它選擇的一些策略令人難以置信。”“人類根本沒有制作過幾部戲劇，特別是與它的賭注大小有關.Bots / AI是撲克演變的重要組成部分，在邁向這一大步的第一手經驗真是太棒了。未來。”

Sandholm領導了一個研究計算機撲克的研究團隊超過16年。他和布朗早些時候開發了Libratus，兩年前果斷地擊敗了四名撲克職業玩家，共同參加了120,000手單挑無限制德州撲克，這是一款雙人版本的游戲。

國際象棋和圍棋等游戲長期以來一直是人工智能研究的里程碑。在那些游戲中，所有玩家都知道游戲板和所有棋子的狀態。但撲克是一個更大的挑戰，因為它是一個不完整的信息游戲;玩家無法確定哪些牌在玩，而對手可以并且會詐唬。這使得它既是一個更嚴峻的AI挑戰，也與涉及多方和缺少信息的許多現實問題更加相關。

所有在雙人游戲中表現出超人技能的AI都是通過近似所謂的納什均衡來實現的。以已故的卡內基梅隆校友和諾貝爾獎獲得者約翰福布斯納什小命名，納什均衡是一對戰略(每個球員一個)，只要其他球員的策略保持不變，任何球員都不能從改變策略中受益。雖然人工智能的策略只能保證結果不比平局更差，但如果AI的對手犯了錯誤的計算且無法維持均衡，那么AI就會取得勝利。

在有兩個以上球員的比賽中，打納什均衡可能是一種失敗的策略。因此，Pluribus摒棄了成功的理論保證，并制定了戰略，使其能夠始終如一地擊敗對手。

Pluribus首先通過打出六個副本來計算“藍圖”策略，這足以進行第一輪下注。從那時起，Pluribus對游戲的細粒度抽象中的可能移動進行了更詳細的搜索。它會向前看幾個動作，但不要一直向前看到游戲結束，這在計算上是令人望而卻步的。有限前瞻搜索是完美信息游戲中的標準方法，但在不完美信息游戲中極具挑戰性。一種新的有限前瞻搜索算法是使Pluribus實現超人多玩家撲克的主要突破。

具體來說，搜索是有限前瞻子博弈的不完美信息游戲解決方案。在那個子博弈的葉子上，AI考慮了五個可能的延續策略，每個對手和自己可能會在剩下的比賽中采用。可能的延續策略的數量要大得多，但研究人員發現他們的算法只需要考慮每個葉子的每個玩家的五個延續策略來計算強大，平衡的整體策略。

Pluribus也試圖變得不可預測。例如，如果AI擁有最好的牌，投注將是有意義的，但如果AI只有在擁有最好的牌時下注，對手才會很快接受。因此，Pluribus會計算它如何在它可能擁有的每一只可能的牌中動作，然后計算一種在所有這些可能性之間取得平衡的策略。

雖然撲克是一個非常復雜的游戲，但Pluribus有效地利用了計算。已經在游戲中實現最近里程碑的AI已經使用了大量的GPU服務器和/或農場;Libratus使用了大約1500萬個核心小時來制定策略，并且在實時游戲中使用了1,400個CPU核心。Pluribus在8天內僅使用12,400個核心小時計算了其藍圖策略，并且在實時播放期間僅使用了28個核心。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯系刪除！