我们小组在Telegram中宣布公告

官方联系

     
Pluribus Poker bot

了解 Pluribus Poker – AI Bot 如何撼动了扑克世界并挑战职业玩家。

早在2019年,来自卡内基梅隆大学Facebook AI 研究院 的团队在扑克界和人工智能领域投下重磅炸弹 —— 推出了 Pluribus,这是一个能够在六人无限注德州扑克中击败顶级职业选手的机器人。

时间来到2025年,Pluribus 依旧是人工智能讨论中的热门话题。当大家都在热议 ChatGPT、Claude 和 Gemini 等生成式系统时,许多研究人员仍然认为 Pluribus 是一个颠覆者 —— 它至今仍在影响策略制定、网络安全、谈判,甚至药物研发。

这个机器人是如何攻克世界上最棘手的纸牌游戏的?在这个需要诈唬与智慧的领域,它究竟凭什么成功?更大的疑问是:Pluribus 的某个版本会不会真的潜入网络扑克大厅?


为什么 Pluribus 重要

在 Pluribus 出现之前,大多数 AI 在扑克中的胜利都局限于 单挑形式(两名玩家)。像 DeepStackLibratus 这样的机器人,通过复杂的数学方法实现了所谓的“超人水平”,在两人对局中逼近 纳什均衡——一种难以被击败的策略。

但多人德州扑克却完全不同。与国际象棋或围棋这种信息完全公开的游戏不同,扑克的关键在于 不完全信息 —— 你永远无法完全知道对手的手牌。在多人环境中,复杂度急剧上升,一对一局中看不出的弱点可能在六人桌上被迅速利用,例如串通、诈唬和筹码量的变化。

事实上,在2018年,许多专家认为 人工智能在相当长的时间里都无法攻克六人无限注德州扑克 —— 甚至可能永远做不到。

然后,Pluribus 出现了。


机器内部

根据2019年《Science》的里程碑论文,Pluribus 建立在两个关键思想之上:

  1. 自我对弈训练
    研究人员没有用数十亿手牌填充它,而是让 Pluribus 与自身的复制体对弈。在一台64核服务器上经过八天(花费约150美元),AI 通过大量试错学会了自己的策略。这种方式比很多动辄耗费数百万的强化学习更节省。
  2. 有限前瞻搜索
    不同于国际象棋 AI 需要提前计划很多步,Pluribus 只向前看几步。它结合了基于概率的“蓝图”来处理常见局面,在不可预测性与效率之间找到平衡。这让它具备了类似人类的灵活优势,而不是僵化的策略。

最终结果?一个下出奇怪却有效动作的 AI,甚至让老牌高手都开始怀疑自己的直觉。


独特的游戏风格

真正让 Pluribus 脱颖而出的不仅是它的胜利,而是它的打法

  • 从不 Limp
    职业玩家有时会选择 Limp(翻牌前只跟大盲注),但 Pluribus 完全避免 —— 后来事实证明这是更优的打法。
  • 使用“Donk Betting”
    通常被人诟病的 Donk Bet(对进攻者先下注)成了 Pluribus 的标志性动作之一。其实它的 Donk Bet 时机恰到好处,往往能意外赢下底池。
  • 非常规的诈唬
    对人类而言,诈唬是赌博。但对 Pluribus 来说,这只是数学。它没有情绪牵绊,能够执行最大化长期期望的诈唬。
  • 意想不到的 Check-Raise
    一些通常被视为“花哨”的动作在 Pluribus 的打法中却经常出现,显示出机器并不遵循人类的扑克规则。

在面对像 Darren Elias(保持 WPT 冠军纪录)和 Chris Ferguson(2000 年 WSOP 主赛冠军)这样的高手时,Pluribus 平均每手赚取约5美元 —— 在1万手牌内,每小时约1,000美元

正如 Elias 在一场接一场失败后说:

“你会觉得它在以比我们更高的水平玩……我没有看到它方法上有明显漏洞。”


为什么2025年仍在关注 Pluribus

六年过去了,为什么我们还在谈论这个扑克机器人?

因为 Pluribus 跨出的那一步 —— 在多人不完全信息游戏中取胜 —— 仍然是人工智能最大的挑战之一

  • 生成式 AI 如 GPT 虽然擅长文本预测,但在竞争性策略上仍显乏力。
  • 机器人系统 大多被设计用于受控环境。
  • 许多现实问题更接近扑克而非国际象棋:网络安全、金融市场、多方交易甚至军事模拟,都涉及隐藏信息、不断变化的联盟和不合作的参与者。

正如AAAS 所指出的,Pluribus 的设计最终或许能帮助 AI 支持网络安全防御、耐药感染的药物研发,甚至军事模拟

而对普通人来说,问题更大 —— 是否有人可以偷偷将 Pluribus 或其后继者带入网络扑克室


Pluribus 能打破网络扑克吗?

Pluribus 从未公开发布 供大众使用。研究人员明确担心:即便稍强一点的 AI 也能在真实扑克游戏中掏空数千玩家的钱。

但其简易硬件需求 —— 在单台服务器上训练8天,花费仅150美元 —— 说明这绝不是遥不可及。相比开发成本高昂的 GPT-4,2025年的爱好者完全可能用开源强化学习工具重建一个缩小版的 Pluribus。

这使问题变得棘手:

  • 网络扑克网站(如 PokerStars 或 WSOP.com)已经使用检测机制,追踪异常决策模式。
  • 但是类似 Pluribus 的 AI 足够灵活,可能逃过检测。它的不可预测性 —— 就像令 Elias 和 Ferguson 困惑的地方 —— 使得识别很困难。
  • 一旦这种机器人出现,它很可能横扫中高额桌,击败休闲玩家乃至职业牌手。

迄今为止,还没有确凿证据表明 Pluribus 或其复制品出现在网络赛场。但随着算力更便宜、强化学习扩散,监管机构和扑克网站可能将陷入永无止境的“猫鼠游戏”。而可以说,这场游戏起始于 Pluribus。


更大的图景:扑克作为现实模型

扑克不仅是打牌 —— 它反映现实人生。人们总是在信息不完全的情况下做选择,试图通过线索、诈唬和不确定的决策战胜对手。

这也是为什么 DARPA、美国国防部以及金融公司 对扑克 AI 研究感兴趣。Pluribus 不仅赢了牌局;它证明了机器可以在混乱、多玩家的竞争性环境中表现卓越。

几个值得思考的领域:

  • 网络安全:抵御策略不断变化的黑客类似于一场更长期的诈唬游戏。
  • 金融交易:市场就是多人游戏,信息不完整 —— 恰好是 Pluribus 擅长的场景。
  • 医疗保健:设计药物以应对不断演化的细菌,就像预测病原体的隐藏动作。

所有这些领域都需要 Pluribus 所展现的能力:在信息不透明的情况下,凭借灵活的混合策略取得成功。


依然存在的局限

尽管 Pluribus 令人惊叹,但它并非通用人工智能

  • 它是静态的:训练完成后无法即时更新。不像今天的 GPT 模型能不断吸收新数据。
  • 它仅专注于 无限注德州扑克六人桌 —— 如果换到 PLO 或限注德州扑克,表现可能差强人意。
  • 它在结构化、大量手牌的环境中表现更好 —— 类似网络现金局 —— 方差会被抵消。在现场锦标赛、手牌较少时,结果可能不同。

更重要的是,它的蓝图策略并不保证最优;它只是证明在大量手牌中很难被击败。


结论:2025年的 Pluribus 阴影

在震撼扑克与人工智能世界六年后,Pluribus 依旧是推动我们重新思考战略、风险与智慧的重要里程碑。

它的真正影响或许不仅在扑克,更在于其经验被应用到网络安全、生物技术及现实中的谈判。然而,想到类似 Pluribus 的机器人可能已经悄然潜伏在2025年的网络扑克室,这既令人担忧又令人着迷。

正如职业牌手 Chris Ferguson 在对战 Pluribus 后所说:

“它不会疲倦。它没有情绪。它只会打牌。”

这大概就是机器智能的核心 —— 也是为什么 Pluribus 的成就一直在牌桌之外回响。


参考文献

关于 Pluribus AI 的常见问题

什么是 Pluribus AI,它为什么重要?

Pluribus 是由卡内基梅隆大学和 Facebook AI 研究院在2019年开发的扑克 AI。它是第一个能够在六人无限注德州扑克中击败职业玩家的 AI,突破了多人不完全信息博弈的难题。不同于以往只能打单挑的 AI,Pluribus 能处理复杂的多人局势。

Pluribus 在对职业选手时赢了多少钱?

Pluribus 平均每手约赢5美元,每小时约1,000美元。在与 Darren Elias 和 Chris Ferguson 等高手的一万手对战中,它保持了约30毫大盲/局的胜率,展现了超人表现。

Pluribus 能否用来在网络扑克作弊?

开发者没有公布其源代码,以避免在网络扑克中被滥用。但训练需求低(8天150美元),类似系统理论上可被复现。现有检测系统未必能识别出其不可预测的打法。

Pluribus 与人类玩家有何不同?

它从不 limp,更频繁使用 donk betting,执行纯粹数学的诈唬,不受情绪干扰,并在非常规场合使用 check-raise。职业玩家称面对它感到无从下手。

Pluribus 的训练方法和资源是什么?

它通过自我博弈,在64核服务器上训练8天,花费约150美元。采用有限前瞻搜索与概率蓝图来平衡效率和灵活性。

Pluribus 技术在现实中的应用?

其技术适用于网络安全、药物研发、军事机器人、金融交易和多方谈判等场景。任何涉及不完全信息和竞争博弈的领域都可借鉴。

2025年 Pluribus 还在更新吗?

Pluribus 自2019年以来没有更新,仍是静态系统。不同于可持续学习的新一代 IA,但其创新仍影响着多人博弈与战略系统研究。

Pluribus 的局限性有哪些?

它仅适用于六人无限注德州扑克,不适合其他变体。不能实时更新策略,蓝图策略虽难以击败,但非最优。更适合在线现金局,而非小手数锦标赛。