
了解 Pluribus Poker – AI Bot 如何撼动了扑克世界并挑战职业玩家。
早在2019年,来自卡内基梅隆大学 和 Facebook AI 研究院 的团队在扑克界和人工智能领域投下重磅炸弹 —— 推出了 Pluribus,这是一个能够在六人无限注德州扑克中击败顶级职业选手的机器人。
时间来到2025年,Pluribus 依旧是人工智能讨论中的热门话题。当大家都在热议 ChatGPT、Claude 和 Gemini 等生成式系统时,许多研究人员仍然认为 Pluribus 是一个颠覆者 —— 它至今仍在影响策略制定、网络安全、谈判,甚至药物研发。
这个机器人是如何攻克世界上最棘手的纸牌游戏的?在这个需要诈唬与智慧的领域,它究竟凭什么成功?更大的疑问是:Pluribus 的某个版本会不会真的潜入网络扑克大厅?
为什么 Pluribus 重要
在 Pluribus 出现之前,大多数 AI 在扑克中的胜利都局限于 单挑形式(两名玩家)。像 DeepStack 和 Libratus 这样的机器人,通过复杂的数学方法实现了所谓的“超人水平”,在两人对局中逼近 纳什均衡——一种难以被击败的策略。
但多人德州扑克却完全不同。与国际象棋或围棋这种信息完全公开的游戏不同,扑克的关键在于 不完全信息 —— 你永远无法完全知道对手的手牌。在多人环境中,复杂度急剧上升,一对一局中看不出的弱点可能在六人桌上被迅速利用,例如串通、诈唬和筹码量的变化。
事实上,在2018年,许多专家认为 人工智能在相当长的时间里都无法攻克六人无限注德州扑克 —— 甚至可能永远做不到。
然后,Pluribus 出现了。
机器内部
根据2019年《Science》的里程碑论文,Pluribus 建立在两个关键思想之上:
- 自我对弈训练
研究人员没有用数十亿手牌填充它,而是让 Pluribus 与自身的复制体对弈。在一台64核服务器上经过八天(花费约150美元),AI 通过大量试错学会了自己的策略。这种方式比很多动辄耗费数百万的强化学习更节省。 - 有限前瞻搜索
不同于国际象棋 AI 需要提前计划很多步,Pluribus 只向前看几步。它结合了基于概率的“蓝图”来处理常见局面,在不可预测性与效率之间找到平衡。这让它具备了类似人类的灵活优势,而不是僵化的策略。
最终结果?一个下出奇怪却有效动作的 AI,甚至让老牌高手都开始怀疑自己的直觉。
独特的游戏风格
真正让 Pluribus 脱颖而出的不仅是它的胜利,而是它的打法。
- 从不 Limp
职业玩家有时会选择 Limp(翻牌前只跟大盲注),但 Pluribus 完全避免 —— 后来事实证明这是更优的打法。 - 使用“Donk Betting”
通常被人诟病的 Donk Bet(对进攻者先下注)成了 Pluribus 的标志性动作之一。其实它的 Donk Bet 时机恰到好处,往往能意外赢下底池。 - 非常规的诈唬
对人类而言,诈唬是赌博。但对 Pluribus 来说,这只是数学。它没有情绪牵绊,能够执行最大化长期期望的诈唬。 - 意想不到的 Check-Raise
一些通常被视为“花哨”的动作在 Pluribus 的打法中却经常出现,显示出机器并不遵循人类的扑克规则。
在面对像 Darren Elias(保持 WPT 冠军纪录)和 Chris Ferguson(2000 年 WSOP 主赛冠军)这样的高手时,Pluribus 平均每手赚取约5美元 —— 在1万手牌内,每小时约1,000美元。
正如 Elias 在一场接一场失败后说:
“你会觉得它在以比我们更高的水平玩……我没有看到它方法上有明显漏洞。”
为什么2025年仍在关注 Pluribus
六年过去了,为什么我们还在谈论这个扑克机器人?
因为 Pluribus 跨出的那一步 —— 在多人不完全信息游戏中取胜 —— 仍然是人工智能最大的挑战之一。
- 生成式 AI 如 GPT 虽然擅长文本预测,但在竞争性策略上仍显乏力。
- 机器人系统 大多被设计用于受控环境。
- 许多现实问题更接近扑克而非国际象棋:网络安全、金融市场、多方交易甚至军事模拟,都涉及隐藏信息、不断变化的联盟和不合作的参与者。
正如AAAS 所指出的,Pluribus 的设计最终或许能帮助 AI 支持网络安全防御、耐药感染的药物研发,甚至军事模拟。
而对普通人来说,问题更大 —— 是否有人可以偷偷将 Pluribus 或其后继者带入网络扑克室?
Pluribus 能打破网络扑克吗?
Pluribus 从未公开发布 供大众使用。研究人员明确担心:即便稍强一点的 AI 也能在真实扑克游戏中掏空数千玩家的钱。
但其简易硬件需求 —— 在单台服务器上训练8天,花费仅150美元 —— 说明这绝不是遥不可及。相比开发成本高昂的 GPT-4,2025年的爱好者完全可能用开源强化学习工具重建一个缩小版的 Pluribus。
这使问题变得棘手:
- 网络扑克网站(如 PokerStars 或 WSOP.com)已经使用检测机制,追踪异常决策模式。
- 但是类似 Pluribus 的 AI 足够灵活,可能逃过检测。它的不可预测性 —— 就像令 Elias 和 Ferguson 困惑的地方 —— 使得识别很困难。
- 一旦这种机器人出现,它很可能横扫中高额桌,击败休闲玩家乃至职业牌手。
迄今为止,还没有确凿证据表明 Pluribus 或其复制品出现在网络赛场。但随着算力更便宜、强化学习扩散,监管机构和扑克网站可能将陷入永无止境的“猫鼠游戏”。而可以说,这场游戏起始于 Pluribus。
更大的图景:扑克作为现实模型
扑克不仅是打牌 —— 它反映现实人生。人们总是在信息不完全的情况下做选择,试图通过线索、诈唬和不确定的决策战胜对手。
这也是为什么 DARPA、美国国防部以及金融公司 对扑克 AI 研究感兴趣。Pluribus 不仅赢了牌局;它证明了机器可以在混乱、多玩家的竞争性环境中表现卓越。
几个值得思考的领域:
- 网络安全:抵御策略不断变化的黑客类似于一场更长期的诈唬游戏。
- 金融交易:市场就是多人游戏,信息不完整 —— 恰好是 Pluribus 擅长的场景。
- 医疗保健:设计药物以应对不断演化的细菌,就像预测病原体的隐藏动作。
所有这些领域都需要 Pluribus 所展现的能力:在信息不透明的情况下,凭借灵活的混合策略取得成功。
依然存在的局限
尽管 Pluribus 令人惊叹,但它并非通用人工智能。
- 它是静态的:训练完成后无法即时更新。不像今天的 GPT 模型能不断吸收新数据。
- 它仅专注于 无限注德州扑克六人桌 —— 如果换到 PLO 或限注德州扑克,表现可能差强人意。
- 它在结构化、大量手牌的环境中表现更好 —— 类似网络现金局 —— 方差会被抵消。在现场锦标赛、手牌较少时,结果可能不同。
更重要的是,它的蓝图策略并不保证最优;它只是证明在大量手牌中很难被击败。
结论:2025年的 Pluribus 阴影
在震撼扑克与人工智能世界六年后,Pluribus 依旧是推动我们重新思考战略、风险与智慧的重要里程碑。
它的真正影响或许不仅在扑克,更在于其经验被应用到网络安全、生物技术及现实中的谈判。然而,想到类似 Pluribus 的机器人可能已经悄然潜伏在2025年的网络扑克室,这既令人担忧又令人着迷。
正如职业牌手 Chris Ferguson 在对战 Pluribus 后所说:
“它不会疲倦。它没有情绪。它只会打牌。”
这大概就是机器智能的核心 —— 也是为什么 Pluribus 的成就一直在牌桌之外回响。
参考文献
- Brown, N., & Sandholm, T. 《多人扑克的超人类人工智能》Science (2019)
- AAAS,《人工智能征服世界上最复杂的扑克游戏》(2019)
- Science: 《无限注单挑扑克的超人类人工智能》(2017)
关于 Pluribus AI 的常见问题
什么是 Pluribus AI,它为什么重要?
Pluribus 是由卡内基梅隆大学和 Facebook AI 研究院在2019年开发的扑克 AI。它是第一个能够在六人无限注德州扑克中击败职业玩家的 AI,突破了多人不完全信息博弈的难题。不同于以往只能打单挑的 AI,Pluribus 能处理复杂的多人局势。
Pluribus 在对职业选手时赢了多少钱?
Pluribus 平均每手约赢5美元,每小时约1,000美元。在与 Darren Elias 和 Chris Ferguson 等高手的一万手对战中,它保持了约30毫大盲/局的胜率,展现了超人表现。
Pluribus 能否用来在网络扑克作弊?
开发者没有公布其源代码,以避免在网络扑克中被滥用。但训练需求低(8天150美元),类似系统理论上可被复现。现有检测系统未必能识别出其不可预测的打法。
Pluribus 与人类玩家有何不同?
它从不 limp,更频繁使用 donk betting,执行纯粹数学的诈唬,不受情绪干扰,并在非常规场合使用 check-raise。职业玩家称面对它感到无从下手。
Pluribus 的训练方法和资源是什么?
它通过自我博弈,在64核服务器上训练8天,花费约150美元。采用有限前瞻搜索与概率蓝图来平衡效率和灵活性。
Pluribus 技术在现实中的应用?
其技术适用于网络安全、药物研发、军事机器人、金融交易和多方谈判等场景。任何涉及不完全信息和竞争博弈的领域都可借鉴。
2025年 Pluribus 还在更新吗?
Pluribus 自2019年以来没有更新,仍是静态系统。不同于可持续学习的新一代 IA,但其创新仍影响着多人博弈与战略系统研究。
Pluribus 的局限性有哪些?
它仅适用于六人无限注德州扑克,不适合其他变体。不能实时更新策略,蓝图策略虽难以击败,但非最优。更适合在线现金局,而非小手数锦标赛。