Pluribus 在与职业玩家的对战中赢了多少钱？

Pluribus 平均每手约赢取5美元，对战职业玩家时每小时赢取约1,000美元。在与 Darren Elias 和 Chris Ferguson 等顶尖职业牌手进行的一万手牌中，它保持了约30毫大盲/局的稳定胜率，展现了超人类的表现。

Pluribus 能否在网上扑克中作弊？

开发者刻意不公开 Pluribus 的源代码，就是为了防止其在网络扑克中被滥用。但它的计算需求很低（仅用150美元在8天内训练完成），意味着类似系统在理论上可被重现。虽然网络扑克网站使用机器人检测系统，但由于 Pluribus 的打法不可预测，此类 AI 有可能逃过检测。

Pluribus 与人类扑克玩家有何不同？

Pluribus 使用了多种独特策略：它从不 limp（只跟大盲注）、donk betting 的频率高于人类、执行数学最优的诈唬而不受情绪影响，并会在非常规情况下做 check-raise。职业玩家表示面对它的策略感到“无力”，难以利用漏洞。

Pluribus 是如何训练的？需要哪些资源？

Pluribus 通过自我对弈进行训练，在一台64核服务器上与自身复制体对局八天完成训练，总成本仅约150美元，相较其他高级 AI 系统非常划算。它采用有限前瞻搜索，仅预测几步，并结合概率蓝图处理常见情景。

Pluribus 技术在扑克之外的实际应用是什么？

Pluribus 所采用的技术在多个领域有潜力：网络安全（防御不断进化的黑客策略）、抗药性感染药物设计、军事机器人、金融交易以及多方谈判。任何涉及不完全信息、多个竞争主体以及战略性决策的场景，都能从类似 Pluribus 的 AI 方法中获益。

到2025年 Pluribus 还在更新或改进吗？

Pluribus 依然是一个静态程序，自其最初开发以来未曾更新。不像现代 AI 系统能持续学习新数据，Pluribus 被设计为固定策略系统。然而，它的核心创新仍在影响其他研究者开发的多人游戏 AI 及战略决策系统。

Pluribus 有哪些局限性？

Pluribus 仅针对六人无限注德州扑克设计，在其他变体如 Pot-Limit Omaha 或锦标赛中表现不佳。它是静态系统，无法实时适应新策略，其蓝图策略虽然几乎无法击败，但并非理论最优。它最适合高手数的现金局，而非手数较少的锦标赛。

新闻资讯

了解 Pluribus Poker – AI Bot 如何撼动了扑克世界并挑战职业玩家。

Q: 什么是 Pluribus AI，它为什么重要？

Pluribus 是卡内基梅隆大学和 Facebook AI 研究团队在2019年开发的一种扑克人工智能。它是第一个在六人无限注德州扑克中击败职业人类玩家的 AI，标志着在多人不完全信息游戏中的突破。不同于过去只能在单挑（二人局）中运行的扑克 AI，Pluribus 成功应对了多人扑克的复杂动态。

Written by

PokerBotAI Updates Team

Published 15 3 月, 2023 • Updated 26 8 月, 2025

Get the latest software updates, patch notes, and new features for our poker bots and AI. Straight from the developers' den at PokerBotAI.com

早在2019年，来自卡内基梅隆大学 和 Facebook AI 研究院 的团队在扑克界和人工智能领域投下重磅炸弹 —— 推出了 Pluribus，这是一个能够在六人无限注德州扑克中击败顶级职业选手的机器人。

时间来到2025年，Pluribus 依旧是人工智能讨论中的热门话题。当大家都在热议 ChatGPT、Claude 和 Gemini 等生成式系统时，许多研究人员仍然认为 Pluribus 是一个颠覆者 —— 它至今仍在影响策略制定、网络安全、谈判，甚至药物研发。

这个机器人是如何攻克世界上最棘手的纸牌游戏的？在这个需要诈唬与智慧的领域，它究竟凭什么成功？更大的疑问是：Pluribus 的某个版本会不会真的潜入网络扑克大厅？

为什么 Pluribus 重要

在 Pluribus 出现之前，大多数 AI 在扑克中的胜利都局限于 单挑形式（两名玩家）。像 DeepStack 和 Libratus 这样的机器人，通过复杂的数学方法实现了所谓的“超人水平”，在两人对局中逼近 纳什均衡——一种难以被击败的策略。

但多人德州扑克却完全不同。与国际象棋或围棋这种信息完全公开的游戏不同，扑克的关键在于 不完全信息 —— 你永远无法完全知道对手的手牌。在多人环境中，复杂度急剧上升，一对一局中看不出的弱点可能在六人桌上被迅速利用，例如串通、诈唬和筹码量的变化。

事实上，在2018年，许多专家认为 人工智能在相当长的时间里都无法攻克六人无限注德州扑克 —— 甚至可能永远做不到。

然后，Pluribus 出现了。

机器内部

根据2019年《Science》的里程碑论文，Pluribus 建立在两个关键思想之上：

自我对弈训练
研究人员没有用数十亿手牌填充它，而是让 Pluribus 与自身的复制体对弈。在一台64核服务器上经过八天（花费约150美元），AI 通过大量试错学会了自己的策略。这种方式比很多动辄耗费数百万的强化学习更节省。
有限前瞻搜索
不同于国际象棋 AI 需要提前计划很多步，Pluribus 只向前看几步。它结合了基于概率的“蓝图”来处理常见局面，在不可预测性与效率之间找到平衡。这让它具备了类似人类的灵活优势，而不是僵化的策略。

最终结果？一个下出奇怪却有效动作的 AI，甚至让老牌高手都开始怀疑自己的直觉。

独特的游戏风格

真正让 Pluribus 脱颖而出的不仅是它的胜利，而是它的打法。

从不 Limp
职业玩家有时会选择 Limp（翻牌前只跟大盲注），但 Pluribus 完全避免 —— 后来事实证明这是更优的打法。
使用“Donk Betting”
通常被人诟病的 Donk Bet（对进攻者先下注）成了 Pluribus 的标志性动作之一。其实它的 Donk Bet 时机恰到好处，往往能意外赢下底池。
非常规的诈唬
对人类而言，诈唬是赌博。但对 Pluribus 来说，这只是数学。它没有情绪牵绊，能够执行最大化长期期望的诈唬。
意想不到的 Check-Raise
一些通常被视为“花哨”的动作在 Pluribus 的打法中却经常出现，显示出机器并不遵循人类的扑克规则。

在面对像 Darren Elias（保持 WPT 冠军纪录）和 Chris Ferguson（2000 年 WSOP 主赛冠军）这样的高手时，Pluribus 平均每手赚取约5美元 —— 在1万手牌内，每小时约1,000美元。

正如 Elias 在一场接一场失败后说：

“你会觉得它在以比我们更高的水平玩……我没有看到它方法上有明显漏洞。”

为什么2025年仍在关注 Pluribus

六年过去了，为什么我们还在谈论这个扑克机器人？

因为 Pluribus 跨出的那一步 —— 在多人不完全信息游戏中取胜 —— 仍然是人工智能最大的挑战之一。

生成式 AI 如 GPT 虽然擅长文本预测，但在竞争性策略上仍显乏力。
机器人系统 大多被设计用于受控环境。
许多现实问题更接近扑克而非国际象棋：网络安全、金融市场、多方交易甚至军事模拟，都涉及隐藏信息、不断变化的联盟和不合作的参与者。

正如AAAS 所指出的，Pluribus 的设计最终或许能帮助 AI 支持网络安全防御、耐药感染的药物研发，甚至军事模拟。

而对普通人来说，问题更大 —— 是否有人可以偷偷将 Pluribus 或其后继者带入网络扑克室？

Pluribus 能打破网络扑克吗？

Pluribus 从未公开发布 供大众使用。研究人员明确担心：即便稍强一点的 AI 也能在真实扑克游戏中掏空数千玩家的钱。

但其简易硬件需求 —— 在单台服务器上训练8天，花费仅150美元 —— 说明这绝不是遥不可及。相比开发成本高昂的 GPT-4，2025年的爱好者完全可能用开源强化学习工具重建一个缩小版的 Pluribus。

这使问题变得棘手：

网络扑克网站（如 PokerStars 或 WSOP.com）已经使用检测机制，追踪异常决策模式。
但是类似 Pluribus 的 AI 足够灵活，可能逃过检测。它的不可预测性 —— 就像令 Elias 和 Ferguson 困惑的地方 —— 使得识别很困难。
一旦这种机器人出现，它很可能横扫中高额桌，击败休闲玩家乃至职业牌手。

迄今为止，还没有确凿证据表明 Pluribus 或其复制品出现在网络赛场。但随着算力更便宜、强化学习扩散，监管机构和扑克网站可能将陷入永无止境的“猫鼠游戏”。而可以说，这场游戏起始于 Pluribus。

更大的图景：扑克作为现实模型

扑克不仅是打牌 —— 它反映现实人生。人们总是在信息不完全的情况下做选择，试图通过线索、诈唬和不确定的决策战胜对手。

这也是为什么 DARPA、美国国防部以及金融公司 对扑克 AI 研究感兴趣。Pluribus 不仅赢了牌局；它证明了机器可以在混乱、多玩家的竞争性环境中表现卓越。

几个值得思考的领域：

网络安全：抵御策略不断变化的黑客类似于一场更长期的诈唬游戏。
金融交易：市场就是多人游戏，信息不完整 —— 恰好是 Pluribus 擅长的场景。
医疗保健：设计药物以应对不断演化的细菌，就像预测病原体的隐藏动作。

所有这些领域都需要 Pluribus 所展现的能力：在信息不透明的情况下，凭借灵活的混合策略取得成功。

依然存在的局限

尽管 Pluribus 令人惊叹，但它并非通用人工智能。

它是静态的：训练完成后无法即时更新。不像今天的 GPT 模型能不断吸收新数据。
它仅专注于 无限注德州扑克六人桌 —— 如果换到 PLO 或限注德州扑克，表现可能差强人意。
它在结构化、大量手牌的环境中表现更好 —— 类似网络现金局 —— 方差会被抵消。在现场锦标赛、手牌较少时，结果可能不同。

更重要的是，它的蓝图策略并不保证最优；它只是证明在大量手牌中很难被击败。

结论：2025年的 Pluribus 阴影

在震撼扑克与人工智能世界六年后，Pluribus 依旧是推动我们重新思考战略、风险与智慧的重要里程碑。

它的真正影响或许不仅在扑克，更在于其经验被应用到网络安全、生物技术及现实中的谈判。然而，想到类似 Pluribus 的机器人可能已经悄然潜伏在2025年的网络扑克室，这既令人担忧又令人着迷。

正如职业牌手 Chris Ferguson 在对战 Pluribus 后所说：

“它不会疲倦。它没有情绪。它只会打牌。”

这大概就是机器智能的核心 —— 也是为什么 Pluribus 的成就一直在牌桌之外回响。

参考文献

关于 Pluribus AI 的常见问题

什么是 Pluribus AI，它为什么重要？

Pluribus 是由卡内基梅隆大学和 Facebook AI 研究院在2019年开发的扑克 AI。它是第一个能够在六人无限注德州扑克中击败职业玩家的 AI，突破了多人不完全信息博弈的难题。不同于以往只能打单挑的 AI，Pluribus 能处理复杂的多人局势。

Pluribus 在对职业选手时赢了多少钱？

Pluribus 平均每手约赢5美元，每小时约1,000美元。在与 Darren Elias 和 Chris Ferguson 等高手的一万手对战中，它保持了约30毫大盲/局的胜率，展现了超人表现。

Pluribus 能否用来在网络扑克作弊？

开发者没有公布其源代码，以避免在网络扑克中被滥用。但训练需求低（8天150美元），类似系统理论上可被复现。现有检测系统未必能识别出其不可预测的打法。

Pluribus 与人类玩家有何不同？

它从不 limp，更频繁使用 donk betting，执行纯粹数学的诈唬，不受情绪干扰，并在非常规场合使用 check-raise。职业玩家称面对它感到无从下手。

Pluribus 的训练方法和资源是什么？

它通过自我博弈，在64核服务器上训练8天，花费约150美元。采用有限前瞻搜索与概率蓝图来平衡效率和灵活性。

Pluribus 技术在现实中的应用？

其技术适用于网络安全、药物研发、军事机器人、金融交易和多方谈判等场景。任何涉及不完全信息和竞争博弈的领域都可借鉴。

2025年 Pluribus 还在更新吗？

Pluribus 自2019年以来没有更新，仍是静态系统。不同于可持续学习的新一代 IA，但其创新仍影响着多人博弈与战略系统研究。

Pluribus 的局限性有哪些？

它仅适用于六人无限注德州扑克，不适合其他变体。不能实时更新策略，蓝图策略虽难以击败，但非最优。更适合在线现金局，而非小手数锦标赛。