我们小组在Telegram中宣布公告

官方联系

       

什么是扑克机器人中的可被利用性,以及如何降低?

一切的开始,如同常见的那样,并非轰然巨响,也非明显失误,而是一种钝钝的、不安的悸动(而且往往非常微弱):某些东西似乎不太对劲。机器人打得不错。它在该诈唬的地方诈唬,价值下注毫不留情,该弃牌时,即使痛苦,也会果断放弃。然而,经过成千上万手牌后,一个奇怪的模式开始浮现:优秀的人类玩家并不是通过系统性地压制AI来取胜,而是通过发现策略编织中的裂缝,那些微小但持续的漏洞。这与方差无关。这关乎“可被利用性”。

看不见的标尺

对于我们这些身处AI扑克开发灰色地带的人来说,“可被利用性”并不是一个明确的指标,而是一种幽灵般的存在。正如新研究论文的作者之一Jacob Abernethy所言,它在数学上正式定义了:一种策略在面对最优对手——一个完全了解你弱点且只针对你弱点的敌人——时的平均损失。对于那些追求GTO的开发者来说,理想与现实之间的差距,就是“可被利用性”。

想象一种策略,在河牌某个位置稍稍过度弃牌。不是灾难性的错误,只是比均衡略多一点。人类可能注意不到。一般的机器人也可能忽略。但经过微调、专为对抗性设计的高级AI,会毫不犹豫地攻击。那个弃牌频率就是突破口——一个可以被一点点扩大成裂缝的划痕。

衡量漏洞

你可能会以为这些缺陷很容易被发现。但不同于国际象棋或围棋,扑克是一场“影子游戏”。最优对手就像幽灵:理论上的、无所不知的、耐心十足的。在实际中,当我们计算可被利用性时,几乎总是在“抽样”这个幽灵——通过LBR(限制最佳回应)模拟或深度蒙特卡洛近似来实现。Robson团队的研究者们用的是三到四位小数级的语言,测量单位是“每局千分之一大盲(mbb/g)”,没错,他们相信每十分之一也重要。一个可被利用性为1 mbb/g的机器人是最前沿水平。有的为9,有的为10、8、2或5;但如果是300,那就是漏水的水龙头。

即使到了2025年,仍然没有哪个已公开的机器人能在6人无限注德州扑克的规模下打出真正不可被利用的扑克。单挑呢?我们接近了。但决策点的数量——那种组合爆炸式的增长——令人咋舌。因此,程序员们只能不断建模、泛化、求解、再求解,并且始终保持警惕。

漏洞从何而来

可被利用性是悄然渗入的。但它往往是走捷径的代价——比如将手牌分桶,把本应区分的组合混合归类;又或者下注抽象化,将细致的判断简化成便于处理的固定模型。有时候是函数近似偏差:一个神经网络在数百万个模拟环境中学会了预测EV,但一旦遇到未见过的边缘情况,就会崩溃。还有时候,是迫于工程压力做出的权衡决策——比如伪随机数生成器过于可预测,出牌节奏太一致,或某个子博弈是在过时假设下求解的。

“这些问题的迷人之处,”他对我说,“不仅在于它们会发生,而在于它们会引发共振效应。一次可预测的河牌加注大小也许没什么。但如果它总是在标准场景中重复发生呢?机器人就会变得容易被读懂。可被利用。”

反制措施

那么,解药是什么?没有真正的“解药”。至少不是某一种。但有一整套技术拼图,每一种都在逐步削弱风险。

  • CFR及其衍生方法:对抗性后悔最小化(CFR)以及它的变种,比如CFR+、DCFR+、Deep CFR——这些是AI训练的主力工具。它们通过自我对弈不断迭代学习,直到后悔值趋近于零。但即便如此,它们也需要数百万、甚至数十亿次迭代,才能接近最小可被利用性。

  • 安全的子博弈求解:这正是Libratus和DeepStack表现突出的地方。它们不会盲目信任自己的策略蓝图。在每个节点,它们都会重新计算、优化、并设置风险边界。“永远不要求解出比原始策略更容易被利用的新策略”——这几乎是AI扑克界的信条。

  • 随机化纪律:即便是随机也不是随便来。如果你的伪随机数生成器(PRNG)不够安全,或者动作节奏过于规律,敏锐的对手可能就能反推出你的逻辑。顶尖的机器人在策略与节奏上都会“打抖”,保持不可预测。

  • 压力测试:持续进行LBR测试、对抗性自我博弈、加入“树外”下注行为——这些都是机器人训练过程中的硬核手段。机器人并不是在真空中变强的,而是在压力下淬炼出来的。

永无终结的张力

GTO是理想,而“利用性”则是诱惑。纯粹的GTO打法固然免疫,却冷漠——在面对弱对手时,它常常错失盈利机会。于是,我们走上了另一条更危险的道路:利用性打法可以“吃鱼”,却会在面对强敌时流血。最先进的机器人采用混合策略:一个低可被利用性的核心,外加机会主义式的附加逻辑,始终作为漏洞的系统管理员被警惕监控——过去如此,现在如此。

而这,正是核心张力所在。因为每一次利用某人的行为本身就意味着风险。每一种抽象,都是对真实世界的一种简化。而原因很简单:扑克与完美信息游戏不同,它永远无法提供完美反馈——只有嘈杂而延迟的信号。

所以我们一遍又一遍地自问:这个策略究竟有多容易被利用?如果某个漏洞被识破,会是谁发现的?我们是否承受得起这种偏差?我们是否该将这类手牌归类到那一组中?而所有这些问题的背后,还有一个更深的问题:我们到底离“解决”这款游戏有多远?

也许还不够近。但比昨天更近。