AI为何在简单游戏中栽跟头？揭秘自训练算法的局限性

当人工智能（AI）在围棋、象棋等复杂游戏中击败人类冠军时，我们似乎已步入一个AI无所不能的时代。然而，一项最新研究却揭示了一个令人费解的反常现象：那些能通过自我对弈（Self-Play）征服复杂游戏的AI，却会在规则极其简单的游戏中“翻车”。这不仅仅是游戏胜负的问题，更触及了当前主流AI训练方法的“阿喀琉斯之踵”，可能影响未来AI在更广泛决策问题上的可靠性。

核心看点
训练范式失效：谷歌DeepMind用于训练AlphaGo、AlphaZero的“自我对弈”方法，在一类名为“无偏博弈”的简单游戏中完全失灵。
简单游戏的复杂内核：研究以经典游戏“尼姆”（Nim）为例，其胜负完全由数学奇偶函数决定，而这恰恰是依赖模式识别的AI难以“领悟”的。
规模即瓶颈：AI在小型尼姆棋盘上尚能学习，但棋盘规模稍一扩大，其学习能力便急剧下降，性能与随机选择无异，揭示了当前方法的可扩展性危机。

从围棋到尼姆：AI的“滑铁卢”

谷歌DeepMind的Alpha系列AI曾被誉为通用游戏玩家的典范。通过海量的自我对弈，它们不仅掌握了围棋的玄妙，也征服了国际象棋的深邃。然而，当研究人员开始发现一些能被围棋新手轻松破解、却能击败顶尖围棋AI的特定棋局时，警钟已然敲响。

击败游戏AI看似小事，实则意义重大。它能帮助我们识别AI的“失败模式”，或改进训练方法以预先避免其形成“认知盲区”。随着人们依赖AI辅助决策的范围日益扩大，理解这些局限性变得至关重要。

近期发表于《机器学习》期刊的一篇论文，系统性地描述了一整类会让AlphaGo式训练方法彻底失效的游戏。这类游戏可以非常简单，例如研究人员重点分析的“尼姆游戏”（Nim）。游戏规则极简：双方玩家轮流从一个金字塔形的棋盘（由多行火柴棍组成）上取走任意数量的火柴棍，无法进行合法移动者输。

“无偏博弈”的数学本质：AI难以逾越的鸿沟

尼姆游戏是“无偏博弈”的一个典型代表。与象棋等“有偏博弈”（双方拥有不同棋子）不同，在无偏博弈中，双方玩家使用相同的棋子并遵守完全相同的规则。一个关键定理指出，任何无偏博弈的任一局面，都可以等价于一个特定配置的尼姆棋盘。这意味着，适用于尼姆的结论，几乎适用于所有无偏博弈。

尼姆等无偏博弈的一个鲜明特点是：在游戏的任何时刻，都可以通过一个确定的数学函数（奇偶校验函数）瞬间评估当前局面的胜负归属。也就是说，一个“完美玩家”在每一步都能立刻知道自己是处于必胜还是必败位置。获胜的关键不在于深远的计算或复杂的策略，而在于精确执行由该数学函数指出的少数“最优移动”。

当自我对弈遭遇数学壁垒：AlphaZero方法为何失灵？

AlphaZero（象棋版本）的训练仅从规则开始。通过自我对弈，它将不同的棋盘配置与获胜概率关联起来。为了避免陷入局部最优，它引入了随机探索机制。一旦它能识别出有限的高价值走法，便能更深入地探索这些走法引发的未来可能性。游戏对弈越多，它就越能为给定局面下可能出现的棋盘配置分配更准确的价值。

然而，在尼姆游戏中，对于给定的棋盘配置，最优走法数量非常有限。如果你没有走出其中之一，就等于将控制权拱手让给对手，只要对手后续全部走最优步，你就必输无疑。而这些最优步，完全由那个数学奇偶函数决定。

因此，我们有理由怀疑，对象棋卓有成效的训练过程，对尼姆可能无效。但令人惊讶的是，实际效果之差远超预期。研究人员周蓓（Bei Zhou）和索伦·里斯（Soren Riis）发现，对于一个5行的尼姆棋盘，AI学习得相当快，在500次训练迭代后仍在进步。然而，仅仅增加一行（变为6行），学习改进的速度就急剧下降。而对于一个7行的棋盘，在AI自我对弈500次后，性能提升基本上已经停滞。

为了更清晰地说明问题，研究人员将系统中建议潜在走法的子系统替换为一个完全随机操作的版本。结果在7行尼姆棋盘上，经过训练的AI版本与随机版本在500次训练中的表现 indistinguishable（无法区分）。本质上，一旦棋盘足够大，系统就完全无法从自我对弈中学习到任何有效的策略，其表现与瞎猜无异。

深度解读：对AI训练范式与未来发展的启示

这项研究的意义远不止于一个游戏。它尖锐地指出了当前基于深度学习和自我对弈的AI训练范式存在的一个根本性局限：对于依赖明确、抽象数学规则（而非复杂模式或长期策略）的问题，这类AI可能天生“不擅长”或学习效率极低。

“黑箱”学习的边界：以AlphaZero为代表的AI通过将棋盘状态与胜负结果相关联来学习，这是一种基于统计和模式匹配的“黑箱”方法。当胜利取决于一个清晰的数学函数时（如尼姆的奇偶性），AI却难以从数据中反推出这个精确的、可解释的规则。它试图用拟合复杂非线性关系的方式去解决一个本质上是逻辑判断的问题，导致事倍功半甚至完全失败。
可扩展性与泛化危机：研究显示，问题规模（棋盘行数）的微小增加会导致学习难度呈指数级增长。这警示我们，在看似将AI成功应用于某个领域后，对其处理更大规模或稍有变化问题的能力不可盲目乐观。当前的AI可能是在“记忆”特定规模下的模式，而非真正理解底层原理，因此泛化能力脆弱。
对AI安全与可靠性的影响：随着AI被越来越多地用于金融交易、资源调度、网络安全（这些领域常包含类似“无偏博弈”的优化问题）等关键领域，这种“盲点”可能带来风险。如果一个AI系统在训练中未能掌握决定性的数学规则，它可能会在关键时刻做出灾难性的非最优决策，而它的“自信”可能源自对历史数据的错误拟合。
混合智能的未来路径：这项研究或许指明了AI发展的一个方向：纯粹的端到端深度学习并非万能。未来强大的AI系统可能需要融合不同的范式——将擅长模式识别和直觉的神经网络，与擅长符号推理、逻辑运算和精确计算的经典算法（或可微分逻辑层）相结合。让AI学会“知其然，也知其所以然”，将是突破此类瓶颈的关键。

结语

AI在简单尼姆游戏上的“翻车”，是一记重要的清醒剂。它提醒我们，在为AI在复杂任务上的超人表现欢呼时，仍需对其能力边界和底层缺陷保持谦逊与警惕。征服围棋的AlphaGo与在尼姆中迷失的AI，仿佛一体两面，共同描绘了当前人工智能技术的真实图景：强大而卓越，却又在某些方面出乎意料地“幼稚”。解开这些简单游戏带来的困惑，或许正是我们迈向更稳健、更可解释、更通用人工智能的关键一步。

原文链接：https://arstechnica.com/ai/2026/03/figuring-out-why-ais-get-flummoxed-by-some-games/

从围棋到尼姆：AI的“滑铁卢”#

“无偏博弈”的数学本质：AI难以逾越的鸿沟#

当自我对弈遭遇数学壁垒：AlphaZero方法为何失灵？#

深度解读：对AI训练范式与未来发展的启示#

结语#

从围棋到尼姆：AI的“滑铁卢”

“无偏博弈”的数学本质：AI难以逾越的鸿沟

当自我对弈遭遇数学壁垒：AlphaZero方法为何失灵？

深度解读：对AI训练范式与未来发展的启示

结语