懂了很多道理，AI 依然要发疯｜Hao好聊论文|方差|实验|推理|样本|实证

分享至

腾讯前沿科技论文解读专栏，在代码与商业的交汇处，寻找AI的确定性。

文｜博阳

编辑｜徐青阳

最近一段时间，很多论文都在讨论Agent目前的困境。

困境是真实存在的。在应用层，目前Agent离开了像Skill这样人造拐棍后，在处理真实世界的长程任务时根本不可靠。

这种困境通常被归结为两个原因。

第一个是上下文的黑洞。正如前两天腾讯首席AI科学家姚顺雨带领混元团队做的CL Bench所指出的那样，模型或许根本没能力吃透复杂上下文，所以也不可能按照指令好好办事。

第二个其实更致命，它叫长期规划的崩塌。就是说一旦规划的步长长了，模型就开始犯迷糊。就和喝多了一样，走两步是直的，走十步就开始画圈。

Anthropic 的研究员们在1月末发布了一篇重磅论文《The Hot Mess of AI 》（AI 的一团乱麻），试图解释第二个问题的因由，结果他们发现，这一试，给自回归模型（Transformer为基础的都是）清楚的找到了阿喀琉斯之踵。

我们都听说过Yann Lecun经常提的“自回归模型只做Next Token Prediction（下一个词预测），因此根本没法达到理解和AGI。”

但之前这都是个判断或者信仰，没有什么实证证据。这篇论文，就给出了一些实证证据。

而且它还预示了一个可怕的现实，即随着模型变强，它确实变聪明了，但并没有更少混乱。

能力的幻觉与错误的真相

上面这个论断其实挺反直觉的，METR不是刚提出的AI编程任务处理时长每7个月翻一倍的新Agent摩尔定律吗？

在 SWE-bench 这种编程测试里，前沿模型们也一直都在刷新纪录。代码写得越来越长，修好的 Bug 越来越难。

所以直觉告诉我们的是：模型变强了，处理复杂长程任务就强了，所以AGI 指日可待。

但 Anthropic 的论文更关心的是，现在模型在长程任务里的错误究竟来自哪里。

为了搞清楚这个问题，研究团队引入了一个统计学里的经典工具，偏差-方差分解（Bias-Variance Decomposition） 。

作者主要使用 KL 散度分解 来量化这两个指标。

他们利用一个固定模型，通过多次采样（通过改变输入的 few-shot 样本或改变输出的采样种子）来获取该模型对同一问题的多个回答样本。然后，把模型多次输出的概率分布取一个平均值，代表模型最倾向的那个分布。研究者叫它平均模型预测。

偏差量化的是模型的「平均预测」与「真实结果」之间的距离。这个值衡量了模型平均来看离正确答案有多远。如果模型每次都非常坚定地选同一个错误答案，这个值会非常大。

而方差量化的是模型「每一次的具体预测」与它自己的「平均预测」之间的距离的期望值。这个值衡量了模型每次的发挥偏离它自己平均水平的程度。如果模型每次输出都一样（无论对错），方差就是 0。但如果模型输出的很随机，这个值就会很大。

这就好比打靶。如果你的枪法很烂，但每一枪都打在靶心左上角两米处，这叫偏差。你是错的，但你错得很稳定，很系统。

如果你是个帕金森患者，手抖得厉害，每一枪都随机散落在靶子周围，这叫方差。你是错的，而且错得不可预测。

在这里，作者提出了一个核心指标：不连贯性（Incoherence），它是指总错误中，由「方差」导致的比例是多少。

这个值，是用来衡量当 AI 搞砸的时候，它是因为笨（不懂怎么做）搞砸的，还是因为疯（乱做）搞砸的？

实验的结果主要有两个。

第一是任务越长，AI 越疯。无论是在 GPQA（科学问答）还是 SWE-bench（编程）中，随着推理链条变长，或者行动步骤增加，不连贯性都直线上升。这说明，模型的错误的来源发生了质变。一开始是偏差导致的错误多，后来就是方差导致的错误更多。

在长任务中，AI 的失败不再是因为它知识渊博程度不够，而是因为它陷入了随机的癫狂。

第二个结论是模型越大，在难题上越不连贯。 这是最反直觉的一点。我们通常认为大模型更稳定。但在最困难的任务上，实验数据表明，虽然规模更大的模型总错误率降低了，但它的不连贯性反而上升了。

比如 Qwen3 这样的大模型家族，在简单任务上，规模越大越能压制混乱。但在最难的任务组里，随着参数量增加，偏差下降得很快（它确实很聪明），但方差下降得很慢（疯没见好）。这就导致，越大的模型，出错越是因为瞎选。

你可能会觉得，情况也没那么差啊，毕竟如果方差确实随规模下降，那为什么不能通过再加大模型规模来把它压到非常低，让模型再也不疯了呢？

对于这点，研究团队在论文中做了一个对比分析：模型规模 vs. 推理长度，谁对方差的影响更大？答案是推理链条每增加一步所引入的混乱（熵增），可能需要模型规模扩大好几个数量级才能抵消。理论上模型无限大，方差确实可能趋近于零。但性价比太低了。

当我们试图迈向 AGI 时，任务的复杂度（长度）往往是指数级增长的（从写 10 行代码到管理一个公司）。如果模型规模必须以更恐怖的指数去追赶任务长度，那么在这场赛跑中，模型永远追不上任务的需求。

这是一个可怕的信号。它意味着 Scaling Law 在这里失效了。单纯把模型做大，并不能消除这种内在的随机性，反而可能因为模型变得更自信且多变，让错误变得更加不可预测。

自回归的原罪

为什么我们造出的超级大脑，最后会变成一个掷骰子的赌徒？

论文给出了一个基于物理视角的解释，即动力系统（Dynamical Systems）与优化器（Optimizers）的本质冲突 。

目前的 LLM，本质上是自回归的。它是一个动力系统。它的工作原理是基于当前的状态（Context），预测下一个状态（Token）。它可以是循环的、混乱的、发散的，它可以去任何地方，不需要有终点。

而我们想要的 Agent，是一个优化器。我们希望它设定一个远期目标，然后所有的动作都为了最小化在这个目标上的损失函数。系统有一个明确的最低点（目标/损失函数），每一步的变化都必须是为了让系统更接近这个最低点。它的行为是被目标严格锁死的，不能乱走。

而「在所有动力系统的集合中，能够表现得像一个固定损失函数的优化器的子集，其测度为零（measure zero）。」

这是一个数学上的判决。就是说让自回归模型干优化器的活儿，可能性无限接近于0。

为了证明这点，论文作者从零开始训练了一堆 Transformer，让它们去模拟一个数学优化器（梯度下降）去寻找函数的最低点。结果尽管模型变大了，偏差降得很快，但方差（走的路径稳不稳）下降依然得非常慢，甚至在某些阶段完全主导了错误。

这直接证明了，即使你专门为了让它成为优化器而训练自回归模型，模型规模的扩大也只能让它认知更准确，却无法让它的行动更稳定。

当你让一个自回归模型去执行长任务时，你实际上是在强迫一个习惯于漫步的系统去走钢丝。动力系统的世界是广阔无垠的，而优化器的世界只是其中一条极细的线。

模型比较小的时候，它可能连钢丝都看不见（高偏差）。而模型越大，它的状态空间呈指数级膨胀。它确实看见了钢丝，但它脑子里的想法也更多了。因为模型参数越大，其内部状态空间也就越大，可能性也就越多。每一步预测带来的微小随机扰动（Variance），在巨大的状态空间里被长链条的推理不断放大。

我们现在的训练，尤其是强化学习，其实是试图通过调整参数，强行把这个巨大的动力系统挤到那条测度为零的优化器线上，让它表现得像是在追求一个目标。但模型越小，状态空间小，可能还容易挤进去。但随着模型规模变大（维度增加），普通动力系统和优化器之间的体积差会呈指数级爆炸。后训练也用处有限。

在论文里，作者对比了 Qwen3 的 Base（基座）、Instruct（指令微调） 和 Reasoning（强化学习/思维链） 版本。结果 RL 确实让准确率的 Scaling Law 变得更陡峭了。

但是，当我们看不连贯性（Incoherence）时，Qwen3 的Reasoning版本表现和其他非 RL 模型是一样的。在最难的任务上，随着模型变大，不连贯性依然在上升。这说明，现有的后训练技术（RLHF/CoT）没有改变这个底层动力学特征。

这也解释了为什么长程任务是重灾区，因为方差是累积的（Accumulates）。如果没有外部的纠错机制，第一步的一点点走神，经过 100 步的推理放大，最后的结果就是南辕北辙。

这直接冲击了通往 AGI 的路线图。

因为如果这个问题是自回归架构的内生性疾病，那么无论你喂多少数据，无论你用多少算力，你都无法根除这种不连贯性。

沿着这条路走下去，未来的 AI 失败图景，可能和我们想象的完全不同。

好莱坞电影里，失控的 AI 是像《终结者》里的天网，有一个坚定的、毁灭人类的目标（这是高 Bias，即 Misalignment）。但论文预测，现实中的 AI 失败，更可能像是一场工业事故。

以前的弱模型10 个错误里，9 个是因为不懂，1个是发疯。假设我们把模型做大了 100 倍。现在它只有 1 个错误了。但这 1 个错误里，0.01 个是不懂，0.99 个是发疯。

这意味着未来的 AI，平时表现得完美无缺，一旦出错，就是一次完全不可预测、不可复现的发疯。

它没有想毁灭人类。它只是在控制核电站阀门的时候，进行了一次长达 50 步的推理。在第 48 步时，它的方差累积到了临界点，它突然决定把关闭选成了全功率开启。

它不是邪恶，只是混乱。它是一个Hot Mess。

死缓后的自救

至此，文章已经似乎已经为自回归模型通向AGI判了死缓。

但并非完全没救。

论文的标题虽然悲观，但在实验中也指出了几条逃生通道。这几条通道，恰恰也是目前最前沿的研究方向。

第一条路是集成（Ensembling）。 既然单个模型的单次推理充满了方差，那就让它多跑几次。论文实验表明，集成是降低不连贯性最有效的手段。

方差随着集成样本数量的增加，以1/样本数的速度下降。这就是为什么现在的 Coding Agent 都要跑多次测试。通过投票或平均，我们可以过滤掉那些随机的癫狂，留下共性的智慧。

这也可以解释编程为什么会表现出更稳定的scaling Law。这是因为它有个环境红利。现在的 Coding Agent通常都包含一个ReAct循环，写代码 -> 运行报错 -> 读取错误 -> 修正代码。这本质上就是一种串行集成。这种环境允许模型通过多次尝试来消除单步的随机方差。

但现实世界很多时候没有重来的机会。你不能让 AI 把这封邮件发给老板 100 次然后取平均。对于不可逆的动作，集成失效。

当然，这也不是不能解决。我们也可以像Anthropic 最近做的一样（很可能是内部受此论文影响），在Claude Agent SDK里加一个沙箱，让它在那里发疯，严格控制实际会产生效果的输出。

这可能是当下最方便的从工程上绕路解决这一问题的方法。

第二条路是系统 2 的思考（System 2 Reasoning）。论文测试了增加推理预算（Reasoning Budget），发现这确实能稍微降低不连贯性。

这对应了 OpenAI o1的路线。通过在输出结果前进行大量的思维链推导（Chain of Thought），模型似乎能进行某种程度的自我纠错。

但论文同时也发现了一个悖论：如果是模型自发地陷入长考，往往意味着它遇到了难题，这时候方差反而会飙升。

所以，单纯让模型多想一会是不够的，必须有结构化的思维过程，或者更强的纠错模式。

第三条路是超越 Token 的新范式。这虽然超出了论文的实验范围，但正是Hot Mess理论呼唤的方向。

既然在 Token 级别做自回归会导致方差在长链条中爆炸，那我们就不要在 Token 级别做规划。

比如 Meta 最近提出的 Large Concept Model (LCM) 以及 Yann LeCun 一直鼓吹的世界模型。

如果 AI 的规划不是基于离散的、容易出错的词（Token），而是基于高维的、抽象的概念或目标表征，那么它就更容易在长程任务中保持连贯。

比如在过马路时，现在的 LLM 是盯着脚下的每一块地砖（Token），计算下一步迈左脚还是右脚。地砖铺了 1000 块，它走着走着就可能因为一步没踩稳（Variance），偏离了路线撞上了树。

而 LCM 这样的思路，是盯着马路对面的红绿灯。它不管脚下是碎石还是沥青，它的动力系统是锁定在那个高层目标上的。

知道所有道理，仍然过不好这一生

《The Hot Mess of AI 》是一篇清醒剂式的论文。

它打破了Scale is all you need的迷梦，揭示了隐藏在正确率曲线之下的熵增危机。

它告诉我们，如果不对架构做本质的改变，不对推理过程引入严格的纠错和约束，我们造出来的越强大的模型，就越像一个会在不经意间脑抽的神经病。

AGI 的终极挑战，或许不在于让它变得多聪明，而在于让它在漫长的思考和行动中，能够自始至终地保持清醒。

这就好比人生。即使你知道所有的道理（Low Bias），要过好这一生，依然很难（High Variance）。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

懂了很多道理，AI 依然要发疯｜Hao好聊论文

为实现雄心勃勃的计划，特斯拉开始招人

爱泼斯坦案最新动态：英国首相幕僚长辞职

爱泼斯坦案最新动态：英国首相幕僚长辞职

“我就是王楚钦” 王楚钦霸气指向球衣背后

金晨被罚1500后首露面，表情沉重心事重重

宽基ETF开年大赎回，什么信号？

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

伊姐周六热推：电视剧《成何体统》；电视剧《唐宫奇案》......

现代轻奢 温馨治愈系

实景超预期呈现！三亚豪宅，再迎封面之作！

捐钱造航母的男孩登上军舰

VLA司机大模型优化理想汽车OTA8.3版本更新

现代轻奢温馨治愈系