![]()
腾讯前沿科技论文解读专栏,在代码与商业的交汇处,寻找AI的确定性。
文| 博阳
编辑| 徐青阳
最近一段时间,很多论文都在讨论Agent目前的困境。
困境是真实存在的。在应用层,目前Agent离开了像Skill这样人造拐棍后,在处理真实世界的长程任务时根本不可靠。
这种困境通常被归结为两个原因。
第一个是上下文的黑洞。正如前两天腾讯首席AI科学家姚顺雨带领混元团队做的CL Bench所指出的那样,模型或许根本没能力吃透复杂上下文,所以也不可能按照指令好好办事。
第二个其实更致命,它叫长期规划的崩塌。就是说一旦规划的步长长了,模型就开始犯迷糊。就和喝多了一样,走两步是直的,走十步就开始画圈。
Anthropic 的研究员们在1月末发布了一篇重磅论文《The Hot Mess of AI 》(AI 的一团乱麻),试图解释第二个问题的因由,结果他们发现,这一试,给自回归模型(Transformer为基础的都是)清楚的找到了阿喀琉斯之踵。
![]()
我们都听说过Yann Lecun经常提的“自回归模型只做Next Token Prediction(下一个词预测),因此根本没法达到理解和AGI。”
但之前这都是个判断或者信仰,没有什么实证证据。这篇论文,就给出了一些实证证据。
而且它还预示了一个可怕的现实,即随着模型变强,它确实变聪明了,但并没有更少混乱。
能力的幻觉与错误的真相
上面这个论断其实挺反直觉的,METR不是刚提出的AI编程任务处理时长每7个月翻一倍的新Agent摩尔定律吗?
![]()
在 SWE-bench 这种编程测试里,前沿模型们也一直都在刷新纪录。代码写得越来越长,修好的 Bug 越来越难。
所以直觉告诉我们的是:模型变强了,处理复杂长程任务就强了,所以AGI 指日可待。
但 Anthropic 的论文更关心的是,现在模型在长程任务里的错误究竟来自哪里。
为了搞清楚这个问题,研究团队引入了一个统计学里的经典工具,偏差-方差分解(Bias-Variance Decomposition) 。
作者主要使用 KL 散度分解 来量化这两个指标。
他们利用一个固定模型,通过多次采样(通过改变输入的 few-shot 样本或改变输出的采样种子)来获取该模型对同一问题的多个回答样本。然后,把模型多次输出的概率分布取一个平均值,代表模型最倾向的那个分布。研究者叫它平均模型预测。
偏差量化的是模型的「平均预测」与「真实结果」之间的距离。这个值衡量了模型平均来看离正确答案有多远。如果模型每次都非常坚定地选同一个错误答案,这个值会非常大。
而方差量化的是模型「每一次的具体预测」与它自己的「平均预测」之间的距离的期望值。这个值衡量了模型每次的发挥偏离它自己平均水平的程度。如果模型每次输出都一样(无论对错),方差就是 0。但如果模型输出的很随机,这个值就会很大。
这就好比打靶。 如果你的枪法很烂,但每一枪都打在靶心左上角两米处,这叫偏差。你是错的,但你错得很稳定,很系统。
如果你是个帕金森患者,手抖得厉害,每一枪都随机散落在靶子周围,这叫方差。你是错的,而且错得不可预测。
![]()
在这里,作者提出了一个核心指标:不连贯性(Incoherence),它是指总错误中,由「方差」导致的比例是多少 。
这个值,是用来衡量当 AI 搞砸的时候,它是因为笨(不懂怎么做)搞砸的,还是因为疯(乱做)搞砸的?
实验的结果主要有两个。
第一是任务越长,AI 越疯。无论是在 GPQA(科学问答)还是 SWE-bench(编程)中,随着推理链条变长,或者行动步骤增加,不连贯性都直线上升。这说明,模型的错误的来源发生了质变。一开始是偏差导致的错误多,后来就是方差导致的错误更多。
![]()
在长任务中,AI 的失败不再是因为它知识渊博程度不够,而是因为它陷入了随机的癫狂。
第二个结论是模型越大,在难题上越不连贯。 这是最反直觉的一点。我们通常认为大模型更稳定。 但在最困难的任务上,实验数据表明,虽然规模更大的模型总错误率降低了,但它的不连贯性反而上升了。
![]()
比如 Qwen3 这样的大模型家族,在简单任务上,规模越大越能压制混乱。但在最难的任务组里,随着参数量增加,偏差下降得很快(它确实很聪明),但方差下降得很慢(疯没见好)。这就导致,越大的模型,出错越是因为瞎选。
你可能会觉得,情况也没那么差啊,毕竟如果方差确实随规模下降,那为什么不能通过再加大模型规模来把它压到非常低,让模型再也不疯了呢?
对于这点,研究团队在论文中做了一个对比分析:模型规模 vs. 推理长度,谁对方差的影响更大?答案是推理链条每增加一步所引入的混乱(熵增),可能需要模型规模扩大好几个数量级才能抵消。理论上模型无限大,方差确实可能趋近于零。但性价比太低了。
![]()
![]()
当我们试图迈向 AGI 时,任务的复杂度(长度)往往是指数级增长的(从写 10 行代码到管理一个公司)。如果模型规模必须以更恐怖的指数去追赶任务长度,那么在这场赛跑中,模型永远追不上任务的需求。
![]()
这是一个可怕的信号。它意味着 Scaling Law 在这里失效了。单纯把模型做大,并不能消除这种内在的随机性,反而可能因为模型变得更自信且多变,让错误变得更加不可预测。
自回归的原罪
为什么我们造出的超级大脑,最后会变成一个掷骰子的赌徒?
论文给出了一个基于物理视角的解释,即动力系统(Dynamical Systems)与优化器(Optimizers)的本质冲突 。
目前的 LLM,本质上是自回归的。它是一个动力系统。它的工作原理是基于当前的状态(Context),预测下一个状态(Token)。它可以是循环的、混乱的、发散的,它可以去任何地方,不需要有终点。
而我们想要的 Agent,是一个优化器。我们希望它设定一个远期目标,然后所有的动作都为了最小化在这个目标上的损失函数。系统有一个明确的最低点(目标/损失函数),每一步的变化都必须是为了让系统更接近这个最低点。它的行为是被目标严格锁死的,不能乱走。
而「在所有动力系统的集合中,能够表现得像一个固定损失函数的优化器的子集,其测度为零(measure zero)。」
这是一个数学上的判决。就是说让自回归模型干优化器的活儿,可能性无限接近于0。
为了证明这点,论文作者从零开始训练了一堆 Transformer,让它们去模拟一个数学优化器(梯度下降)去寻找函数的最低点 。结果尽管模型变大了,偏差降得很快,但方差(走的路径稳不稳)下降依然得非常慢,甚至在某些阶段完全主导了错误 。
这直接证明了,即使你专门为了让它成为优化器而训练自回归模型,模型规模的扩大也只能让它认知更准确,却无法让它的行动更稳定。
当你让一个自回归模型去执行长任务时,你实际上是在强迫一个习惯于漫步的系统去走钢丝。 动力系统的世界是广阔无垠的,而优化器的世界只是其中一条极细的线。
模型比较小的时候,它可能连钢丝都看不见(高偏差)。 而模型越大,它的状态空间呈指数级膨胀。它确实看见了钢丝,但它脑子里的想法也更多了。因为模型参数越大,其内部状态空间也就越大,可能性也就越多。每一步预测带来的微小随机扰动(Variance),在巨大的状态空间里被长链条的推理不断放大。
![]()
我们现在的训练,尤其是强化学习,其实是试图通过调整参数,强行把这个巨大的动力系统挤到那条测度为零的优化器线上,让它表现得像是在追求一个目标。但模型越小,状态空间小,可能还容易挤进去。但随着模型规模变大(维度增加),普通动力系统和优化器之间的体积差会呈指数级爆炸。后训练也用处有限。
在论文里,作者对比了 Qwen3 的 Base(基座)、Instruct(指令微调) 和 Reasoning(强化学习/思维链) 版本 。结果 RL 确实让准确率的 Scaling Law 变得更陡峭了。
但是,当我们看不连贯性(Incoherence)时,Qwen3 的Reasoning版本表现和其他非 RL 模型是一样的。在最难的任务上,随着模型变大,不连贯性依然在上升 。这说明,现有的后训练技术(RLHF/CoT)没有改变这个底层动力学特征。
![]()
这也解释了为什么长程任务是重灾区,因为方差是累积的(Accumulates)。如果没有外部的纠错机制,第一步的一点点走神,经过 100 步的推理放大,最后的结果就是南辕北辙。
这直接冲击了通往 AGI 的路线图。
因为如果这个问题是自回归架构的内生性疾病,那么无论你喂多少数据,无论你用多少算力,你都无法根除这种不连贯性。
沿着这条路走下去,未来的 AI 失败图景,可能和我们想象的完全不同。
好莱坞电影里,失控的 AI 是像《终结者》里的天网,有一个坚定的、毁灭人类的目标(这是高 Bias,即 Misalignment)。 但论文预测,现实中的 AI 失败,更可能像是一场工业事故。
以前的弱模型10 个错误里,9 个是因为不懂,1个是发疯。假设我们把模型做大了 100 倍。现在它只有 1 个错误了。但这 1 个错误里,0.01 个是不懂,0.99 个是发疯。
这意味着未来的 AI,平时表现得完美无缺,一旦出错,就是一次完全不可预测、不可复现的发疯。
它没有想毁灭人类。它只是在控制核电站阀门的时候,进行了一次长达 50 步的推理。在第 48 步时,它的方差累积到了临界点,它突然决定把关闭选成了全功率开启。
它不是邪恶,只是混乱。它是一个Hot Mess。
死缓后的自救
至此,文章已经似乎已经为自回归模型通向AGI判了死缓。
但并非完全没救。
论文的标题虽然悲观,但在实验中也指出了几条逃生通道。这几条通道,恰恰也是目前最前沿的研究方向。
第一条路是集成(Ensembling)。 既然单个模型的单次推理充满了方差,那就让它多跑几次。 论文实验表明,集成是降低不连贯性最有效的手段。
![]()
方差随着集成样本数量的增加,以1/样本数的速度下降。 这就是为什么现在的 Coding Agent 都要跑多次测试。通过投票或平均,我们可以过滤掉那些随机的癫狂,留下共性的智慧。
这也可以解释编程为什么会表现出更稳定的scaling Law。这是因为它有个环境红利。现在的 Coding Agent通常都包含一个ReAct循环,写代码 -> 运行报错 -> 读取错误 -> 修正代码。这本质上就是一种串行集成。这种环境允许模型通过多次尝试来消除单步的随机方差。
但现实世界很多时候没有重来的机会。你不能让 AI 把这封邮件发给老板 100 次然后取平均。对于不可逆的动作,集成失效。
当然,这也不是不能解决。我们也可以像Anthropic 最近做的一样(很可能是内部受此论文影响),在Claude Agent SDK里加一个沙箱,让它在那里发疯,严格控制实际会产生效果的输出。
这可能是当下最方便的从工程上绕路解决这一问题的方法。
第二条路是系统 2 的思考(System 2 Reasoning)。论文测试了增加推理预算(Reasoning Budget),发现这确实能稍微降低不连贯性。
这对应了 OpenAI o1的路线。通过在输出结果前进行大量的思维链推导(Chain of Thought),模型似乎能进行某种程度的自我纠错。
但论文同时也发现了一个悖论:如果是模型自发地陷入长考,往往意味着它遇到了难题,这时候方差反而会飙升。
所以,单纯让模型多想一会是不够的,必须有结构化的思维过程,或者更强的纠错模式。
第三条路是超越 Token 的新范式。这虽然超出了论文的实验范围,但正是Hot Mess理论呼唤的方向。
既然在 Token 级别做自回归会导致方差在长链条中爆炸,那我们就不要在 Token 级别做规划。
比如 Meta 最近提出的 Large Concept Model (LCM) 以及 Yann LeCun 一直鼓吹的世界模型。
如果 AI 的规划不是基于离散的、容易出错的词(Token),而是基于高维的、抽象的概念或目标表征,那么它就更容易在长程任务中保持连贯。
比如在过马路时,现在的 LLM 是盯着脚下的每一块地砖(Token),计算下一步迈左脚还是右脚。地砖铺了 1000 块,它走着走着就可能因为一步没踩稳(Variance),偏离了路线撞上了树。
而 LCM 这样的思路,是盯着马路对面的红绿灯。它不管脚下是碎石还是沥青,它的动力系统是锁定在那个高层目标上的。
知道所有道理,仍然过不好这一生
《The Hot Mess of AI 》是一篇清醒剂式的论文。
它打破了Scale is all you need的迷梦,揭示了隐藏在正确率曲线之下的熵增危机。
它告诉我们,如果不对架构做本质的改变,不对推理过程引入严格的纠错和约束,我们造出来的越强大的模型,就越像一个会在不经意间脑抽的神经病。
AGI 的终极挑战,或许不在于让它变得多聪明,而在于让它在漫长的思考和行动中,能够自始至终地保持清醒。
这就好比人生。即使你知道所有的道理(Low Bias),要过好这一生,依然很难(High Variance)。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.