斯坦福和清华的研究者最近干了一件事:他们画了一张图,把"大模型有没有智能"这个吵了五年的问题,拆成了五层。看完你会发现,两边吵的人根本不在同一个频道。
第一层:测量幻觉
![]()
很多"突然变聪明"的现象,换个尺子量就消失了。Schaeffer等人2023年的实验很直白:用"完全匹配"这种非线性指标,模型能力看起来是阶跃式爆发;换成"逐词准确率"这种连续指标,曲线立刻变平滑。
这不是模型真的顿悟了,是你的评分标准在演戏。
这类"涌现"被归为L0——度量伪象。论文里的原话是:"A measurement illusion."
第二层:结构真的长出来了
但有些东西确实不是幻觉。Anthropic 2022年发现的"归纳头"(induction heads)是个硬证据:20亿参数以下,这玩意儿不存在;一过阈值,突然冒出来,而且训练损失曲线同步出现相变。
更关键的是你能动手干预。港大、复旦、腾讯2025年的"定位-操控-改进"范式,已经能直接修改这些内部结构,进而改变模型行为。
这是L1——结构涌现。物理上可验证,不是数字游戏。
第三层:功能意外解锁
结构变化带来能力溢出。Othello GPT是教科书案例:训练目标只是"根据文本序列预测合法落子",完全没有棋盘状态的标注。但线性探针一插,发现中间层自发构建了完整的8×8棋盘表示。
训练目标被梯度下降自动拆解成了"棋盘状态→合法落子"。没人教它这么做。
这是L2——功能涌现。局限在于:封闭世界、规则明确。棋盘是固定的,规则是写死的。
第四层:真正的争议地带
L3才是战场。它要求两样东西:训练分布外的泛化能力,以及因果推理而非统计关联。
原文在这里断掉了。但框架已经够用了——它解释了为什么两派人永远吵不完:说"有智能"的通常指L0-L2,说"没有"的盯着L3-L4。一个看的是"能做什么",一个看的是"怎么做到的"。
这个五层框架的价值,是把"有没有"变成"到哪一层"。下次再有人争论大模型智能,你可以先问:你说的哪一层?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.