网易首页 > 网易号 > 正文 申请入驻

从数据分布视角重新审视大模型推理,马斯克回复,Grok破防

0
分享至

本文作者来自亚利桑那州立大学数据挖掘与机器学习实验室 (Data Mining and Machine Learning Lab),包括博士研究生赵成帅、谭箴、马平川、李大卫、蒋博涵以及指导老师刘欢教授。Statistical Deep Learning Lab 王砚丞、杨颖振教授。

思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。然而,这些流畅的推理链条是否真的反映了模型的推理能力?

亚利桑那州立大学的一项最新研究却发现,CoT 推理可能并不是真正的推理,而更像是对训练数据分布内模式的复现。一旦输入任务与训练数据分布存在差异,这种看似稳固的推理链条就会迅速失效,呈现出类似「海市蜃楼」的脆弱性。

  • 论文标题:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
  • 论文链接:
  • https://arxiv.org/pdf/2508.01191
  • 项目开源:
  • https://github.com/ChengshuaiZhao0/DataAlchemy
  • 推特讨论:https://x.com/ChengshuaiZhao/status/1953291261999497258
  • 领英推广:
  • https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/

在这篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 问题,马斯克看当场测试 Grok 是否会生成 OOD 的内容,直接「强迫」Grok 生成粗俗的脏话锐评,节目效果拉满!

推理的「幻象」

研究团队在论文开头给出了一个典型的例子:问题是:「美国建国年是闰年还是平年?」,模型的回答是:「美国建于 1776 年,1776 能被 4 整除,又不是世纪年,所以是闰年。因此,美国建国那一年是平年。」这一回答中的推理步骤和知识点看似正确,但结论却与前提自相矛盾。这表明模型虽然会复述逻辑规则,却未必真的用这些规则来推导答案。

事实上,已有相关研究表明,CoT 的性能提升往往源于表层语义匹配。一旦问题稍作改写,或者引入与结论无关的内容,模型的表现便会显著下降。

数据分布视角下的 CoT 假设

在这项研究中,作者提出了一个新的解释框架,即从数据分布的角度来理解 CoT。他们认为,CoT 的有效性主要来源于模型在训练分布内学到的「结构性归纳偏差」(structured inductive bias)。

换句话说,所谓的推理链只是对训练数据中常见模式的复现,而非真正的逻辑推演。当测试任务与训练数据之间的分布差异增大时,这种「推理」表现会迅速崩塌。

研究团队还用理论公式刻画了这种关系,并引入了一个可计算的分布差异指标,从而能够在实验中估计分布偏移对推理性能的影响。

可控实验平台:数据炼金术

为了避免大规模预训练模型中复杂因素的干扰,团队选择从零训练语言模型,并搭建了一个名为数据炼金术 (DataAlchemy) 的可控实验环境。

在该框架中,作者将广泛意义上的各种 NLP 下游任务抽象成不同「元素」和「变换」的组合。基本「元素」是由 26 个字母原子组成的固定长度序列。作者设计了两种基本「变换」:一种是 ROT 变换,即将字母表循环位移若干位;另一种是循环位置平移,将序列整体向右移动指定位置。

在此基础上,他们构造了各种组合变换,通过将不同变换按顺序和参数串联,形成推理链。每个任务的正确推理链可以被精确生成,这使得模型输出与标准答案之间的差异能够被逐步对照评估。

三类泛化实验的发现

首先在「任务泛化」方面,作者分别考察了「变换泛化」和「元素泛化」两种情形。「变换泛化」测试了模型在面对新的变换组合,甚至完全陌生的变换类型时的表现;「元素泛化」则涉及模型遇到新的字母组合,或者训练过程中从未见过的字母。

在分布内的情况下,模型的准确率接近 100%。然而,只要分布稍有偏移,例如变换顺序被重新组合,准确率便会骤降至 0.01%;当测试中出现全新「变换」时,性能更是几乎完全丧失。

作者还发现,虽然在少量新数据上进行监督微调 (SFT) 可以迅速恢复性能,但这只是在原有分布边界上做了扩展,并未真正提升模型的抽象泛化能力。

在「长度泛化」方面,研究团队分别考察了「文本长度」变化和「推理步数」变化的影响。实验结果表明,即使输入序列长度仅比训练时多或少一个单位,模型的表现也会显著下降。它往往会生成与训练长度一致的推理链,并通过添加或删除词元来「凑长度」。当推理步数与训练设置不一致时,模型几乎完全无法泛化,除非它在训练中显式地见过相应步数的样例。

在「格式泛化」方面,作者通过插入、删除、替换等方式扰动输入提示,以模拟现实场景中的多样的格式。他们发现,模型对格式的变化极为敏感,尤其是当变化发生在「元素」或「变换」部分时,即使逻辑内容不变,仅仅提示形式不同,也可能导致推理彻底失败。

温度、规模与泛化脆弱性的普遍性

作者进一步测试了不同采样温度和模型规模下的表现。在合理的温度范围内,CoT 的脆弱性模式保持一致。模型规模的变化同样不影响这一趋势。这表明,这种对分布偏移的敏感性并非个别模型的特性,而是一种普遍现象。

研究的现实意义

这项研究对实际应用提出了多项警示。

首先,在医疗、金融和法律等高风险领域,不能盲目依赖 CoT 作为稳健推理的保证。流畅但逻辑有误的推理链可能比直接给出错误答案更具误导性。

其次,现有的评测方法往往依赖与训练分布高度一致的验证集,这会严重高估模型的鲁棒性。为了更准确地评估系统性能,必须引入严格的分布外测试。

最后,虽然在少量新数据上进行监督微调可以迅速提升特定任务下的表现,但这种方法只是对原有分布的局部扩展,不能赋予模型真正的抽象推理能力。

结论

通过数据分布的视角,这项研究揭示了 CoT 推理的本质:它更像是对训练中出现过的模式的结构化复现,而不是真正的逻辑推理。一旦任务结构、推理链长度或输入格式超出了训练分布的范围,模型的表现便会迅速崩溃。

在未来的发展中,研究者和工程师需要在充分利用 CoT 在分布内的优势的同时,正视其在泛化能力上的瓶颈,并在评测和部署中保持足够的谨慎。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东妈妈让儿子光着膀子,脱了短袖给她防晒,引热议!绝对是亲妈

山东妈妈让儿子光着膀子,脱了短袖给她防晒,引热议!绝对是亲妈

市井大实话
2026-06-04 08:49:13
燃油车再掀集中降价潮!多款车型创历史最低价:轩逸低配跌破6万、雅阁裸车11万

燃油车再掀集中降价潮!多款车型创历史最低价:轩逸低配跌破6万、雅阁裸车11万

快科技
2026-06-02 16:29:22
韩国举行第九届地方选举

韩国举行第九届地方选举

新京报
2026-06-03 10:13:04
随着李东炅飙任意球世界波+比分1-0,韩国迎世界杯前热身赛2连胜

随着李东炅飙任意球世界波+比分1-0,韩国迎世界杯前热身赛2连胜

侧身凌空斩
2026-06-04 10:55:01
土地卖不动了,地方政府怎么办?

土地卖不动了,地方政府怎么办?

大川东山再起
2026-06-01 15:38:14
回顾:女博士被卖给老光棍生孩子,获救复仇后,带着2个孩子投江

回顾:女博士被卖给老光棍生孩子,获救复仇后,带着2个孩子投江

莫地方
2026-06-04 01:55:05
激光第一股,海外订单井喷!

激光第一股,海外订单井喷!

风风顺
2026-06-04 01:25:03
1929年,他扛两挺重机枪加入红军,1955年授衔时罗荣桓却左右为难

1929年,他扛两挺重机枪加入红军,1955年授衔时罗荣桓却左右为难

磊子讲史
2026-06-02 17:46:53
妻子裸死前夫床上,现任丈夫拒办后事,丈母娘将现任女婿告上法庭

妻子裸死前夫床上,现任丈夫拒办后事,丈母娘将现任女婿告上法庭

易玄
2026-06-03 09:23:21
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
问界发布M9有关事故说明:撞击异物后起火,非车辆自身原因

问界发布M9有关事故说明:撞击异物后起火,非车辆自身原因

财视传播
2026-06-03 14:52:30
大快人心!反华急先锋王月眉被驱逐出境了!胡锡进曾和她推杯换盏

大快人心!反华急先锋王月眉被驱逐出境了!胡锡进曾和她推杯换盏

深析古今
2026-06-03 15:08:52
油价大逆转!国内油价调整时间定了,6月4日历史罕见油价大幅下调

油价大逆转!国内油价调整时间定了,6月4日历史罕见油价大幅下调

有料财经
2026-06-02 19:38:40
雪中送炭!间歇期上海申花迎来一个超级大喜讯,中超争四大有希望

雪中送炭!间歇期上海申花迎来一个超级大喜讯,中超争四大有希望

零度眼看球
2026-06-04 06:44:34
上海消费者吐槽瑞幸咖啡去冰后仅半杯;店员:这是公司的标准配方,不会因去冰多加奶或咖啡;客服:去冰后咖啡“缩水不满杯”,是正常现象

上海消费者吐槽瑞幸咖啡去冰后仅半杯;店员:这是公司的标准配方,不会因去冰多加奶或咖啡;客服:去冰后咖啡“缩水不满杯”,是正常现象

三湘都市报
2026-06-04 10:00:07
戴笠诱杀王亚樵,一代枭雄殒命,其家人自此坠入万劫不复

戴笠诱杀王亚樵,一代枭雄殒命,其家人自此坠入万劫不复

唠叨说历史
2026-01-17 13:57:38
强吻揉胸逼口交!日谐星「和解金加码8倍」砸2300万求放过 女网红崩溃

强吻揉胸逼口交!日谐星「和解金加码8倍」砸2300万求放过 女网红崩溃

ETtoday星光云
2026-06-03 15:34:21
央视怒批!距高考不到4天,多种恶心乱象上演,害人不浅还会坐牢

央视怒批!距高考不到4天,多种恶心乱象上演,害人不浅还会坐牢

做一个合格的吃瓜群众
2026-06-04 10:01:33
俄军狂轰乌克兰后,北约32国代表抵达基辅

俄军狂轰乌克兰后,北约32国代表抵达基辅

桂系007
2026-06-03 18:45:24
弃演《给阿嬷的情书》原定男主公开致歉:再求合作已无用

弃演《给阿嬷的情书》原定男主公开致歉:再求合作已无用

阿废冷眼观察所
2026-06-03 10:47:33
2026-06-04 11:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13160文章数 142660关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

体育要闻

王俊杰11前板成第一尖刀 媒体人:独一档

娱乐要闻

奚梦瑶头纱上的古董发卡也是四太的

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

游戏
教育
手机
数码
公开课

《007:初露锋芒》销量突破220万份 PS5贡献过半

教育要闻

山东春季高考和夏季高考成绩6月25日15:00后公布

手机要闻

旗舰升杯 vivo X500 Pro Max首发天玑9600 Pro

数码要闻

MONTECH迎来十周年,多款机箱新品台北现身

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版