网易首页 > 网易号 > 正文 申请入驻

谢菲尔德大学研究揭开大模型训练后"千人一面"之谜

0
分享至


这项由英国谢菲尔德大学计算机科学学院主导的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.16027,题为《Where does output diversity collapse in post-training?》,目前正在同行评审中。

你有没有注意到,当你用ChatGPT或者类似的AI工具写文章、做创意策划时,感觉它们的回答总是有点"模板化"——文风相近、结构雷同,甚至连比喻都似曾相识?这不是你的错觉。AI大模型在经过特定的"调教"训练之后,确实会变得越来越"千人一面",输出的内容多样性会大幅下降。研究者们把这种现象叫做"输出多样性崩塌"。

谢菲尔德大学的研究团队决定深挖这个问题的根源。他们不只是想知道"多样性消失了"这个事实,而是要追问:**多样性究竟在哪个训练环节丢失的?为什么不同的训练路径会导致不同的消失模式?**更关键的是,有没有办法在不重新训练的情况下,通过调整AI的使用方式来"找回"那些消失的多样性?

这项研究的特别之处在于,它首次系统性地把"训练方法"和"训练数据"区分开来考察,同时也把"模型内在的学习结果"和"模型输出时的格式选择"分开分析。通过对同一个基础模型的三条不同训练路径(Think、Instruct和RL-Zero)进行全程追踪,研究团队在15个不同任务上、用4种多样性测量指标,把多样性的消失过程拍了个"全程录像"。

一、训练AI的"调教"过程是什么样的

要理解这项研究,先得知道AI大模型是怎么从一个"什么都懂但什么都乱说"的基础模型,变成一个听话、有礼貌、会帮你干活的助手的。这个过程就是"后训练",大致分三个阶段。

第一阶段叫做"监督微调"(SFT),简单说就是给AI看大量示范:这道题应该这么答,这类问题应该这么回应。AI通过模仿这些示范来学习"正确的行为"。第二阶段叫"直接偏好优化"(DPO),就是给AI看两个答案,告诉它哪个更好,让它学会"偏好判断"。第三阶段叫"强化学习"(RL),就是让AI自己尝试,答对了就奖励,答错了就惩罚,像训练运动员一样靠反复练习提升表现。

研究团队选择了一个叫做Olmo 3的开源模型作为研究对象,这个模型的好处在于它公开了所有训练阶段的中间状态,就好比一家餐厅不只给你看最终端上桌的菜,还让你看每道工序的半成品。研究团队追踪了三条从同一个"原料"出发的不同"烹饪路线"。

第一条路线叫Think,专注于让AI学会"链式思维"——就是先想,再答,像做数学题时先打草稿。这条路线的训练数据来自两个"老师模型"生成的约230万条推理示例,全都是解题步骤很详细的样本。第二条路线叫Instruct,是个"全能选手"培训路线,训练数据来自多个来源,包括GPT-3.5、GPT-4等多个不同的AI系统生成的约220万条示例,覆盖写作、对话、工具调用等各种任务。第三条路线叫RL-Zero,直接跳过前两个阶段,从基础模型出发,只用强化学习来训练,针对数学、代码、指令遵循、通用能力四个不同方向各训练了一个版本。

为了衡量"多样性",研究团队设计了四把"尺子":第一把测词汇多样性,看AI的不同回答里有多少不重复的词汇组合;第二把测语义多样性,看不同回答在意思层面上有多大的差距;第三把测逻辑多样性,看不同回答之间有没有互相矛盾或互相蕴含;第四把叫"Vendi分数",把它理解成"有效独特模式的数量"即可——分数越高,说明AI给出的回答在本质上越不相同。

二、多样性在哪里消失了:两条路线的截然不同

研究的第一个重大发现,是Think和Instruct这两条路线虽然都经历了完全相同的三个训练阶段,但多样性的"断崖"出现在完全不同的位置。

Think路线在第一阶段(监督微调)就遭遇了"多样性大崩塌"。与原始基础模型相比,Think在监督微调之后平均损失了62%的语义多样性,几乎是从高楼直接跳下来。之所以如此剧烈,是因为Think的训练数据来自两个相互关联、风格相近的"老师模型"。这两个老师虽然能给出高质量的推理示例,但他们的"思维方式"本来就有限,导致AI学到的回答模式集中在一个很窄的区间里。这就像你从小只听一位老师讲课,那位老师的口头禅、叙述方式、思考框架就会深深印在你脑子里,你的表达方式也就越来越像那位老师了。

相比之下,Instruct路线在监督微调阶段只损失了约38%的多样性,而且还有一个有趣现象:由于Instruct的监督微调是在Think监督微调之后的模型基础上继续训练的,相当于在一个"已经部分坍塌"的基础上重新注入了多样性。换句话说,更广泛的多源数据确实能部分"修复"已经损失的多样性,大约找回了40%的失去部分。

Instruct路线真正的"多样性大崩塌"发生在第二阶段:直接偏好优化(DPO)。DPO在Instruct路线中造成了约23%的额外损失,而在Think路线中这个数字只有4%。这种差异其实很好理解:Think在进入DPO之前已经被压缩得很"整齐"了,DPO挑不出多少"尾巴"来修剪;而Instruct进入DPO时还保留着相当的多样性,DPO的"喜好导向修剪"于是显得格外有力。研究团队还发现,在某些数学和代码任务上,DPO甚至能轻微提升多样性,因为它能纠正监督微调阶段带来的某些单一化倾向。

至于第三阶段的强化学习,对Think路线来说反而有约4%的多样性"回弹",对Instruct则造成了约5%的额外损失。在GSM8K数学题上,Instruct的强化学习阶段造成了37%的单阶段最大损失,因为验证奖励信号把概率集中到了最主流的"正确解法"上,其他路径都被打压了。

RL-Zero则是另一番景象。完全绕开监督微调和DPO,直接从基础模型开始强化学习,最终保留了基础模型约93%的多样性。这个数字与两条主流路线最终剩余的约34%-38%相比,简直是天壤之别。

三、思维链的"链"断了,多样性能回来吗

研究的第二个核心问题更加精妙。Think路线的AI在回答问题时,会先在脑子里"推导"一番,把思维过程用文字写出来(这叫"链式思维",英文缩写CoT),然后再给出最终答案。这个"先想后答"的格式本身,会不会是让输出多样性下降的原因?

为了回答这个问题,研究团队做了一个干净利落的实验:把Think系列模型里的推导过程"强制删掉",让它直接给出答案,不允许打草稿。他们管这种状态下的模型叫"Think-not-thinking"(Think但不思考)。

实验结果非常清晰:删掉思维链,多样性毫无恢复。不管是在监督微调阶段、DPO阶段还是强化学习之后的最终模型,强制让模型跳过推导直接回答,语义多样性的水平与保留推导过程时几乎完全一致。换言之,多样性的损失是刻在模型"骨子里"的,跟输出时有没有思维链格式无关。

然而,删掉思维链对回答质量的影响是实实在在的。在难度较大的任务上,质量下降相当显著:数学竞赛题(MATH-Algebra)正确率下降28%,代码生成任务(HumanEval)下降32%,数学几何题(MATH-Geometry)下降32%。删掉推导过程就像要求一个习惯打草稿的学生直接交卷,他的成绩自然会受影响,但他做题时的"解题风格"(也就是多样性)并不会因此变得更丰富。

有一个有趣的例外值得一提:在创意写作任务(WritingPrompts)上,删掉思维链居然轻微提升了语义多样性(增加约0.046),这说明在这类任务里,思维链可能反而起到了一种"模板化叙事框架"的作用,约束了故事的走向。不过这只是一个小例外,整体格局没有改变。

逻辑多样性(NLI分数)则揭示了一个微妙的反差:当Think模型被强制去掉思维链时,它的逻辑多样性分数反而升高了——在GSM8K上从0.70升到0.87,在MATH-Algebra上从0.73升到0.91。这听起来像是"更多样",但结合质量数据来看,真相是:没有推导过程的模型开始输出更多不同类型的错误答案,而不是更多样的正确解法。就好比一个人不允许打草稿,他写出来的东西确实各不相同,但基本上都是乱写的。

四、多样性的消失,是"质量控制"还是真正的"思维固化"

研究的第三条追问触及了一个根本性的哲学问题:训练后模型的多样性下降,到底有多少是因为"把错误答案过滤掉了",有多少是真正的"连正确答案都趋于单一"?

这个问题很重要,因为如果多样性下降只是"去掉了错答案",那其实是好事;但如果连正确答案都越来越相同,那就是真正的问题了。

研究团队把这两个效应分开来计算。他们对每道题的16个答案分别标注"正确"和"错误",然后分别测量"所有答案的多样性"和"仅正确答案的多样性",两者之差就代表"质量控制贡献",仅正确答案的多样性本身就是"真正的思维固化程度"。

结果显示,这个分裂比例是高度任务依赖的。在指令遵循任务(IFEval)上,高达83.4%的多样性损失来自"真正的思维固化"——也就是说,即使只看答对的那些回答,它们也高度雷同。在代码生成任务(MBPP)上,真正的固化比例降至38%。而在代码理解任务(HumanEval)上,这个比例甚至不到10%——多样性损失主要来自筛掉了大量错误代码,正确代码之间的多样性其实还好。数学推理任务居于中间,大约57%-64%的损失属于真正的固化。

在代码任务上,研究团队还用了专门针对代码结构的测量方式:把代码解析成语法树,然后比较不同答案在语法结构层面的差异。结果发现,Think系列模型在HumanEval上给出的正确代码,语法结构极其相近(结构相似度高达0.47),而基础模型和RL-Zero系列的正确代码则保有相当大的结构差异(相似度仅约0.11-0.41)。这说明Think不只是把思路收敛到了"正确答案",连"怎么写出这个答案"都变成了一种固定套路。

这个发现直接揭示了一个实用后果:对于需要"多抽几次,只要有一次答对就行"这类应用场景(技术上叫pass@k),那些保留了更多多样性的模型显然更有优势。以数学代数题为例,Think-not-thinking和RL-Zero-Math的单次准确率都约为49%,但RL-Zero-Math的正确答案多样性是前者的两倍,因此多数投票(抽16次,取最常见答案)能额外获得15%的准确率提升,而Think-not-thinking只能获得7%的提升。

在HumanEval上还出现了另一种反直觉的现象:Instruct模型的单次准确率(81.2%)低于Think模型(87.7%),但如果给16次机会,Instruct反而超过了Think(98.2% vs. 95.7%)。原因在于Think的多次回答太过相似,第2-16次几乎是第1次的复制;而Instruct的回答稍微分散一些,增加了至少有一次答对的概率。

最"惨"的是TruthfulQA这个任务,它专门用来测试AI会不会坚持说错误的常识(比如常见谣言)。在这个任务上,多数投票反而让所有模型的表现更差——因为多次抽样都在重复同一个错误,投票只会"加固"这个错误,而不会帮助纠正它。

五、RL-Zero的启示:不经调教的AI,反而更有创意

RL-Zero系列模型的表现提供了一组对照实验,让这项研究的结论更加鲜明。这批模型绕过了监督微调和DPO,直接在基础模型上施加特定领域的奖励强化学习。结果,它们平均保留了基础模型93%的多样性,远高于Think(保留38%)和Instruct(保留34%)。

不同方向的RL-Zero版本之间也有差异,而且差异模式和奖励信号的"精确程度"高度相关。专门做指令遵循的RL-Zero-IF(只要答案格式符合要求就给奖励)保留了基础模型99%的多样性,因为这类奖励对答案内容几乎没有约束。专做代码的RL-Zero-Code保留了88%,因为"代码能不能跑通"这个判断标准更精确,会把不同但都能跑通的代码路径过滤掉。数学奖励居于中间,因为数学题允许多种不同的解题思路通向同一个答案。这个规律揭示了一个核心逻辑:**奖励信号越精确,多样性损失越大**。

当然,RL-Zero的高多样性是有代价的。在GSM8K数学题上,Think的单次准确率高达93%,Instruct为80%,而RL-Zero系列只有49-61%。在指令遵循任务上,Think达到79%,RL-Zero只有49%。多样性和质量之间存在真实的权衡,不可能两者兼得,除非改变训练方式本身。

六、"思维固化"刻在骨子里,换种方式用也没用

研究团队的结论指向一个让很多人不舒服的事实:多样性的损失是在训练时就定下来的,后来想通过调整使用方式来弥补,基本没有用。

有人可能会想:既然Think模型因为推导过程而产生了固化,那我强制让它不推导,是不是就能找回多样性?上面已经说了,答案是否定的。还有人可能想:那我把温度参数调高,让AI随机性更大,是不是能恢复多样性?研究团队也测试了这个问题。在与基础模型推荐温度(T=1.0)对比之下,他们研究中统一使用的较低温度(T=0.6)确实造成了约11%的语义多样性损失,但这个损失与从基础模型到Think监督微调阶段的62%崩塌相比,简直微不足道。换句话说,就算把温度拨回去,也远远弥补不了训练带来的损失。

这对实际应用有一个重要的提示:如果你需要AI给你提供多样化的答案,比如头脑风暴、创意生成、多角度分析等,那么选对模型比调整参数更重要,而选对模型背后的核心是关心那个模型是用什么数据训练出来的。

从机制上来理解,这也有一定的道理。监督微调本质上是对训练数据做最大似然估计,如果训练数据本身来自风格相近的少数几个"老师",那模型输出就会向这个狭窄的分布靠拢,这是数学上的必然结果,而不是某个偶然的失误。DPO的数学原理是"对好答案加权,对差答案降权",而"好答案"的定义本身就是一个压缩多样性的过程——它把概率质量推向人类偏好分布的峰值,而不是分散在各种可能的回答里。强化学习里用的GRPO算法,在没有KL惩罚(限制模型不能偏离太远)的情况下,反而可以让模型自由探索并且找回一些被压制的答案模式,这解释了为什么RL-Zero能保留那么多多样性,也解释了为什么Think的强化学习阶段有轻微的多样性回弹。

七、当AI失去多样性,哪些场景受害最深

研究团队还仔细分析了不同任务类型在多样性损失上的差异,这对实际使用场景有直接的参考价值。

在数学推理任务上,多样性的损失有相当大一部分来自"剔除错误解法",正确答案之间的收敛程度相对没那么严重,这使得多数投票仍然能带来一定的性能提升。在代码任务上,大部分多样性损失其实来自筛掉了跑不通的代码(尤其是基础模型大量的无效代码),真正正确代码之间的固化程度因模型而异。

真正让人担忧的是创意写作和价值观相关的任务。在创意写作任务上,Think和Instruct都把语义多样性压缩到了基础模型的约37%,但每次写出来的故事质量都远高于基础模型(超过97%的胜率)。这意味着:AI变成了一个很会写故事、但所有故事读起来都像是同一个作者写的机器。研究团队用Vendi分数来描述这个现象:基础模型有约6.9个"有效故事模式",训练后只剩约2.6个。

价值观任务(比如PRISM数据集,专门测AI对有争议问题的多元立场表现)上,两条训练路线都遭受了严重的多样性崩塌,其中Think路线下降了约78%。这意味着面对"安乐死是否应该合法化"、"移民政策应该更严格还是更宽松"这类本质上没有唯一正确答案的问题,经过训练的AI可能会越来越倾向于给出同一种回答。这种"价值观单一化"的风险,是这项研究发出的最深层的警示。

研究团队也在这里做了一个重要的区分:他们测量的是"分布多样性"(统计意义上有多少种不同的答案),而不是"立场多样性"(有没有真正代表不同价值观的答案)。一个模型可以在词汇上很多样,但所有答案都默认一种立场;也可以看起来很单一,但实际上保留了最关键的立场差异。这两种多样性需要不同的测量工具,目前的研究还无法完全分辨。

归根结底,这项研究做的事情有点像给一家工厂的生产线装了全程摄像头,逐帧分析产品质量是在哪道工序开始下降的。答案令人深思:AI的创意损失,不是一个技术bug,而是训练流程本身的必然结果,而且决定性的因素不是训练方法,而是训练数据的来源结构。

这意味着,如果你是一个AI产品的使用者,你没有办法靠"换一种问法"或者"调高随机参数"来让AI回答得更有创意——那扇门在训练阶段就已经关上了。如果你是AI产品的开发者或研究者,这项研究给出了两个方向:一是在监督微调数据上多元化"老师来源",避免用少数几个风格相近的模型作为唯一的学习样本;二是在强化学习阶段减少或去掉KL惩罚,让模型保留自由探索的空间。不过研究团队也坦诚,这两种方法能缓解多样性崩塌的速度,但能否真正提高多样性的"底线",目前还不清楚。

这项研究留下了几个值得继续追问的问题:AI推导过程(思维链)本身有多样性吗?多样性的"底线"是否真的由训练方法的数学特性决定,而非数据?面对有多元合理答案的问题,未来的AI训练能否主动保护而不是压制多样性?如果你对这些问题感兴趣,可以通过arXiv编号2604.16027找到完整论文进行深入阅读。

Q&A

Q1:AI大模型训练后输出多样性崩塌的主要原因是什么?

A:根据谢菲尔德大学的研究,多样性崩塌的主要原因是训练数据的来源结构,而不是训练方法本身。如果监督微调阶段使用的示范数据来自少数几个风格相近的"老师模型",AI学到的回答模式就会被压缩在一个很窄的区间里。数据来源越多元,崩塌发生得越晚、程度越轻。

Q2:调高AI的随机性温度参数能恢复多样性吗?

A:效果非常有限。研究发现,温度参数从推荐值调低大约造成11%的多样性损失,但这与训练过程造成的62%崩塌相比可以忽略不计。把温度调回去也只能弥补很小一部分,训练数据带来的多样性损失是刻在模型权重里的,无法通过调参在推理时恢复。

Q3:RL-Zero为什么能保留更多多样性,它的代价是什么?

A:RL-Zero绕过了监督微调和偏好优化两个阶段,直接从基础模型开始强化学习,因此没有经历这两个阶段带来的多样性压缩,平均保留了基础模型93%的多样性。但代价是质量大幅下降——在数学题上单次准确率只有49-61%,而经过完整训练的模型可以达到80-93%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胡锡进以安全代言沃尔沃,是整个社会的耻辱

胡锡进以安全代言沃尔沃,是整个社会的耻辱

黔有虎
2026-04-19 17:34:12
养老院要来新人了!足坛4位顶级巨星有望登陆意甲 莱万或加盟米兰

养老院要来新人了!足坛4位顶级巨星有望登陆意甲 莱万或加盟米兰

篮球圈里的那些事
2026-04-28 16:26:56
湖人消息:两张罚单出炉,追梦盛赞布朗尼,G5出场更新

湖人消息:两张罚单出炉,追梦盛赞布朗尼,G5出场更新

冷月小风风
2026-04-28 12:31:44
世锦赛8强上半区全是世界冠军,下半区一个没有,赵心童有望卫冕

世锦赛8强上半区全是世界冠军,下半区一个没有,赵心童有望卫冕

老高说体育
2026-04-28 10:53:10
这是一张巩俐年轻时剧照,演的特别真实的,四十岁以上基本都看

这是一张巩俐年轻时剧照,演的特别真实的,四十岁以上基本都看

科学发掘
2026-04-28 13:34:36
五一小长假,这几种理财方式你知道吗?

五一小长假,这几种理财方式你知道吗?

金融界
2026-04-28 09:12:26
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

周哥一影视
2026-04-17 06:45:59
广州多区发布中小学招生政策!番禺区:公办就近入学、民办摇号录取

广州多区发布中小学招生政策!番禺区:公办就近入学、民办摇号录取

番禺台
2026-04-29 00:09:40
张本智和一家,离开日本,远赴德国谋求发展!球迷:日乒经济压榨

张本智和一家,离开日本,远赴德国谋求发展!球迷:日乒经济压榨

开成运动会
2026-04-28 01:09:30
5月1日营业执照新规落地!公章彻底取消,所有个体户老板速看

5月1日营业执照新规落地!公章彻底取消,所有个体户老板速看

混沌录
2026-04-27 19:31:17
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
毫无预期地,我遇见了言笑晏晏的江青

毫无预期地,我遇见了言笑晏晏的江青

霹雳炮
2026-04-26 22:56:06
美国现任防长曾谈中美开战:11艘航母打击中国,20分钟后1艘不剩

美国现任防长曾谈中美开战:11艘航母打击中国,20分钟后1艘不剩

蜉蝣说
2026-04-28 11:14:47
我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

我国最容易叫错的6个城市,念对一个算有文化,认识一半算你厉害

长风文史
2026-04-27 20:19:33
稀土公司业绩集体翻倍,“超级牛散”章建平出手34亿精准重仓

稀土公司业绩集体翻倍,“超级牛散”章建平出手34亿精准重仓

21世纪经济报道
2026-04-28 19:26:09
清朝灭亡不过一百余年,上千万的满族人,为什么满语迅速消亡了?

清朝灭亡不过一百余年,上千万的满族人,为什么满语迅速消亡了?

铭记历史呀
2026-04-29 00:04:12
山东球迷意难平!不止因为67-77不敌辽宁,更多在于以下这五点!

山东球迷意难平!不止因为67-77不敌辽宁,更多在于以下这五点!

田先生篮球
2026-04-28 22:09:54
被22岁吴宜泽打崩 世锦赛4冠王失态怒砸球杆 出局后发声:不配赢

被22岁吴宜泽打崩 世锦赛4冠王失态怒砸球杆 出局后发声:不配赢

我爱英超
2026-04-28 06:11:15
伊朗储油能力即将达到极限 减产或永久性损害油田产能

伊朗储油能力即将达到极限 减产或永久性损害油田产能

财联社
2026-04-28 15:06:05
在逃江西前首富,400亿身家,又又又破产了

在逃江西前首富,400亿身家,又又又破产了

大猫财经Pro
2026-04-28 18:55:29
2026-04-29 03:48:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8183文章数 563关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

旅游
亲子
本地
房产
公开课

旅游要闻

莫让内卷式竞争削弱旅游消费信心

亲子要闻

有一点点近视,到底要不要戴眼镜?

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

红利爆发!海南,冲到全国人口增量第4省!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版