谢菲尔德大学研究揭开大模型训练后"千人一面"之谜|数学|实验

分享至

这项由英国谢菲尔德大学计算机科学学院主导的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.16027，题为《Where does output diversity collapse in post-training?》，目前正在同行评审中。

你有没有注意到，当你用ChatGPT或者类似的AI工具写文章、做创意策划时，感觉它们的回答总是有点"模板化"——文风相近、结构雷同，甚至连比喻都似曾相识？这不是你的错觉。AI大模型在经过特定的"调教"训练之后，确实会变得越来越"千人一面"，输出的内容多样性会大幅下降。研究者们把这种现象叫做"输出多样性崩塌"。

谢菲尔德大学的研究团队决定深挖这个问题的根源。他们不只是想知道"多样性消失了"这个事实，而是要追问：**多样性究竟在哪个训练环节丢失的？为什么不同的训练路径会导致不同的消失模式？**更关键的是，有没有办法在不重新训练的情况下，通过调整AI的使用方式来"找回"那些消失的多样性？

这项研究的特别之处在于，它首次系统性地把"训练方法"和"训练数据"区分开来考察，同时也把"模型内在的学习结果"和"模型输出时的格式选择"分开分析。通过对同一个基础模型的三条不同训练路径（Think、Instruct和RL-Zero）进行全程追踪，研究团队在15个不同任务上、用4种多样性测量指标，把多样性的消失过程拍了个"全程录像"。

一、训练AI的"调教"过程是什么样的

要理解这项研究，先得知道AI大模型是怎么从一个"什么都懂但什么都乱说"的基础模型，变成一个听话、有礼貌、会帮你干活的助手的。这个过程就是"后训练"，大致分三个阶段。

第一阶段叫做"监督微调"（SFT），简单说就是给AI看大量示范：这道题应该这么答，这类问题应该这么回应。AI通过模仿这些示范来学习"正确的行为"。第二阶段叫"直接偏好优化"（DPO），就是给AI看两个答案，告诉它哪个更好，让它学会"偏好判断"。第三阶段叫"强化学习"（RL），就是让AI自己尝试，答对了就奖励，答错了就惩罚，像训练运动员一样靠反复练习提升表现。

研究团队选择了一个叫做Olmo 3的开源模型作为研究对象，这个模型的好处在于它公开了所有训练阶段的中间状态，就好比一家餐厅不只给你看最终端上桌的菜，还让你看每道工序的半成品。研究团队追踪了三条从同一个"原料"出发的不同"烹饪路线"。

第一条路线叫Think，专注于让AI学会"链式思维"——就是先想，再答，像做数学题时先打草稿。这条路线的训练数据来自两个"老师模型"生成的约230万条推理示例，全都是解题步骤很详细的样本。第二条路线叫Instruct，是个"全能选手"培训路线，训练数据来自多个来源，包括GPT-3.5、GPT-4等多个不同的AI系统生成的约220万条示例，覆盖写作、对话、工具调用等各种任务。第三条路线叫RL-Zero，直接跳过前两个阶段，从基础模型出发，只用强化学习来训练，针对数学、代码、指令遵循、通用能力四个不同方向各训练了一个版本。

为了衡量"多样性"，研究团队设计了四把"尺子"：第一把测词汇多样性，看AI的不同回答里有多少不重复的词汇组合；第二把测语义多样性，看不同回答在意思层面上有多大的差距；第三把测逻辑多样性，看不同回答之间有没有互相矛盾或互相蕴含；第四把叫"Vendi分数"，把它理解成"有效独特模式的数量"即可——分数越高，说明AI给出的回答在本质上越不相同。

二、多样性在哪里消失了：两条路线的截然不同

研究的第一个重大发现，是Think和Instruct这两条路线虽然都经历了完全相同的三个训练阶段，但多样性的"断崖"出现在完全不同的位置。

Think路线在第一阶段（监督微调）就遭遇了"多样性大崩塌"。与原始基础模型相比，Think在监督微调之后平均损失了62%的语义多样性，几乎是从高楼直接跳下来。之所以如此剧烈，是因为Think的训练数据来自两个相互关联、风格相近的"老师模型"。这两个老师虽然能给出高质量的推理示例，但他们的"思维方式"本来就有限，导致AI学到的回答模式集中在一个很窄的区间里。这就像你从小只听一位老师讲课，那位老师的口头禅、叙述方式、思考框架就会深深印在你脑子里，你的表达方式也就越来越像那位老师了。

相比之下，Instruct路线在监督微调阶段只损失了约38%的多样性，而且还有一个有趣现象：由于Instruct的监督微调是在Think监督微调之后的模型基础上继续训练的，相当于在一个"已经部分坍塌"的基础上重新注入了多样性。换句话说，更广泛的多源数据确实能部分"修复"已经损失的多样性，大约找回了40%的失去部分。

Instruct路线真正的"多样性大崩塌"发生在第二阶段：直接偏好优化（DPO）。DPO在Instruct路线中造成了约23%的额外损失，而在Think路线中这个数字只有4%。这种差异其实很好理解：Think在进入DPO之前已经被压缩得很"整齐"了，DPO挑不出多少"尾巴"来修剪；而Instruct进入DPO时还保留着相当的多样性，DPO的"喜好导向修剪"于是显得格外有力。研究团队还发现，在某些数学和代码任务上，DPO甚至能轻微提升多样性，因为它能纠正监督微调阶段带来的某些单一化倾向。

至于第三阶段的强化学习，对Think路线来说反而有约4%的多样性"回弹"，对Instruct则造成了约5%的额外损失。在GSM8K数学题上，Instruct的强化学习阶段造成了37%的单阶段最大损失，因为验证奖励信号把概率集中到了最主流的"正确解法"上，其他路径都被打压了。

RL-Zero则是另一番景象。完全绕开监督微调和DPO，直接从基础模型开始强化学习，最终保留了基础模型约93%的多样性。这个数字与两条主流路线最终剩余的约34%-38%相比，简直是天壤之别。

三、思维链的"链"断了，多样性能回来吗

研究的第二个核心问题更加精妙。Think路线的AI在回答问题时，会先在脑子里"推导"一番，把思维过程用文字写出来（这叫"链式思维"，英文缩写CoT），然后再给出最终答案。这个"先想后答"的格式本身，会不会是让输出多样性下降的原因？

为了回答这个问题，研究团队做了一个干净利落的实验：把Think系列模型里的推导过程"强制删掉"，让它直接给出答案，不允许打草稿。他们管这种状态下的模型叫"Think-not-thinking"（Think但不思考）。

实验结果非常清晰：删掉思维链，多样性毫无恢复。不管是在监督微调阶段、DPO阶段还是强化学习之后的最终模型，强制让模型跳过推导直接回答，语义多样性的水平与保留推导过程时几乎完全一致。换言之，多样性的损失是刻在模型"骨子里"的，跟输出时有没有思维链格式无关。

然而，删掉思维链对回答质量的影响是实实在在的。在难度较大的任务上，质量下降相当显著：数学竞赛题（MATH-Algebra）正确率下降28%，代码生成任务（HumanEval）下降32%，数学几何题（MATH-Geometry）下降32%。删掉推导过程就像要求一个习惯打草稿的学生直接交卷，他的成绩自然会受影响，但他做题时的"解题风格"（也就是多样性）并不会因此变得更丰富。

有一个有趣的例外值得一提：在创意写作任务（WritingPrompts）上，删掉思维链居然轻微提升了语义多样性（增加约0.046），这说明在这类任务里，思维链可能反而起到了一种"模板化叙事框架"的作用，约束了故事的走向。不过这只是一个小例外，整体格局没有改变。

逻辑多样性（NLI分数）则揭示了一个微妙的反差：当Think模型被强制去掉思维链时，它的逻辑多样性分数反而升高了——在GSM8K上从0.70升到0.87，在MATH-Algebra上从0.73升到0.91。这听起来像是"更多样"，但结合质量数据来看，真相是：没有推导过程的模型开始输出更多不同类型的错误答案，而不是更多样的正确解法。就好比一个人不允许打草稿，他写出来的东西确实各不相同，但基本上都是乱写的。

四、多样性的消失，是"质量控制"还是真正的"思维固化"

研究的第三条追问触及了一个根本性的哲学问题：训练后模型的多样性下降，到底有多少是因为"把错误答案过滤掉了"，有多少是真正的"连正确答案都趋于单一"？

这个问题很重要，因为如果多样性下降只是"去掉了错答案"，那其实是好事；但如果连正确答案都越来越相同，那就是真正的问题了。

研究团队把这两个效应分开来计算。他们对每道题的16个答案分别标注"正确"和"错误"，然后分别测量"所有答案的多样性"和"仅正确答案的多样性"，两者之差就代表"质量控制贡献"，仅正确答案的多样性本身就是"真正的思维固化程度"。

结果显示，这个分裂比例是高度任务依赖的。在指令遵循任务（IFEval）上，高达83.4%的多样性损失来自"真正的思维固化"——也就是说，即使只看答对的那些回答，它们也高度雷同。在代码生成任务（MBPP）上，真正的固化比例降至38%。而在代码理解任务（HumanEval）上，这个比例甚至不到10%——多样性损失主要来自筛掉了大量错误代码，正确代码之间的多样性其实还好。数学推理任务居于中间，大约57%-64%的损失属于真正的固化。

在代码任务上，研究团队还用了专门针对代码结构的测量方式：把代码解析成语法树，然后比较不同答案在语法结构层面的差异。结果发现，Think系列模型在HumanEval上给出的正确代码，语法结构极其相近（结构相似度高达0.47），而基础模型和RL-Zero系列的正确代码则保有相当大的结构差异（相似度仅约0.11-0.41）。这说明Think不只是把思路收敛到了"正确答案"，连"怎么写出这个答案"都变成了一种固定套路。

这个发现直接揭示了一个实用后果：对于需要"多抽几次，只要有一次答对就行"这类应用场景（技术上叫pass@k），那些保留了更多多样性的模型显然更有优势。以数学代数题为例，Think-not-thinking和RL-Zero-Math的单次准确率都约为49%，但RL-Zero-Math的正确答案多样性是前者的两倍，因此多数投票（抽16次，取最常见答案）能额外获得15%的准确率提升，而Think-not-thinking只能获得7%的提升。

在HumanEval上还出现了另一种反直觉的现象：Instruct模型的单次准确率（81.2%）低于Think模型（87.7%），但如果给16次机会，Instruct反而超过了Think（98.2% vs. 95.7%）。原因在于Think的多次回答太过相似，第2-16次几乎是第1次的复制；而Instruct的回答稍微分散一些，增加了至少有一次答对的概率。

最"惨"的是TruthfulQA这个任务，它专门用来测试AI会不会坚持说错误的常识（比如常见谣言）。在这个任务上，多数投票反而让所有模型的表现更差——因为多次抽样都在重复同一个错误，投票只会"加固"这个错误，而不会帮助纠正它。

五、RL-Zero的启示：不经调教的AI，反而更有创意

RL-Zero系列模型的表现提供了一组对照实验，让这项研究的结论更加鲜明。这批模型绕过了监督微调和DPO，直接在基础模型上施加特定领域的奖励强化学习。结果，它们平均保留了基础模型93%的多样性，远高于Think（保留38%）和Instruct（保留34%）。

不同方向的RL-Zero版本之间也有差异，而且差异模式和奖励信号的"精确程度"高度相关。专门做指令遵循的RL-Zero-IF（只要答案格式符合要求就给奖励）保留了基础模型99%的多样性，因为这类奖励对答案内容几乎没有约束。专做代码的RL-Zero-Code保留了88%，因为"代码能不能跑通"这个判断标准更精确，会把不同但都能跑通的代码路径过滤掉。数学奖励居于中间，因为数学题允许多种不同的解题思路通向同一个答案。这个规律揭示了一个核心逻辑：**奖励信号越精确，多样性损失越大**。

当然，RL-Zero的高多样性是有代价的。在GSM8K数学题上，Think的单次准确率高达93%，Instruct为80%，而RL-Zero系列只有49-61%。在指令遵循任务上，Think达到79%，RL-Zero只有49%。多样性和质量之间存在真实的权衡，不可能两者兼得，除非改变训练方式本身。

六、"思维固化"刻在骨子里，换种方式用也没用

研究团队的结论指向一个让很多人不舒服的事实：多样性的损失是在训练时就定下来的，后来想通过调整使用方式来弥补，基本没有用。

有人可能会想：既然Think模型因为推导过程而产生了固化，那我强制让它不推导，是不是就能找回多样性？上面已经说了，答案是否定的。还有人可能想：那我把温度参数调高，让AI随机性更大，是不是能恢复多样性？研究团队也测试了这个问题。在与基础模型推荐温度（T=1.0）对比之下，他们研究中统一使用的较低温度（T=0.6）确实造成了约11%的语义多样性损失，但这个损失与从基础模型到Think监督微调阶段的62%崩塌相比，简直微不足道。换句话说，就算把温度拨回去，也远远弥补不了训练带来的损失。

这对实际应用有一个重要的提示：如果你需要AI给你提供多样化的答案，比如头脑风暴、创意生成、多角度分析等，那么选对模型比调整参数更重要，而选对模型背后的核心是关心那个模型是用什么数据训练出来的。

从机制上来理解，这也有一定的道理。监督微调本质上是对训练数据做最大似然估计，如果训练数据本身来自风格相近的少数几个"老师"，那模型输出就会向这个狭窄的分布靠拢，这是数学上的必然结果，而不是某个偶然的失误。DPO的数学原理是"对好答案加权，对差答案降权"，而"好答案"的定义本身就是一个压缩多样性的过程——它把概率质量推向人类偏好分布的峰值，而不是分散在各种可能的回答里。强化学习里用的GRPO算法，在没有KL惩罚（限制模型不能偏离太远）的情况下，反而可以让模型自由探索并且找回一些被压制的答案模式，这解释了为什么RL-Zero能保留那么多多样性，也解释了为什么Think的强化学习阶段有轻微的多样性回弹。

七、当AI失去多样性，哪些场景受害最深

研究团队还仔细分析了不同任务类型在多样性损失上的差异，这对实际使用场景有直接的参考价值。

在数学推理任务上，多样性的损失有相当大一部分来自"剔除错误解法"，正确答案之间的收敛程度相对没那么严重，这使得多数投票仍然能带来一定的性能提升。在代码任务上，大部分多样性损失其实来自筛掉了跑不通的代码（尤其是基础模型大量的无效代码），真正正确代码之间的固化程度因模型而异。

真正让人担忧的是创意写作和价值观相关的任务。在创意写作任务上，Think和Instruct都把语义多样性压缩到了基础模型的约37%，但每次写出来的故事质量都远高于基础模型（超过97%的胜率）。这意味着：AI变成了一个很会写故事、但所有故事读起来都像是同一个作者写的机器。研究团队用Vendi分数来描述这个现象：基础模型有约6.9个"有效故事模式"，训练后只剩约2.6个。

价值观任务（比如PRISM数据集，专门测AI对有争议问题的多元立场表现）上，两条训练路线都遭受了严重的多样性崩塌，其中Think路线下降了约78%。这意味着面对"安乐死是否应该合法化"、"移民政策应该更严格还是更宽松"这类本质上没有唯一正确答案的问题，经过训练的AI可能会越来越倾向于给出同一种回答。这种"价值观单一化"的风险，是这项研究发出的最深层的警示。

研究团队也在这里做了一个重要的区分：他们测量的是"分布多样性"（统计意义上有多少种不同的答案），而不是"立场多样性"（有没有真正代表不同价值观的答案）。一个模型可以在词汇上很多样，但所有答案都默认一种立场；也可以看起来很单一，但实际上保留了最关键的立场差异。这两种多样性需要不同的测量工具，目前的研究还无法完全分辨。

归根结底，这项研究做的事情有点像给一家工厂的生产线装了全程摄像头，逐帧分析产品质量是在哪道工序开始下降的。答案令人深思：AI的创意损失，不是一个技术bug，而是训练流程本身的必然结果，而且决定性的因素不是训练方法，而是训练数据的来源结构。

这意味着，如果你是一个AI产品的使用者，你没有办法靠"换一种问法"或者"调高随机参数"来让AI回答得更有创意——那扇门在训练阶段就已经关上了。如果你是AI产品的开发者或研究者，这项研究给出了两个方向：一是在监督微调数据上多元化"老师来源"，避免用少数几个风格相近的模型作为唯一的学习样本；二是在强化学习阶段减少或去掉KL惩罚，让模型保留自由探索的空间。不过研究团队也坦诚，这两种方法能缓解多样性崩塌的速度，但能否真正提高多样性的"底线"，目前还不清楚。

这项研究留下了几个值得继续追问的问题：AI推导过程（思维链）本身有多样性吗？多样性的"底线"是否真的由训练方法的数学特性决定，而非数据？面对有多元合理答案的问题，未来的AI训练能否主动保护而不是压制多样性？如果你对这些问题感兴趣，可以通过arXiv编号2604.16027找到完整论文进行深入阅读。

Q&A

Q1：AI大模型训练后输出多样性崩塌的主要原因是什么？

A：根据谢菲尔德大学的研究，多样性崩塌的主要原因是训练数据的来源结构，而不是训练方法本身。如果监督微调阶段使用的示范数据来自少数几个风格相近的"老师模型"，AI学到的回答模式就会被压缩在一个很窄的区间里。数据来源越多元，崩塌发生得越晚、程度越轻。

Q2：调高AI的随机性温度参数能恢复多样性吗？

A：效果非常有限。研究发现，温度参数从推荐值调低大约造成11%的多样性损失，但这与训练过程造成的62%崩塌相比可以忽略不计。把温度调回去也只能弥补很小一部分，训练数据带来的多样性损失是刻在模型权重里的，无法通过调参在推理时恢复。

Q3：RL-Zero为什么能保留更多多样性，它的代价是什么？

A：RL-Zero绕过了监督微调和偏好优化两个阶段，直接从基础模型开始强化学习，因此没有经历这两个阶段带来的多样性压缩，平均保留了基础模型93%的多样性。但代价是质量大幅下降——在数学题上单次准确率只有49-61%，而经过完整训练的模型可以达到80-93%。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.