![]()
这项由英国谢菲尔德大学计算机科学学院主导的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.16027,题为《Where does output diversity collapse in post-training?》,目前正在同行评审中。
你有没有注意到,当你用ChatGPT或者类似的AI工具写文章、做创意策划时,感觉它们的回答总是有点"模板化"——文风相近、结构雷同,甚至连比喻都似曾相识?这不是你的错觉。AI大模型在经过特定的"调教"训练之后,确实会变得越来越"千人一面",输出的内容多样性会大幅下降。研究者们把这种现象叫做"输出多样性崩塌"。
谢菲尔德大学的研究团队决定深挖这个问题的根源。他们不只是想知道"多样性消失了"这个事实,而是要追问:**多样性究竟在哪个训练环节丢失的?为什么不同的训练路径会导致不同的消失模式?**更关键的是,有没有办法在不重新训练的情况下,通过调整AI的使用方式来"找回"那些消失的多样性?
这项研究的特别之处在于,它首次系统性地把"训练方法"和"训练数据"区分开来考察,同时也把"模型内在的学习结果"和"模型输出时的格式选择"分开分析。通过对同一个基础模型的三条不同训练路径(Think、Instruct和RL-Zero)进行全程追踪,研究团队在15个不同任务上、用4种多样性测量指标,把多样性的消失过程拍了个"全程录像"。
一、训练AI的"调教"过程是什么样的
要理解这项研究,先得知道AI大模型是怎么从一个"什么都懂但什么都乱说"的基础模型,变成一个听话、有礼貌、会帮你干活的助手的。这个过程就是"后训练",大致分三个阶段。
第一阶段叫做"监督微调"(SFT),简单说就是给AI看大量示范:这道题应该这么答,这类问题应该这么回应。AI通过模仿这些示范来学习"正确的行为"。第二阶段叫"直接偏好优化"(DPO),就是给AI看两个答案,告诉它哪个更好,让它学会"偏好判断"。第三阶段叫"强化学习"(RL),就是让AI自己尝试,答对了就奖励,答错了就惩罚,像训练运动员一样靠反复练习提升表现。
研究团队选择了一个叫做Olmo 3的开源模型作为研究对象,这个模型的好处在于它公开了所有训练阶段的中间状态,就好比一家餐厅不只给你看最终端上桌的菜,还让你看每道工序的半成品。研究团队追踪了三条从同一个"原料"出发的不同"烹饪路线"。
第一条路线叫Think,专注于让AI学会"链式思维"——就是先想,再答,像做数学题时先打草稿。这条路线的训练数据来自两个"老师模型"生成的约230万条推理示例,全都是解题步骤很详细的样本。第二条路线叫Instruct,是个"全能选手"培训路线,训练数据来自多个来源,包括GPT-3.5、GPT-4等多个不同的AI系统生成的约220万条示例,覆盖写作、对话、工具调用等各种任务。第三条路线叫RL-Zero,直接跳过前两个阶段,从基础模型出发,只用强化学习来训练,针对数学、代码、指令遵循、通用能力四个不同方向各训练了一个版本。
为了衡量"多样性",研究团队设计了四把"尺子":第一把测词汇多样性,看AI的不同回答里有多少不重复的词汇组合;第二把测语义多样性,看不同回答在意思层面上有多大的差距;第三把测逻辑多样性,看不同回答之间有没有互相矛盾或互相蕴含;第四把叫"Vendi分数",把它理解成"有效独特模式的数量"即可——分数越高,说明AI给出的回答在本质上越不相同。
二、多样性在哪里消失了:两条路线的截然不同
研究的第一个重大发现,是Think和Instruct这两条路线虽然都经历了完全相同的三个训练阶段,但多样性的"断崖"出现在完全不同的位置。
Think路线在第一阶段(监督微调)就遭遇了"多样性大崩塌"。与原始基础模型相比,Think在监督微调之后平均损失了62%的语义多样性,几乎是从高楼直接跳下来。之所以如此剧烈,是因为Think的训练数据来自两个相互关联、风格相近的"老师模型"。这两个老师虽然能给出高质量的推理示例,但他们的"思维方式"本来就有限,导致AI学到的回答模式集中在一个很窄的区间里。这就像你从小只听一位老师讲课,那位老师的口头禅、叙述方式、思考框架就会深深印在你脑子里,你的表达方式也就越来越像那位老师了。
相比之下,Instruct路线在监督微调阶段只损失了约38%的多样性,而且还有一个有趣现象:由于Instruct的监督微调是在Think监督微调之后的模型基础上继续训练的,相当于在一个"已经部分坍塌"的基础上重新注入了多样性。换句话说,更广泛的多源数据确实能部分"修复"已经损失的多样性,大约找回了40%的失去部分。
Instruct路线真正的"多样性大崩塌"发生在第二阶段:直接偏好优化(DPO)。DPO在Instruct路线中造成了约23%的额外损失,而在Think路线中这个数字只有4%。这种差异其实很好理解:Think在进入DPO之前已经被压缩得很"整齐"了,DPO挑不出多少"尾巴"来修剪;而Instruct进入DPO时还保留着相当的多样性,DPO的"喜好导向修剪"于是显得格外有力。研究团队还发现,在某些数学和代码任务上,DPO甚至能轻微提升多样性,因为它能纠正监督微调阶段带来的某些单一化倾向。
至于第三阶段的强化学习,对Think路线来说反而有约4%的多样性"回弹",对Instruct则造成了约5%的额外损失。在GSM8K数学题上,Instruct的强化学习阶段造成了37%的单阶段最大损失,因为验证奖励信号把概率集中到了最主流的"正确解法"上,其他路径都被打压了。
RL-Zero则是另一番景象。完全绕开监督微调和DPO,直接从基础模型开始强化学习,最终保留了基础模型约93%的多样性。这个数字与两条主流路线最终剩余的约34%-38%相比,简直是天壤之别。
三、思维链的"链"断了,多样性能回来吗
研究的第二个核心问题更加精妙。Think路线的AI在回答问题时,会先在脑子里"推导"一番,把思维过程用文字写出来(这叫"链式思维",英文缩写CoT),然后再给出最终答案。这个"先想后答"的格式本身,会不会是让输出多样性下降的原因?
为了回答这个问题,研究团队做了一个干净利落的实验:把Think系列模型里的推导过程"强制删掉",让它直接给出答案,不允许打草稿。他们管这种状态下的模型叫"Think-not-thinking"(Think但不思考)。
实验结果非常清晰:删掉思维链,多样性毫无恢复。不管是在监督微调阶段、DPO阶段还是强化学习之后的最终模型,强制让模型跳过推导直接回答,语义多样性的水平与保留推导过程时几乎完全一致。换言之,多样性的损失是刻在模型"骨子里"的,跟输出时有没有思维链格式无关。
然而,删掉思维链对回答质量的影响是实实在在的。在难度较大的任务上,质量下降相当显著:数学竞赛题(MATH-Algebra)正确率下降28%,代码生成任务(HumanEval)下降32%,数学几何题(MATH-Geometry)下降32%。删掉推导过程就像要求一个习惯打草稿的学生直接交卷,他的成绩自然会受影响,但他做题时的"解题风格"(也就是多样性)并不会因此变得更丰富。
有一个有趣的例外值得一提:在创意写作任务(WritingPrompts)上,删掉思维链居然轻微提升了语义多样性(增加约0.046),这说明在这类任务里,思维链可能反而起到了一种"模板化叙事框架"的作用,约束了故事的走向。不过这只是一个小例外,整体格局没有改变。
逻辑多样性(NLI分数)则揭示了一个微妙的反差:当Think模型被强制去掉思维链时,它的逻辑多样性分数反而升高了——在GSM8K上从0.70升到0.87,在MATH-Algebra上从0.73升到0.91。这听起来像是"更多样",但结合质量数据来看,真相是:没有推导过程的模型开始输出更多不同类型的错误答案,而不是更多样的正确解法。就好比一个人不允许打草稿,他写出来的东西确实各不相同,但基本上都是乱写的。
四、多样性的消失,是"质量控制"还是真正的"思维固化"
研究的第三条追问触及了一个根本性的哲学问题:训练后模型的多样性下降,到底有多少是因为"把错误答案过滤掉了",有多少是真正的"连正确答案都趋于单一"?
这个问题很重要,因为如果多样性下降只是"去掉了错答案",那其实是好事;但如果连正确答案都越来越相同,那就是真正的问题了。
研究团队把这两个效应分开来计算。他们对每道题的16个答案分别标注"正确"和"错误",然后分别测量"所有答案的多样性"和"仅正确答案的多样性",两者之差就代表"质量控制贡献",仅正确答案的多样性本身就是"真正的思维固化程度"。
结果显示,这个分裂比例是高度任务依赖的。在指令遵循任务(IFEval)上,高达83.4%的多样性损失来自"真正的思维固化"——也就是说,即使只看答对的那些回答,它们也高度雷同。在代码生成任务(MBPP)上,真正的固化比例降至38%。而在代码理解任务(HumanEval)上,这个比例甚至不到10%——多样性损失主要来自筛掉了大量错误代码,正确代码之间的多样性其实还好。数学推理任务居于中间,大约57%-64%的损失属于真正的固化。
在代码任务上,研究团队还用了专门针对代码结构的测量方式:把代码解析成语法树,然后比较不同答案在语法结构层面的差异。结果发现,Think系列模型在HumanEval上给出的正确代码,语法结构极其相近(结构相似度高达0.47),而基础模型和RL-Zero系列的正确代码则保有相当大的结构差异(相似度仅约0.11-0.41)。这说明Think不只是把思路收敛到了"正确答案",连"怎么写出这个答案"都变成了一种固定套路。
这个发现直接揭示了一个实用后果:对于需要"多抽几次,只要有一次答对就行"这类应用场景(技术上叫pass@k),那些保留了更多多样性的模型显然更有优势。以数学代数题为例,Think-not-thinking和RL-Zero-Math的单次准确率都约为49%,但RL-Zero-Math的正确答案多样性是前者的两倍,因此多数投票(抽16次,取最常见答案)能额外获得15%的准确率提升,而Think-not-thinking只能获得7%的提升。
在HumanEval上还出现了另一种反直觉的现象:Instruct模型的单次准确率(81.2%)低于Think模型(87.7%),但如果给16次机会,Instruct反而超过了Think(98.2% vs. 95.7%)。原因在于Think的多次回答太过相似,第2-16次几乎是第1次的复制;而Instruct的回答稍微分散一些,增加了至少有一次答对的概率。
最"惨"的是TruthfulQA这个任务,它专门用来测试AI会不会坚持说错误的常识(比如常见谣言)。在这个任务上,多数投票反而让所有模型的表现更差——因为多次抽样都在重复同一个错误,投票只会"加固"这个错误,而不会帮助纠正它。
五、RL-Zero的启示:不经调教的AI,反而更有创意
RL-Zero系列模型的表现提供了一组对照实验,让这项研究的结论更加鲜明。这批模型绕过了监督微调和DPO,直接在基础模型上施加特定领域的奖励强化学习。结果,它们平均保留了基础模型93%的多样性,远高于Think(保留38%)和Instruct(保留34%)。
不同方向的RL-Zero版本之间也有差异,而且差异模式和奖励信号的"精确程度"高度相关。专门做指令遵循的RL-Zero-IF(只要答案格式符合要求就给奖励)保留了基础模型99%的多样性,因为这类奖励对答案内容几乎没有约束。专做代码的RL-Zero-Code保留了88%,因为"代码能不能跑通"这个判断标准更精确,会把不同但都能跑通的代码路径过滤掉。数学奖励居于中间,因为数学题允许多种不同的解题思路通向同一个答案。这个规律揭示了一个核心逻辑:**奖励信号越精确,多样性损失越大**。
当然,RL-Zero的高多样性是有代价的。在GSM8K数学题上,Think的单次准确率高达93%,Instruct为80%,而RL-Zero系列只有49-61%。在指令遵循任务上,Think达到79%,RL-Zero只有49%。多样性和质量之间存在真实的权衡,不可能两者兼得,除非改变训练方式本身。
六、"思维固化"刻在骨子里,换种方式用也没用
研究团队的结论指向一个让很多人不舒服的事实:多样性的损失是在训练时就定下来的,后来想通过调整使用方式来弥补,基本没有用。
有人可能会想:既然Think模型因为推导过程而产生了固化,那我强制让它不推导,是不是就能找回多样性?上面已经说了,答案是否定的。还有人可能想:那我把温度参数调高,让AI随机性更大,是不是能恢复多样性?研究团队也测试了这个问题。在与基础模型推荐温度(T=1.0)对比之下,他们研究中统一使用的较低温度(T=0.6)确实造成了约11%的语义多样性损失,但这个损失与从基础模型到Think监督微调阶段的62%崩塌相比,简直微不足道。换句话说,就算把温度拨回去,也远远弥补不了训练带来的损失。
这对实际应用有一个重要的提示:如果你需要AI给你提供多样化的答案,比如头脑风暴、创意生成、多角度分析等,那么选对模型比调整参数更重要,而选对模型背后的核心是关心那个模型是用什么数据训练出来的。
从机制上来理解,这也有一定的道理。监督微调本质上是对训练数据做最大似然估计,如果训练数据本身来自风格相近的少数几个"老师",那模型输出就会向这个狭窄的分布靠拢,这是数学上的必然结果,而不是某个偶然的失误。DPO的数学原理是"对好答案加权,对差答案降权",而"好答案"的定义本身就是一个压缩多样性的过程——它把概率质量推向人类偏好分布的峰值,而不是分散在各种可能的回答里。强化学习里用的GRPO算法,在没有KL惩罚(限制模型不能偏离太远)的情况下,反而可以让模型自由探索并且找回一些被压制的答案模式,这解释了为什么RL-Zero能保留那么多多样性,也解释了为什么Think的强化学习阶段有轻微的多样性回弹。
七、当AI失去多样性,哪些场景受害最深
研究团队还仔细分析了不同任务类型在多样性损失上的差异,这对实际使用场景有直接的参考价值。
在数学推理任务上,多样性的损失有相当大一部分来自"剔除错误解法",正确答案之间的收敛程度相对没那么严重,这使得多数投票仍然能带来一定的性能提升。在代码任务上,大部分多样性损失其实来自筛掉了跑不通的代码(尤其是基础模型大量的无效代码),真正正确代码之间的固化程度因模型而异。
真正让人担忧的是创意写作和价值观相关的任务。在创意写作任务上,Think和Instruct都把语义多样性压缩到了基础模型的约37%,但每次写出来的故事质量都远高于基础模型(超过97%的胜率)。这意味着:AI变成了一个很会写故事、但所有故事读起来都像是同一个作者写的机器。研究团队用Vendi分数来描述这个现象:基础模型有约6.9个"有效故事模式",训练后只剩约2.6个。
价值观任务(比如PRISM数据集,专门测AI对有争议问题的多元立场表现)上,两条训练路线都遭受了严重的多样性崩塌,其中Think路线下降了约78%。这意味着面对"安乐死是否应该合法化"、"移民政策应该更严格还是更宽松"这类本质上没有唯一正确答案的问题,经过训练的AI可能会越来越倾向于给出同一种回答。这种"价值观单一化"的风险,是这项研究发出的最深层的警示。
研究团队也在这里做了一个重要的区分:他们测量的是"分布多样性"(统计意义上有多少种不同的答案),而不是"立场多样性"(有没有真正代表不同价值观的答案)。一个模型可以在词汇上很多样,但所有答案都默认一种立场;也可以看起来很单一,但实际上保留了最关键的立场差异。这两种多样性需要不同的测量工具,目前的研究还无法完全分辨。
归根结底,这项研究做的事情有点像给一家工厂的生产线装了全程摄像头,逐帧分析产品质量是在哪道工序开始下降的。答案令人深思:AI的创意损失,不是一个技术bug,而是训练流程本身的必然结果,而且决定性的因素不是训练方法,而是训练数据的来源结构。
这意味着,如果你是一个AI产品的使用者,你没有办法靠"换一种问法"或者"调高随机参数"来让AI回答得更有创意——那扇门在训练阶段就已经关上了。如果你是AI产品的开发者或研究者,这项研究给出了两个方向:一是在监督微调数据上多元化"老师来源",避免用少数几个风格相近的模型作为唯一的学习样本;二是在强化学习阶段减少或去掉KL惩罚,让模型保留自由探索的空间。不过研究团队也坦诚,这两种方法能缓解多样性崩塌的速度,但能否真正提高多样性的"底线",目前还不清楚。
这项研究留下了几个值得继续追问的问题:AI推导过程(思维链)本身有多样性吗?多样性的"底线"是否真的由训练方法的数学特性决定,而非数据?面对有多元合理答案的问题,未来的AI训练能否主动保护而不是压制多样性?如果你对这些问题感兴趣,可以通过arXiv编号2604.16027找到完整论文进行深入阅读。
Q&A
Q1:AI大模型训练后输出多样性崩塌的主要原因是什么?
A:根据谢菲尔德大学的研究,多样性崩塌的主要原因是训练数据的来源结构,而不是训练方法本身。如果监督微调阶段使用的示范数据来自少数几个风格相近的"老师模型",AI学到的回答模式就会被压缩在一个很窄的区间里。数据来源越多元,崩塌发生得越晚、程度越轻。
Q2:调高AI的随机性温度参数能恢复多样性吗?
A:效果非常有限。研究发现,温度参数从推荐值调低大约造成11%的多样性损失,但这与训练过程造成的62%崩塌相比可以忽略不计。把温度调回去也只能弥补很小一部分,训练数据带来的多样性损失是刻在模型权重里的,无法通过调参在推理时恢复。
Q3:RL-Zero为什么能保留更多多样性,它的代价是什么?
A:RL-Zero绕过了监督微调和偏好优化两个阶段,直接从基础模型开始强化学习,因此没有经历这两个阶段带来的多样性压缩,平均保留了基础模型93%的多样性。但代价是质量大幅下降——在数学题上单次准确率只有49-61%,而经过完整训练的模型可以达到80-93%。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.