网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

0
分享至


随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。

然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。即便仅在一次训练中混入较多比例的合成数据,也可能导致模型性能急剧下降,难以泛化到真实世界的数据中。

最近在ICML 2025会议上,来自上交大等研究机构的研究团队系统性地剖析了这一问题,并提出了一种创新的数据生成策略,Token-Level Editing,旨在有效避免模型崩溃。

  • 论文标题:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?
  • 论文链接:https://arxiv.org/pdf/2412.14689

不同于直接使用生成数据,该方法在真实数据上引入细粒度的 “微编辑” 操作,从而构建出结构更稳定、泛化性更强的 “半合成” 数据,有效规避了模型崩溃风险。

非迭代式模型崩溃现象识别

为了揭示合成数据对语言模型训练的影响,研究团队系统分析了不同合成比例下的模型训练行为。实验显示,即使只进行一次预训练,在数据中混入高比例的合成数据,也会显著导致性能下降。这种现象被称为非迭代式模型崩溃(Non-iterative Collapse),并在多个语言理解任务上得到了验证。

通过进一步统计分析,研究发现,合成数据相较于人工数据存在两类结构性缺陷:

  • 分布覆盖收窄:缺乏低频与长尾样本,难以体现语言的多样性。
  • 特征过度集中:n-gram 等语言特征分布密度过高,易导致模型过拟合。

Token-Level Editing

以编辑替代纯生成

更精细、更高质量的数据生成方式

为了解决上述问题,作者团队提出了一种 Token-Level Editing 方法不依赖生成整段文本,而是在训练数据中仅针对模型 “过度自信” 的 token 进行替换,定义如下编辑规则:

理论结果

测试误差有限上界,避免模型崩溃

作者进一步构建了线性回归分析框架,并证明 Token-Level Editing 过程的测试误差存在固定上界:

相比模型崩溃中的误差线性上升,这里误差被严格约束,不随迭代轮次增长。其关键原理在于:

每轮编辑操作只对一小部分样本进行调整,模型始终保持对真实数据分布的覆盖,避免了分布转移和特征过度集中。

进一步地,如果编辑矩阵 M_n 的影响强度递减(满足 ),则最终误差上界进一步优化为:

该理论说明,即使在多轮训练中,Token-Level Editing 依然能够从数学上阻止误差的无界增长,实现 “理论上不崩溃” 的数据增强路径。

实验结果

从预训练到微调全面验证方法有效性

为全面验证 Token-Level Editing 的有效性,研究团队在语言模型训练的三个关键阶段进行了系统实验:

  • 预训练阶段(Pre-training):在通用任务如 PIQA、BoolQ、Winogrande 等 benchmark 上,模型在引入编辑数据后表现持续优于纯合成数据方案。例如在 OLMo-1B 上,整体任务平均分提升了 +0.36 个百分点。
  • 持续预训练阶段(Continual Pre-training):在生物医药、金融、数学等专业任务中,Token-Level Editing 带来了跨域的泛化提升。例如在 PubMedQA 任务中,准确率提升高达 +13.6%。
  • 监督微调阶段(Supervised Fine-tuning):在指令理解与代码推理等复杂任务中,编辑数据同样展现了对多样语言指令的强鲁棒性。以 LLaMA-3 为例,平均提升 +0.4~0.5%,且在多个任务上保持一致性优势。

此外,为验证方法的稳健性,研究还进行了多轮消融实验,包括:

  • 编辑阈值 p 的变化范围;
  • 多种采样策略(Top-k、Top-p、拒绝采样);
  • 不同 token 置信度分布下的替换比例。

结果显示:在不增加训练数据规模的前提下,该方法依然具备良好可控性与可迁移性,具备强大的实际落地潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗女足在2026亚洲杯首战前做出“冲击性举动”,有些球员看起来在强忍泪水

伊朗女足在2026亚洲杯首战前做出“冲击性举动”,有些球员看起来在强忍泪水

冷桂零落
2026-03-03 20:07:31
原来早已不是中国籍,被老外“玩腻”后回国,郑绪岚现状令人唏嘘

原来早已不是中国籍,被老外“玩腻”后回国,郑绪岚现状令人唏嘘

暖心萌阿菇凉
2026-03-02 23:02:48
美国终于慌了,比稀土更致命的王牌出手,万斯急喊:中国要冷静

美国终于慌了,比稀土更致命的王牌出手,万斯急喊:中国要冷静

百科密码
2026-03-04 15:40:46
黄金白银,急跌!什么原因?

黄金白银,急跌!什么原因?

环球网资讯
2026-03-03 21:38:12
4个小孩高速路上比赛穿越?最新回应:3个男孩1个女孩,已进行安全教育

4个小孩高速路上比赛穿越?最新回应:3个男孩1个女孩,已进行安全教育

潇湘晨报
2026-03-04 16:00:12
都怪美人不听劝

都怪美人不听劝

必记本
2026-03-03 11:52:51
伊朗外长这番话,可能暗示一个大问题

伊朗外长这番话,可能暗示一个大问题

观察者网
2026-03-02 19:11:48
你见过夫妻之间的尴尬瞬间吗?网友:玩的太花了、第一次在猪圈外

你见过夫妻之间的尴尬瞬间吗?网友:玩的太花了、第一次在猪圈外

荷兰豆爱健康
2026-03-04 14:05:53
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
新疆一校花太漂亮了,身高170五官精致,美得让人移不开眼

新疆一校花太漂亮了,身高170五官精致,美得让人移不开眼

老吴教育课堂
2026-03-02 19:56:13
美媒:当初俄罗斯不该拒绝中国合作请求,如今中国垄断全球市场

美媒:当初俄罗斯不该拒绝中国合作请求,如今中国垄断全球市场

残梦重生来
2026-01-12 17:43:41
不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

青烟小先生
2026-03-04 10:18:37
A股:无需等周四开盘了,种种迹象表明,明天股市很可能这样走

A股:无需等周四开盘了,种种迹象表明,明天股市很可能这样走

财经大拿
2026-03-04 14:11:46
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
医生强烈提醒:今年开始,70岁以上长者请提前做好这几项生活准备

医生强烈提醒:今年开始,70岁以上长者请提前做好这几项生活准备

健康科普365
2026-01-25 02:55:03
战争进入第5天 美以称已发动超1700次打击 伊朗展开第16轮反击行动 最新情况一文梳理

战争进入第5天 美以称已发动超1700次打击 伊朗展开第16轮反击行动 最新情况一文梳理

极目新闻
2026-03-04 07:25:55
国内AI应用赛道呈现“马太效应”:豆包断层领先,DeepSeek、元宝分列二三位

国内AI应用赛道呈现“马太效应”:豆包断层领先,DeepSeek、元宝分列二三位

TechWeb
2026-03-03 17:45:07
老菜贩悄悄告诉我的买菜口诀:圆的洋葱、裂的香菇、弯的黄瓜,真不是瞎讲究!

老菜贩悄悄告诉我的买菜口诀:圆的洋葱、裂的香菇、弯的黄瓜,真不是瞎讲究!

三农老历
2026-02-26 04:49:54
一头值500!2022年安徽男子用锄头打死一头,活捉2头幼崽圈养

一头值500!2022年安徽男子用锄头打死一头,活捉2头幼崽圈养

万象硬核本尊
2026-03-04 19:33:03
油价调整:注意,预计上调285元/吨,油价大涨!

油价调整:注意,预计上调285元/吨,油价大涨!

金投网
2026-03-04 10:55:53
2026-03-04 20:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12410文章数 142578关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

谈扩内需等 人大新闻发布会回应这些热点

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

教育
游戏
健康
旅游
公开课

教育要闻

重磅!2026年绵阳中考时间确定

《Japanese Rural Life Adventure》NS/Steam版于今日3月4日(周三)正式上线

转头就晕的耳石症,能开车上班吗?

旅游要闻

免门票半价游!洛阳多景区“女神节”致敬了不起的她→

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版