网易首页 > 网易号 > 正文 申请入驻

卡内基梅隆大学研究者用小模型"回收"网络垃圾数据

0
分享至


随着人工智能大语言模型越来越强大,支撑它们学习的高质量训练数据却在快速枯竭。就像化石燃料一样,网络上的优质文本内容正在被"开采殆尽"。卡内基梅隆大学语言技术研究所的余志春和熊晨炀研究团队针对这一问题,在2025年10月发表了一项突破性研究成果REPRO,提出了一种全新的数据"回收"方法。该研究论文的预印本编号为arXiv:2510.10681v1。

这项研究解决了当前AI训练面临的一个关键瓶颈。以往的做法就像在垃圾堆里挑选宝贝,大部分网络内容都被当作"低质量"数据扔掉了。而现有的数据重写方法虽然有效,但就像请名厨来做家常菜一样昂贵,需要动用70B参数的大模型来改写文本,成本极高。更关键的是,这种"请外援"的方式往往不够忠实,改写后的内容可能偏离原文本的核心意思。

研究团队提出的REPRO方法就像培训一个专业的废品回收师,用一个相对较小的4B参数模型来学会如何将低质量的网络数据改写成高质量的训练素材。这个过程类似于学习如何将粗糙的原石打磨成精美的宝石,既要提升质量,又要保持原有的本质特征。

研究者设计了一套巧妙的奖励机制来训练这个"回收师"。就像教导一个学徒既要追求作品质量,又要保持原作风格一样,他们设置了四种不同的奖励标准。其中DataMan作为质量奖励,确保改写后的文本更加优质;BERTScore作为语义忠实度奖励,确保改写不偏离原意;结构保持奖励确保文本格式不被破坏;长度对齐奖励防止生成过长或过短的内容。

实验结果令人振奋。研究团队用这个4B参数的"小回收师"处理了720亿个词汇的网络数据,然后用这些回收的数据训练了400M和1.4B参数的语言模型。在22项下游任务的测试中,REPRO方法比仅使用原始数据的基线模型提高了4.7%到14.0%的准确率。更令人惊讶的是,这个小模型的表现甚至超过了使用70B参数大模型的ReWire方法,实现了17倍参数量优势下的逆袭。

为了验证改写的忠实度,研究者还设计了一个有趣的测试。他们检查原始数据中的关键信息点在改写后是否得到了支持、遗漏或被篡改。结果显示,REPRO方法能够支持95%的关键信息,而遗漏关键信息的比例比其他方法减少了92%。这就像一个负责任的翻译,既能让文字更加优美,又不会曲解原意。

研究团队还深入分析了这个"回收师"具体做了哪些改进工作。分析发现,它最常进行的操作是改写表述,其次是移除无关内容如广告和元数据,还会进行澄清、重组和总结等多样化操作。这种灵活的处理方式让人联想到一个经验丰富的编辑,知道什么时候该润色,什么时候该删减,什么时候该重新组织内容。

在不同数据量的实验中,研究者发现REPRO能够将有机数据的效率提升2到3倍。换句话说,原本需要3份高质量数据才能达到的训练效果,现在用1份高质量数据加上2份经过REPRO回收的数据就能实现。这种效率提升对于缓解训练数据稀缺问题具有重要意义。

与传统方法相比,REPRO的另一个优势在于成本控制。在处理720亿词汇的数据时,WRAP方法需要2095小时的计算时间,ReWire需要63360小时,而REPRO仅需要1728小时(包括192小时的训练时间和1536小时的推理时间),实现了36.7倍的速度提升。

研究者还验证了不同奖励函数的有效性。他们发现,如果去掉忠实度相关的奖励,虽然质量分数能快速提升,但语义一致性、结构保持和长度控制等指标都会显著下降。这证明了多维度奖励机制的必要性,就像培养一个全面发展的学生,不能只关注某一个方面的成绩。

这项研究为解决大语言模型训练数据稀缺问题提供了新思路。研究团队已经将代码、训练好的回收模型和处理后的数据开源,供学术界使用。这种"授人以渔"的做法有望推动整个领域在数据效率方面的进步。

REPRO方法的成功说明了一个重要道理:解决复杂问题不一定需要更大更强的工具,有时候一个专门训练的小工具反而能取得更好的效果。这为未来的AI研究指明了一个方向,即通过精心设计的训练策略,小模型也能在特定任务上超越大模型的表现。

归根结底,这项研究展示了如何用更聪明的方法应对资源稀缺的挑战。在大语言模型发展面临"数据墙"的当下,REPRO提供了一种可持续的解决方案,让AI的发展不再完全依赖于寻找新的数据源,而是学会更好地利用现有资源。

Q&A

Q1:REPRO方法与传统的数据处理方法有什么区别?

A:REPRO使用强化学习训练一个4B参数的小模型来改写数据,而传统方法要么直接过滤掉低质量数据,要么使用70B参数的大模型来改写。REPRO不仅成本更低,而且通过多维度奖励机制确保改写后的数据既保持高质量又忠实于原文。

Q2:REPRO能将数据效率提升多少?

A:实验结果显示,REPRO能够将有机数据的效率提升2到3倍。也就是说,原本需要3份高质量数据才能达到的训练效果,现在用1份高质量数据加上2份REPRO回收的数据就能实现,大大缓解了高质量训练数据稀缺的问题。

Q3:REPRO方法如何保证改写后数据的质量和忠实度?

A:REPRO设计了四种奖励机制:DataMan质量奖励确保改写质量,BERTScore语义奖励保证不偏离原意,结构奖励维持文本格式,长度奖励控制内容篇幅。实验显示REPRO能支持95%的关键信息点,遗漏率比其他方法减少92%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2个坏消息传来,高市早苗开始“举白旗”,但中方不会轻易放过她

2个坏消息传来,高市早苗开始“举白旗”,但中方不会轻易放过她

标体
2025-11-18 12:14:57
江苏省副省长李忠军,任南京市代市长

江苏省副省长李忠军,任南京市代市长

观察者网
2025-11-18 18:34:20
哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

带你感受人间冷暖
2025-11-05 00:05:16
蒋介石问冈村宁次:屠我30万同胞你后悔吗?冈村宁次回8字,全场哗然

蒋介石问冈村宁次:屠我30万同胞你后悔吗?冈村宁次回8字,全场哗然

萧竹轻语
2025-11-12 19:27:40
据说特朗普突然要访华,背后原因令人震惊!

据说特朗普突然要访华,背后原因令人震惊!

福建平子
2025-11-18 07:59:19
比“高市毒苗”还危险的事出现!中国绝不忍让,挥出铁拳反击日本

比“高市毒苗”还危险的事出现!中国绝不忍让,挥出铁拳反击日本

松林看世界
2025-11-18 06:56:29
你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

特约前排观众
2025-08-19 00:20:03
让男人“上瘾”的三个床上技巧,聪明女人都懂!

让男人“上瘾”的三个床上技巧,聪明女人都懂!

精彩分享快乐
2025-10-24 21:10:03
不少网友拿出态度,宣布退票取消赴日旅游

不少网友拿出态度,宣布退票取消赴日旅游

映射生活的身影
2025-11-16 14:56:58
年少不知邵氏好,长大全都看不了

年少不知邵氏好,长大全都看不了

尚曦读史
2025-11-15 07:07:08
惊!女同学身上“奶香”真相让人瞠目结舌!

惊!女同学身上“奶香”真相让人瞠目结舌!

特约前排观众
2025-11-17 00:10:03
悲恸! 著名女歌手病逝  被"不死癌症"+"癌王"折磨 皮肤破裂

悲恸! 著名女歌手病逝 被"不死癌症"+"癌王"折磨 皮肤破裂

北国向锡安
2025-10-30 08:52:31
55年前驾机出走台湾的叛徒,2016年被追认为烈士,并用专机接回

55年前驾机出走台湾的叛徒,2016年被追认为烈士,并用专机接回

知鉴明史
2025-11-08 14:43:16
和亲家过了个年我才认清:即便你有300万,生儿子就是给别人养的

和亲家过了个年我才认清:即便你有300万,生儿子就是给别人养的

匹夫来搞笑
2025-11-07 15:11:05
李沧好思得圈完钱就闭店!创始人为青岛电视台主持人
家长们疑遭遇职业闭店陷阱

李沧好思得圈完钱就闭店!创始人为青岛电视台主持人 家长们疑遭遇职业闭店陷阱

易瞰青岛
2025-11-18 13:38:28
一旦爆发核战争,只有10分钟自救!14亿中国人,必须学会自救方法

一旦爆发核战争,只有10分钟自救!14亿中国人,必须学会自救方法

扶苏聊历史
2025-10-26 11:35:03
“寒衣5不吃,吃了一年穷”,指哪5不吃?寒衣节将至,莫忘老传统

“寒衣5不吃,吃了一年穷”,指哪5不吃?寒衣节将至,莫忘老传统

神牛
2025-11-14 13:25:03
华为Mate80配置太猛了,这次不是常规迭代,完全是一次体系升级

华为Mate80配置太猛了,这次不是常规迭代,完全是一次体系升级

小8说科技
2025-11-19 02:01:40
内蒙古再迎“空降”干部:地厅级跨省交流背后的“大智慧”

内蒙古再迎“空降”干部:地厅级跨省交流背后的“大智慧”

满子典频
2025-11-18 18:10:02
美国行动了,事出反常必有妖!“堤丰”中导发射装置撤离驻日基地

美国行动了,事出反常必有妖!“堤丰”中导发射装置撤离驻日基地

荷兰豆爱健康
2025-11-19 01:02:29
2025-11-19 05:07:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6264文章数 541关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

房产
手机
教育
时尚
军事航空

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

手机要闻

麒麟9030细节大揭秘:1+4+4满血规格,能否借此重振雄风?

教育要闻

留学降温“AI化留学”泛滥海归人设崩塌?

秋天穿衣暂时没灵感?赶紧看看这27套穿搭,舒适自然又大方

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版