网易首页 > 网易号 > 正文 申请入驻

卡内基梅隆大学研究者用小模型"回收"网络垃圾数据

0
分享至


随着人工智能大语言模型越来越强大,支撑它们学习的高质量训练数据却在快速枯竭。就像化石燃料一样,网络上的优质文本内容正在被"开采殆尽"。卡内基梅隆大学语言技术研究所的余志春和熊晨炀研究团队针对这一问题,在2025年10月发表了一项突破性研究成果REPRO,提出了一种全新的数据"回收"方法。该研究论文的预印本编号为arXiv:2510.10681v1。

这项研究解决了当前AI训练面临的一个关键瓶颈。以往的做法就像在垃圾堆里挑选宝贝,大部分网络内容都被当作"低质量"数据扔掉了。而现有的数据重写方法虽然有效,但就像请名厨来做家常菜一样昂贵,需要动用70B参数的大模型来改写文本,成本极高。更关键的是,这种"请外援"的方式往往不够忠实,改写后的内容可能偏离原文本的核心意思。

研究团队提出的REPRO方法就像培训一个专业的废品回收师,用一个相对较小的4B参数模型来学会如何将低质量的网络数据改写成高质量的训练素材。这个过程类似于学习如何将粗糙的原石打磨成精美的宝石,既要提升质量,又要保持原有的本质特征。

研究者设计了一套巧妙的奖励机制来训练这个"回收师"。就像教导一个学徒既要追求作品质量,又要保持原作风格一样,他们设置了四种不同的奖励标准。其中DataMan作为质量奖励,确保改写后的文本更加优质;BERTScore作为语义忠实度奖励,确保改写不偏离原意;结构保持奖励确保文本格式不被破坏;长度对齐奖励防止生成过长或过短的内容。

实验结果令人振奋。研究团队用这个4B参数的"小回收师"处理了720亿个词汇的网络数据,然后用这些回收的数据训练了400M和1.4B参数的语言模型。在22项下游任务的测试中,REPRO方法比仅使用原始数据的基线模型提高了4.7%到14.0%的准确率。更令人惊讶的是,这个小模型的表现甚至超过了使用70B参数大模型的ReWire方法,实现了17倍参数量优势下的逆袭。

为了验证改写的忠实度,研究者还设计了一个有趣的测试。他们检查原始数据中的关键信息点在改写后是否得到了支持、遗漏或被篡改。结果显示,REPRO方法能够支持95%的关键信息,而遗漏关键信息的比例比其他方法减少了92%。这就像一个负责任的翻译,既能让文字更加优美,又不会曲解原意。

研究团队还深入分析了这个"回收师"具体做了哪些改进工作。分析发现,它最常进行的操作是改写表述,其次是移除无关内容如广告和元数据,还会进行澄清、重组和总结等多样化操作。这种灵活的处理方式让人联想到一个经验丰富的编辑,知道什么时候该润色,什么时候该删减,什么时候该重新组织内容。

在不同数据量的实验中,研究者发现REPRO能够将有机数据的效率提升2到3倍。换句话说,原本需要3份高质量数据才能达到的训练效果,现在用1份高质量数据加上2份经过REPRO回收的数据就能实现。这种效率提升对于缓解训练数据稀缺问题具有重要意义。

与传统方法相比,REPRO的另一个优势在于成本控制。在处理720亿词汇的数据时,WRAP方法需要2095小时的计算时间,ReWire需要63360小时,而REPRO仅需要1728小时(包括192小时的训练时间和1536小时的推理时间),实现了36.7倍的速度提升。

研究者还验证了不同奖励函数的有效性。他们发现,如果去掉忠实度相关的奖励,虽然质量分数能快速提升,但语义一致性、结构保持和长度控制等指标都会显著下降。这证明了多维度奖励机制的必要性,就像培养一个全面发展的学生,不能只关注某一个方面的成绩。

这项研究为解决大语言模型训练数据稀缺问题提供了新思路。研究团队已经将代码、训练好的回收模型和处理后的数据开源,供学术界使用。这种"授人以渔"的做法有望推动整个领域在数据效率方面的进步。

REPRO方法的成功说明了一个重要道理:解决复杂问题不一定需要更大更强的工具,有时候一个专门训练的小工具反而能取得更好的效果。这为未来的AI研究指明了一个方向,即通过精心设计的训练策略,小模型也能在特定任务上超越大模型的表现。

归根结底,这项研究展示了如何用更聪明的方法应对资源稀缺的挑战。在大语言模型发展面临"数据墙"的当下,REPRO提供了一种可持续的解决方案,让AI的发展不再完全依赖于寻找新的数据源,而是学会更好地利用现有资源。

Q&A

Q1:REPRO方法与传统的数据处理方法有什么区别?

A:REPRO使用强化学习训练一个4B参数的小模型来改写数据,而传统方法要么直接过滤掉低质量数据,要么使用70B参数的大模型来改写。REPRO不仅成本更低,而且通过多维度奖励机制确保改写后的数据既保持高质量又忠实于原文。

Q2:REPRO能将数据效率提升多少?

A:实验结果显示,REPRO能够将有机数据的效率提升2到3倍。也就是说,原本需要3份高质量数据才能达到的训练效果,现在用1份高质量数据加上2份REPRO回收的数据就能实现,大大缓解了高质量训练数据稀缺的问题。

Q3:REPRO方法如何保证改写后数据的质量和忠实度?

A:REPRO设计了四种奖励机制:DataMan质量奖励确保改写质量,BERTScore语义奖励保证不偏离原意,结构奖励维持文本格式,长度奖励控制内容篇幅。实验显示REPRO能支持95%的关键信息点,遗漏率比其他方法减少92%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
止步澳网首轮!布云朝克特0-3出局,大满贯正赛仍难求一胜

止步澳网首轮!布云朝克特0-3出局,大满贯正赛仍难求一胜

全景体育V
2026-01-19 16:26:47
温州被吹上天的超市!翻车了

温州被吹上天的超市!翻车了

温晓生
2026-01-19 23:16:07
几乎全是假货!利润高达2400%,为何消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,为何消费者还前赴后继争相购买?

八斗小先生
2025-11-29 13:00:49
成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

娱乐团长
2026-01-13 15:39:28
票房86.8亿亏损4亿,詹姆斯卡梅隆跌落神坛,《阿凡达4》不会再有

票房86.8亿亏损4亿,詹姆斯卡梅隆跌落神坛,《阿凡达4》不会再有

影视高原说
2026-01-17 08:57:31
AI流量全球排名:GPT64.5%,Gemini21.5%,DS呢?

AI流量全球排名:GPT64.5%,Gemini21.5%,DS呢?

随波荡漾的漂流瓶
2026-01-18 17:34:10
胆固醇正常,却还是心梗了?美国协会:这个指标比坏胆固醇更危险

胆固醇正常,却还是心梗了?美国协会:这个指标比坏胆固醇更危险

岐黄传人孙大夫
2026-01-18 06:00:03
深圳一学校未落实随机分班,家长要求下学期整改,教育局回应

深圳一学校未落实随机分班,家长要求下学期整改,教育局回应

解说阿洎
2026-01-19 15:28:11
大批人开始返乡!很多老人已经感觉到:不出5年农村会越来越热闹

大批人开始返乡!很多老人已经感觉到:不出5年农村会越来越热闹

三农雷哥
2026-01-05 19:36:11
起风了!特朗普邀60国建群取代联合国,中方想加入,需缴10亿美元

起风了!特朗普邀60国建群取代联合国,中方想加入,需缴10亿美元

兰妮搞笑分享
2026-01-19 19:04:34
苏州年会上跳舞的那位小姐姐,身份曝光了,又是一个女销冠

苏州年会上跳舞的那位小姐姐,身份曝光了,又是一个女销冠

皮蛋儿电影
2026-01-18 07:53:48
A股首份年报出炉!002107,业绩大增!

A股首份年报出炉!002107,业绩大增!

证券时报e公司
2026-01-19 22:37:29
100个盟友也不怕?中方亮明底线,奉陪到底!

100个盟友也不怕?中方亮明底线,奉陪到底!

碧珠映红香
2026-01-20 03:29:45
华润集团高层交棒进入倒计时

华润集团高层交棒进入倒计时

大嘴説
2026-01-19 10:35:18
美专家:中国人不可怕,可怕的是他们买光刻机却不是用来生产芯片

美专家:中国人不可怕,可怕的是他们买光刻机却不是用来生产芯片

肖兹探秘说
2026-01-14 20:41:32
今日入四九,老话“四九晴一日,寡妇要发愁”,四九天晴啥说法?

今日入四九,老话“四九晴一日,寡妇要发愁”,四九天晴啥说法?

周哥一影视
2026-01-20 05:11:10
至今未婚未育,每日养鸡种菜捡鸡蛋,38岁的他才是真正的人间清醒

至今未婚未育,每日养鸡种菜捡鸡蛋,38岁的他才是真正的人间清醒

林雁飞
2026-01-19 19:29:38
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
太突然!李晨官宣结婚,夫妻合照曝光,全网恭喜,终于等到这一天

太突然!李晨官宣结婚,夫妻合照曝光,全网恭喜,终于等到这一天

风信子的花
2026-01-19 14:56:18
2026-01-20 06:36:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6929文章数 546关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

艺术
亲子
本地
旅游
健康

艺术要闻

瑞典艺术大师,佐恩人物作品精选19幅

亲子要闻

宝妈必学,孩子不懂对侵犯说不,任何人都有可能是坏人!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

旅游要闻

别只盯着二月!南京梅花山早梅抢先登场,实拍画面每一帧都美哭

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版