网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

训练14分钟，超越Alpaca！华人团队发布「飞天羊驼」，基于LLM的数据过滤新范式

2023-07-28 13:32:40　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：好困

【新智元导读】最近，来自马里兰、三星和南加大的研究人员提出了一种利用LLM自动识别和删除低质量数据的数据选择策略——AlpaGasus，不仅在测试中优于原始的Alpaca，而且训练速度更快。

近期，指令微调（IFT）已经被作为预训练大语言模型（LLMs）获得指令遵循能力的关键训练阶段。

然而，广泛使用的IFT数据集（例如，Alpaca的52k数据）却包含许多质量低下的实例，这些实例带有错误或无关的回应，对IFT产生了误导和不利影响。

先前的处理方法主要依靠人工筛选这些低质量数据，但这既费时费力，又难以扩展。

因此，如何以高效、自动化的方式过滤出这些低质量数据，成为提升LLM微调效果的关键所在。

现在，来自马里兰大学，三星和南加大的研究人员提出了一种有效的数据过滤策略，使用强大的LLM（例如，ChatGPT）自动识别和移除低质量数据，以改善指令微调（IFT）的效果。

论文地址：https://arxiv.org/abs/2307.08701

项目地址：https://lichang-chen.github.io/AlpaGasus/

在这项工作中，研究者提出的模型AlpaGasus，使用从52k Alpaca数据中过滤出来的9k高质量数据进行微调。

AlpaGasus在多个测试集上显著优于原始的Alpaca，其13B版本甚至在测试任务上的表现超过了90%的教师模型（即，Text-Davinci-003）。

并且，AlpaGasus在训练时间上也实现了5.7倍的提升，将7B版本的训练时间从80分钟缩短到了14分钟。

更少数据，训练更强「羊驼」

具体来说，研究者利用强大的LLM（如ChatGPT）自动评估每个（指令，输入，回应）元组的质量，对输入的各个维度如Accurac、He lpfulness进行打分，并过滤掉分数低于阈值的数据。

打分的prompt如下：

方法的pipeline如下：

实验部分

在实验部分，作者使用了一组全面且多样化的测试集对他们提出的语言模型AlpaGasus进行了评估。

这个全面的评估集包含了来自Self-instruct、Vicuna、WizardLM和Koala的测试集。每一个测试集都提供了不同的指令，减少了评估偏差，提供了对AlpaGasus性能的全面概述。

作者们将AlpaGasus与四种最近的LLMs进行了比较：Alpaca、Text-Davinci-003、ChatGPT和Claude。

性能评估

对于性能的评估，作者们采用了GPT-4作为裁判来评估和比较不同模型对一组指令的回复。

为了解决GPT-4裁判的位置偏差，作者们对两种顺序（即，将AlpaGasus的回复置于基线模型的回复之前/之后）都进行了尝试，最终得分基于两次得分的「胜-平-负」准则。

结果分析

在结果部分，作者强调——数据的质量比数量更重要。

这一点通过AlpaGasus-9k与AlpaGasus-52k在所有测试集上的优异表现得到了证明，尽管前者使用的训练数据明显少于后者。

作者还将AlpaGasus-9k和使用从Alpaca数据集中随机挑选出9k数据训练的模型进行了对比。

为了研究阈值对IFT的影响，作者比较了AlpaGasus和在应用较低阈值(4.0)选出的39k数据上微调的LLaMA。

结果显示，只用9k高质量数据训练的模型会显著好于用39k质量一般数据训练的模型。

消融实验部分，作者从选出训练AlpaGasus的9k数据中随机抽取3k和6k数据，并使用相同的训练脚本从LLaMA微调两个AlpaGasus的变体。

在所有四个测试集上，AlpaGasus在9k数据上的训练表现最好，这表明更多的高质量数据会导致更好的IFT模型。

细节评估

此外，作者还对AlpaGasus模型在WizardLM和Vicuna测试集的各项技能/类别进行了细致的评估。

首先，作者比较了AlpaGasus-7B(9k)和Alpaca-7B(52k)在WizardLM测试集上的表现。

结果显示，AlpaGasus在29项技能中的22项上表现得比Alpaca好或相同，但在剩余的7项技能，例如编程（如代码生成）方面，AlpaGasus并未表现出优势。

作者发现，这可能是由于在数据选择和过滤过程中，没有指定技能类别的比例，导致与编程相关的数据被过滤的比例（88.16%）比平均过滤比例（82.25%）高很多。因此，这导致编程技能比其他技能弱。

也就是说，在IFT中，保持训练数据在不同类别之间的多样性和平衡性非常重要。

接下来，作者进一步比较了AlpaGasus-13B(9k)和Alpaga-13B(52k)在WizardLM测试集上的表现。

其中，结果与7 B模型的观察结果一致，AlpaGasus在大多数技能上仍然优于Alpaca。

这表明，即使模型大小增加，数据质量仍然优于数据量。

在对Vicuna测试集的分析中，AlpaGasus-7B在大多数类别上，包括反事实、角色扮演、知识和通用等方面，都优于Alpaca-7B。而且，当基模型规模扩大时，这一结论仍然成立。

然后，作者比较了AlpaGasus、text-Davinci-003、ChatGPT和Claude。结果显示，AlpaGasus-13B可以达到其教师模型text-Davinci-003 (text-Davinci-003被用来生成Alpaca-52k指令数据) 的90%的能力.

成本节约

在成本节约部分，作者比较了AlpaGasus和Alpaca的训练成本，考虑到在AWS上所需的计算费用。

对于7B模型，使用9k数据的AlpaGasus的训练成本为4.78美元，使用52k数据的Alpaca的训练成本为27.31美元。

对于13B模型，使用9k数据的AlpaGasus的训练成本为40.96美元，而使用52k数据的Alpaca的训练成本为225.28美元。

这显示出，作者的数据选择策略在模型规模扩大时，可以带来更显著的训练成本节约。

总结

本文提出的数据过滤方法在可扩展性和自动化方面表现出显著的优势，证明了精心管理训练数据质量可以带来IFT性能的显著提升以及计算成本的大幅节省。

数据选择和评估策略也可以广泛应用于其他的指令微调数据集和LLMs，为大语言模型的实际部署开辟了新的研究方向。

参考资料：

https://arxiv.org/abs/2307.08701

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

佛得角对阵3个世界冠军90分钟不败

红星新闻 2026-07-04 08:11:01
12580 跟贴 12580
美媒：台富豪认为台海紧张局势正恶化资产涌向新加坡

澎湃新闻 2026-07-03 22:22:09
1538 跟贴 1538

泰山景区回应修建滚筒式刀片刺绳隔离铁丝网：与正常游览路线不交叉不重叠

北京日报客户端 2026-07-02 08:55:17
20308 跟贴 20308

船都绕着走，“再不治理迟早出大事”

中国新闻周刊 2026-07-04 19:46:11
2236 跟贴 2236
每周往返13小时，这位上海专家连续两年坚持周末回乡坐诊

上观新闻 2026-07-04 13:44:16
190 跟贴 190

多名演员发文抵制！业内人士：很悲哀，收入猛降八成，几乎成“免费劳动力”

浙江之声 2026-07-04 08:13:16
4478 跟贴 4478

当村里有条泉水经过，一大早人们都来水边洗衣服了

无限鹤壁 2026-07-04 21:03:32
45 跟贴 45
温网｜105胜与费德勒并列历史第一！艰难闯入十六强的德约半决赛或迎战辛纳

文汇报 2026-07-04 04:20:11
287 跟贴 287

佛得角主帅赛后发声惊叹不可思议：输球固然遗憾，但经历令人难以置信！

环球网资讯 2026-07-04 13:21:07
361 跟贴 361
美籍学者福山:不能排除"美国最终将领导地位让给中国"

澎湃新闻 2026-07-04 22:18:04
846 跟贴 846
张雪透露目前负债接近1亿：卖了一点股份，这个月会还清欠款

潇湘晨报 2026-07-04 15:49:48
3446 跟贴 3446
女子分享自己的家，干净明亮一尘不染跟新家一样

无限鹤壁 2026-07-02 22:46:08
396 跟贴 396
亚足联球队被“团灭”！资本、归化、大牌教练都拯救不了亚洲足球

红星新闻 2026-07-04 07:34:24
170 跟贴 170
纯电动商用车不再免征车船税，释放了什么信号？| 新京报快评

新京报评论 2026-07-04 12:59:42
129 跟贴 129
扛被褥走出校门的贵州女孩考出590分，正在温州打暑期工

上观新闻 2026-07-04 13:00:50
100 跟贴 100
佛得角驻华大使：感谢中国

澎湃新闻 2026-07-04 11:58:21
137 跟贴 137
网传“南宁邕江主航道开放水上运动”系曲解误读（2026·07·03）

今日辟谣 2026-07-03 18:49:10
58 跟贴 58
我国首架综合航测飞机首飞成功

新快报新闻 2026-07-04 18:33:13
226 跟贴 226
蒋方舟驳斥清华教授23项论文造假指控

闪存猎手 2026-07-05 01:53:41
0 跟贴 0
佛得角华人喊话希望能有中餐厅，佛得角华人称当地居民都爱吃中餐

潇湘晨报 2026-07-04 12:41:16
104 跟贴 104

“毕设作品快递中破损”新进展：当事人称快递公司愿意全额赔偿，但要求退回雕塑丨云投诉

“毕设作品快递中破损”新进展：当事人称快递公司愿意全额赔偿，但要求退回雕塑丨云投诉

封面新闻

2026-07-04 20:29:06

不结婚，怎么解决生理需求？58岁的歌唱家张也，给出了最佳回答

不结婚，怎么解决生理需求？58岁的歌唱家张也，给出了最佳回答

悦君兮君不知

2026-07-04 00:01:28

太惨了！夫妻省吃俭用三年为孩子教育砸下30万元，高考考了420分

太惨了！夫妻省吃俭用三年为孩子教育砸下30万元，高考考了420分

火山詩话

2026-07-04 16:03:24

国足天塌了！又一夜封神后，佛得角喊话中国足协，理由竟无法拒绝

国足天塌了！又一夜封神后，佛得角喊话中国足协，理由竟无法拒绝

笑一个吧

2026-07-04 21:03:31

中纪委怒批:公务员也是人，正常生活不应问责处理！

中纪委怒批:公务员也是人，正常生活不应问责处理！

细说职场

2026-06-24 10:55:30

马未都回应“被盗佛像疑似现身观复博物馆”：等待上级公布鉴定结果

马未都回应“被盗佛像疑似现身观复博物馆”：等待上级公布鉴定结果

澎湃新闻

2026-07-04 22:14:26

世界杯16强全部出炉，金球奖悬念已不大！将在以下9名球员中产生

世界杯16强全部出炉，金球奖悬念已不大！将在以下9名球员中产生

球场没跑道

2026-07-04 14:25:12

厄德高个人条款谈妥，枪手标价4000万欧

厄德高个人条款谈妥，枪手标价4000万欧

温柔且自由

2026-07-04 00:28:31

炸裂！捐精有多乱，双方直接在宾馆完成怀孕过程，一次八百到几万

炸裂！捐精有多乱，双方直接在宾馆完成怀孕过程，一次八百到几万

就一点

2026-06-02 15:45:51

世界杯16强格局：欧洲+美洲独占14席，亚洲球队全军覆没

世界杯16强格局：欧洲+美洲独占14席，亚洲球队全军覆没

橙汁的味道123

2026-07-04 11:32:26

世界杯16强全部产生，1/8决赛对阵赛程出炉，预测这8支球队进8强

世界杯16强全部产生，1/8决赛对阵赛程出炉，预测这8支球队进8强

第五才子

2026-07-04 12:07:15

还没服务过任何人，就先摆好了当老爷的姿态！

还没服务过任何人，就先摆好了当老爷的姿态！

胖胖说他不胖

2026-07-03 15:39:28

高考699分女孩报清华却被网暴，到底是谁在替她“不配”？

高考699分女孩报清华却被网暴，到底是谁在替她“不配”？

极目新闻

2026-07-04 09:49:07

中央决定：李孝振履新职

上观新闻

2026-07-04 10:42:48

怪不得这么难，全国大中型国企有2295家都在亏损，累计亏损超千亿

怪不得这么难，全国大中型国企有2295家都在亏损，累计亏损超千亿

黯泉

2026-06-24 11:33:53

已是无人不晓！佛得角主帅6月底采访时说：希望我们回家时人们会记得，佛得角参加过这届世界杯

已是无人不晓！佛得角主帅6月底采访时说：希望我们回家时人们会记得，佛得角参加过这届世界杯

鲁中晨报

2026-07-04 10:50:03

阿里亚斯一剑封喉，哥伦比亚1-0击败非洲劲旅，晋级世界杯16强

阿里亚斯一剑封喉，哥伦比亚1-0击败非洲劲旅，晋级世界杯16强

侧身凌空斩

2026-07-04 11:31:39

惨败日本后郭士强连夜换阵！赵继伟高诗岩被拿下？庞峥麟或成生死战奇兵

惨败日本后郭士强连夜换阵！赵继伟高诗岩被拿下？庞峥麟或成生死战奇兵

画夕

2026-07-05 00:58:57

“高考估分715查分299 女孩称试卷不是自己的”？四川绵阳市教体局核查：纯属谣言查无此人

“高考估分715查分299 女孩称试卷不是自己的”？四川绵阳市教体局核查：纯属谣言查无此人

闪电新闻

2026-07-02 12:26:25

印度人在南京水库被罚5000！放印度人入境不是错，错的是审核太松

印度人在南京水库被罚5000！放印度人入境不是错，错的是审核太松

世界地缘观察

2026-07-03 16:05:05

AI产业主平台领航智能+时代

15607文章数 66947关注度

往期回顾全部

科技要闻

韬定律论文V2版，充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走只剩30块

体育要闻

揭法国锋线最大优势有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控：450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光用上了长联屏设计/下半年上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

亲子

健康

家居

公开课

教育要闻

两个孩子拾金不昧，没想到换来全套练习题

亲子要闻

爷爷给一个月宝宝的科普小课堂：怎么预防近视？

听说少吃点能抗衰老？专家讲解！

家居要闻

传奇筑日常诗

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版