网易首页 > 网易号 > 正文 申请入驻

训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式

0
分享至

新智元报道

编辑:好困

【新智元导读】最近,来自马里兰、三星和南加大的研究人员提出了一种利用LLM自动识别和删除低质量数据的数据选择策略——AlpaGasus,不仅在测试中优于原始的Alpaca,而且训练速度更快。

近期,指令微调(IFT)已经被作为预训练大语言模型(LLMs)获得指令遵循能力的关键训练阶段。

然而,广泛使用的IFT数据集(例如,Alpaca的52k数据)却包含许多质量低下的实例,这些实例带有错误或无关的回应,对IFT产生了误导和不利影响。

先前的处理方法主要依靠人工筛选这些低质量数据,但这既费时费力,又难以扩展。

因此,如何以高效、自动化的方式过滤出这些低质量数据,成为提升LLM微调效果的关键所在。

现在,来自马里兰大学,三星和南加大的研究人员提出了一种有效的数据过滤策略,使用强大的LLM(例如,ChatGPT)自动识别和移除低质量数据,以改善指令微调(IFT)的效果。

论文地址:https://arxiv.org/abs/2307.08701

项目地址:https://lichang-chen.github.io/AlpaGasus/

在这项工作中,研究者提出的模型AlpaGasus,使用从52k Alpaca数据中过滤出来的9k高质量数据进行微调。

AlpaGasus在多个测试集上显著优于原始的Alpaca,其13B版本甚至在测试任务上的表现超过了90%的教师模型(即,Text-Davinci-003)。

并且,AlpaGasus在训练时间上也实现了5.7倍的提升,将7B版本的训练时间从80分钟缩短到了14分钟。

更少数据,训练更强「羊驼」

具体来说,研究者利用强大的LLM(如ChatGPT)自动评估每个(指令,输入,回应)元组的质量,对 输入的各个维度如Accurac、He lpfulness进行打分,并过滤掉分数低于阈值的数据。

打分的prompt如下:

方法的pipeline如下:

实验部分

在实验部分,作者使用了一组全面且多样化的测试集对他们提出的语言模型AlpaGasus进行了评估。

这个全面的评估集包含了来自Self-instruct、Vicuna、WizardLM和Koala的测试集。每一个测试集都提供了不同的指令,减少了评估偏差,提供了对AlpaGasus性能的全面概述。

作者们将AlpaGasus与四种最近的LLMs进行了比较:Alpaca、Text-Davinci-003、ChatGPT和Claude。

性能评估

对于性能的评估,作者们采用了GPT-4作为裁判来评估和比较不同模型对一组指令的回复。

为了解决GPT-4裁判的位置偏差,作者们对两种顺序(即,将AlpaGasus的回复置于基线模型的回复之前/之后)都进行了尝试,最终得分基于两次得分的「胜-平-负」准则。

结果分析

在结果部分,作者强调——数据的质量比数量更重要。

这一点通过AlpaGasus-9k与AlpaGasus-52k在所有测试集上的优异表现得到了证明,尽管前者使用的训练数据明显少于后者。

作者还将AlpaGasus-9k和使用从Alpaca数据集中随机挑选出9k数据训练的模型进行了对比。

为了研究阈值对IFT的影响,作者比较了AlpaGasus和在应用较低阈值(4.0)选出的39k数据上微调的LLaMA。

结果显示,只用9k高质量数据训练的模型会显著好于用39k质量一般数据训练的模型。

消融实验部分,作者从选出训练AlpaGasus的9k数据中随机抽取3k和6k数据,并使用相同的训练脚本从LLaMA微调两个AlpaGasus的变体。

在所有四个测试集上,AlpaGasus在9k数据上的训练表现最好,这表明更多的高质量数据会导致更好的IFT模型。

细节评估

此外,作者还对AlpaGasus模型在WizardLM和Vicuna测试集的各项技能/类别进行了细致的评估。

首先,作者比较了AlpaGasus-7B(9k)和Alpaca-7B(52k)在WizardLM测试集上的表现。

结果显示,AlpaGasus在29项技能中的22项上表现得比Alpaca好或相同,但在剩余的7项技能,例如编程(如代码生成)方面,AlpaGasus并未表现出优势。

作者发现,这可能是由于在数据选择和过滤过程中,没有指定技能类别的比例,导致与编程相关的数据被过滤的比例(88.16%)比平均过滤比例(82.25%)高很多。因此,这导致编程技能比其他技能弱。

也就是说,在IFT中,保持训练数据在不同类别之间的多样性和平衡性非常重要。

接下来,作者进一步比较了AlpaGasus-13B(9k)和Alpaga-13B(52k)在WizardLM测试集上的表现。

其中,结果与7 B模型的观察结果一致,AlpaGasus在大多数技能上仍然优于Alpaca。

这表明,即使模型大小增加,数据质量仍然优于数据量。

在对Vicuna测试集的分析中,AlpaGasus-7B在大多数类别上,包括反事实、角色扮演、知识和通用等方面,都优于Alpaca-7B。而且,当基模型规模扩大时,这一结论仍然成立。

然后,作者比较了AlpaGasus、text-Davinci-003、ChatGPT和Claude。 结果显示,AlpaGasus-13B可以达到其教师模型text-Davinci-003 (text-Davinci-003被用来生成Alpaca-52k指令数据) 的90%的能力.

成本节约

在成本节约部分,作者比较了AlpaGasus和Alpaca的训练成本,考虑到在AWS上所需的计算费用。

对于7B模型,使用9k数据的AlpaGasus的训练成本为4.78美元,使用52k数据的Alpaca的训练成本为27.31美元。

对于13B模型,使用9k数据的AlpaGasus的训练成本为40.96美元,而使用52k数据的Alpaca的训练成本为225.28美元。

这显示出,作者的数据选择策略在模型规模扩大时,可以带来更显著的训练成本节约。

总结

本文提出的数 据过滤方法在可扩展性和自动化方面表现出显著的优势,证明了精心管理训练数据质 量可以带来IFT性能的显著提升以及计算成本的大幅节省。

数据选择和评估策略也可以广泛应用于其他的指令微调数据集和LLMs,为大语言模型的实际部署开辟了新的研究方向。

参考资料:

https://arxiv.org/abs/2307.08701

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A50,直线拉升!中国资产,集体爆发

A50,直线拉升!中国资产,集体爆发

证券时报
2026-05-01 10:52:07
地球已经装不下追觅这么牛的公司了

地球已经装不下追觅这么牛的公司了

老斯基财经
2026-04-30 11:05:19
奇葩!女子吐槽维修工都是男的,坦言自己害怕,反遭网友集体怒怼

奇葩!女子吐槽维修工都是男的,坦言自己害怕,反遭网友集体怒怼

谭谈社会
2026-05-01 14:01:32
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
最坏的情况还是来了,有国内航司开始取消中欧航班!

最坏的情况还是来了,有国内航司开始取消中欧航班!

鲁晓芙看欧洲
2026-04-30 22:50:35
上海多区突然出现街头马戏团?孩子哭闹着要买,已有人受骗…紧急提醒

上海多区突然出现街头马戏团?孩子哭闹着要买,已有人受骗…紧急提醒

上观新闻
2026-05-01 14:41:43
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
史上首次3-0被翻盘?名嘴热议潜在耻辱:詹姆斯历史地位恐受影响

史上首次3-0被翻盘?名嘴热议潜在耻辱:詹姆斯历史地位恐受影响

越岭寻踪
2026-05-01 06:45:59
尿酸危机,席卷中国

尿酸危机,席卷中国

DT商业观察
2026-04-29 11:59:38
68岁京城老炮“四宝子”大婚!妻子小其30多岁,发小加代家人缺席

68岁京城老炮“四宝子”大婚!妻子小其30多岁,发小加代家人缺席

观察鉴娱
2026-05-01 08:55:16
你离开两年他就好了!妈妈晒抑郁儿子日常,隔着屏幕都感觉窒息!

你离开两年他就好了!妈妈晒抑郁儿子日常,隔着屏幕都感觉窒息!

知晓科普
2026-05-02 06:05:14
埃安新标一出,年轻人刷屏说“这logo我先囤个壁纸”

埃安新标一出,年轻人刷屏说“这logo我先囤个壁纸”

沙雕小琳琳
2026-05-01 02:13:24
泽连斯基拒绝美俄5月9日停火协议,俄乌“非洲军团”激战马里

泽连斯基拒绝美俄5月9日停火协议,俄乌“非洲军团”激战马里

史政先锋
2026-05-01 21:21:18
雷军很努力,小米还是跌破了30港元大关

雷军很努力,小米还是跌破了30港元大关

正经社
2026-05-02 07:28:54
领导平江起义的滕代远,建国后为何被逐渐边缘化?

领导平江起义的滕代远,建国后为何被逐渐边缘化?

星河逍遥游
2026-04-30 20:01:55
山东舰入坞近4个月,甲板线还是空着,歼35可能要上舰了

山东舰入坞近4个月,甲板线还是空着,歼35可能要上舰了

三叔的装备空间
2026-05-02 06:56:47
广东一配送员购买三万多个虚拟手机号领新人优惠券,两年骗超市41万元优惠补贴和32万元配送费,法院:构成诈骗罪,判有期徒刑十年十个月

广东一配送员购买三万多个虚拟手机号领新人优惠券,两年骗超市41万元优惠补贴和32万元配送费,法院:构成诈骗罪,判有期徒刑十年十个月

大风新闻
2026-05-02 08:17:07
大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

谈史论天地
2026-04-25 11:00:08
杜兰特正式确定无缘出战G6!火箭拖入抢七大战?KD届时或复出

杜兰特正式确定无缘出战G6!火箭拖入抢七大战?KD届时或复出

罗说NBA
2026-05-02 06:37:53
5月8日24时,国内成品油价格将迎调整

5月8日24时,国内成品油价格将迎调整

大象新闻
2026-05-01 20:42:11
2026-05-02 09:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15112文章数 66827关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

时尚
艺术
数码
房产
公开课

聪明女人衣服从来不买太多!这三种精品提前准备好,耐穿又实用

艺术要闻

画画的你绝不能错过!色块与笔触的激情之旅!

数码要闻

日本家电崩塌!索尼电视卖身中国厂商后 TCL CEO拜访并表态

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版