网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

2024-05-27 14:33:41　来源: 量子位

北京举报

0

分享至

克雷西发自凹非寺
量子位 | 公众号 QbitAI

比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。

该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。

而且与DPO相比，训练时间和GPU消耗也都大幅减少。

这种方法叫做SimPO，Sim是Simple的简写，意在突出其简便性。

与DPO相比，SimPO摆脱了对参考模型的需要，在简化训练流程的同时，还避免了训练和推理不一致的问题。

对于这项成果，普林斯顿PLI主任Sanjeev Arora教授这样称赞：

和（SimPO方法调整出的）模型聊天感觉让人难以置信。
Llama3-8B是现在最好的小模型，SimPO把它变得更好了。

成果发布并开源后，大模型微调平台Llama-Factory也迅速宣布引进。

摆脱对参考模型的需要

陈丹琦团队的SimPO，和斯坦福提出的DPO一样，都是对RLHF中的奖励函数进行优化。

在传统的RLHF中，奖励函数通常由一个独立的奖励模型提供，需要额外的训练和推理；DPO利用人类偏好和模型输出之间的关系，直接用语言模型的对数概率来构建奖励函数，绕开了奖励模型的训练。

而和DPO相比，SimPO只基于当前优化的模型π_θ进行设计，完全摆脱了对参考模型π_ref的依赖。

具体来说，SimPO采用了长度归一化的对数概率作为奖励函数。

其中，β是一个正的缩放系数，|y|表示回复y的token长度，πθ(y|x)表示当前语言模型πθ生成回复y的概率。

对数概率是衡量生成质量的常用指标，较高的对数概率意味着在当前模型看来，这个回复是高质量、自然、连贯的。

因此，这种奖励方式可以让模型生成的回复更加符合自身已有知识。

长度归一化则是指，在函数当中，奖励值除以了回复长度|y|，起到了“惩罚”过长回复的作用。

这样做的原因是语言模型倾向于生成更长的文本，因为每个额外的token都会为总对数概率做贡献，但过长的回复往往会降低可读性和信息密度。

除以长度相当于计算平均每个token的对数概率，鼓励模型用尽可能简洁的方式表达完整的信息。

消融实验结果也证实，如果不进行长度归一化，模型很容易利用长度偏差，只有在生成文本较长时才有较好的表现。

除了使用对数概率和长度归一化，SimPO还引入了奖励差异项（公式中的γ）对目标函数进行改进。

引入γ相当于给正负样本的差异设定了一个阈值，主要目的就是加强优化信号，促使模型学习更加鲜明地区分正负样本。

在标准的Bradley-Terry损失中，只要正样本的奖励略高于负样本，损失就会很低，导致模型对正负样本的区分不够清晰；加入γ项后，模型必须使正样本的奖励明显高于负样本，才能取得较好的优化效果。

当然如果γ过大则可能会给优化带来困难，导致训练不稳定或收敛速度变慢，作者通过实验比较了不同γ值的效果，最终发现γ在0.8到1.6之间时SimPO可以取得最佳表现。

总体的消融实验结果表明，长度归一化和奖励差异项的引入都是让SimPO表现进一步提升的关键，无论是在AlpacaEval 2还是Arena-Hard当中，缺少两项技术中的任意一项，都会造成表现下降。

那么，SimPO的具体表现究竟怎样呢？

表现超越各种“PO”，还让8B模型战胜Claude 3

作者首先在AlpacaEval 2基准上对SimPO调整后的Llama3-Instruct-8B模型和榜单上的先进模型进行了比较。

该测试的主要指标是Win Rate及加入长度控制（LC）后的Win Rate，即模型的回答被评判者认为比GPT-4 Turbo（1106）更好的比例（这里评判者也是GPT4-Turbo）。

结果，SimPO调整后的8B模型，表现已经超过了Claude 3的超大杯Opus；和DPO相比，胜率也有10%左右的提升。

接着，作者又用AlpacaEval 2、Arena-Hard和MT-Bench基准，将SimPO的实际效果与一些其他PO进行了对比。

其中Arena-Hard与AlpacaEval 2类似都是比较胜率，但前者任务难度更大，需要多步推理和专业知识，此外baseline也换成了GPT4-0314。

MT-Bench则是一个多语言理解评测基准，评价方式是直接打分，裁判是GPT-4和GPT-4-Turbo。

参与比较的其他PO如下表所示，其中ORPO和SimPO一样都没有使用参考模型。

结果，在Arena-Hard与AlpacaEval 2上，调整Mistral-7B和Llama3-8B两种模型时，无论是Base还是Instruct版本，SimPO的效果都显著优于DPO等其他方式。

在MT-Bench测试当中，GPT-4-Turbo也都把最高分打给了SimPO，GPT-4给出的成绩中SimPO也与最高分十分接近。

另外SimPO的开销也大幅减少，在8块H100上，SimPO调整Llama3-8B的时间为60分钟，比DPO减少了20%；GPU消耗峰值为69GB，也比DPO少了10%。

但同时，作者也指出了SimPO还存在一些不足：

一是未明确考虑安全性和诚实性，采用的奖励函数主要关注了模型的表现，需要进一步加强安全措施；
二是在GSM8k等需要密集推理的任务，特别是数学问题上的表现有所下降，未来会考虑集成一些正则化策略进行改进。

有网友也指出，让一个8B模型取得超越Claude3-Opus的胜率，一定会有过拟合的现象出现。

对此作者表示确实存在这种可能，但也强调，在单独一个标准上成绩比Claude高，并不意味着全面超越，比如在Arena-Hard上的表现就不如Claude。

不过无论如何，SimPO创新性运用到的长度归一化和奖励差异项，都可以给大模型从业者带来新的启发。

论文地址：
https://arxiv.org/abs/2405.14734

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

机器之心Pro 2024-03-07 16:00:01
10 跟贴 10
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
1 跟贴 1

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

量子位 2024-03-04 16:53:32
0 跟贴 0

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
0 跟贴 0
长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

机器之心Pro 2024-04-11 14:33:11
0 跟贴 0

醉弈，看似迷离恍惚，实则胸中自有丘壑，蕴含着深邃的智慧与策略

大兵的农村日常生活 2024-06-14 16:17:43
0 跟贴 0

娇兰卖780的护肤品实验样本只有11人？“写进论文都得挨导师俩嘴巴子”

Vista氢商业 2024-06-14 12:48:22
5 跟贴 5
男生做完实验发现食堂已下班食堂大叔单独为男生下厨网友这一刻幸福具象化了

焦点新聚焦 2024-06-15 23:58:00
0 跟贴 0

俄罗斯威风凛凛的要发射核弹

炮哥自驾游全国 2024-06-17 12:29:03
1031 跟贴 1031
娇兰爆款产品，实验样本只有11个人......网友：这是不是有点太草率了？

都市快报橙柿互动 2024-06-15 10:41:16
1 跟贴 1
答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思

机器之心Pro 2024-06-17 15:54:46
0 跟贴 0
女子看到勾股定理模型，这简直太生动形象了吧！

民生热点社 2024-06-13 16:39:22
689 跟贴 689
尽管这项实验很危险，女人还是想继续尝试

晓剑说影 2024-06-14 12:01:10
0 跟贴 0
给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

量子位 2024-02-01 14:46:45
0 跟贴 0
铁头日本回来后开始去微博总部维权，要求微博解封他的账号

映射生活的身影 2024-06-17 09:22:35
16527 跟贴 16527
国外网友热议从月球背面取回样本

歪果仁趣评z 2024-06-15 14:48:09
0 跟贴 0
宁德时代“896”奋斗100天？宁德时代内部员工：部分员工接到通知非全员强制

财联社 2024-06-17 14:54:34
19258 跟贴 19258
我军围岛策略奏效，“台独”苦诉，三日来无一船敢入台卸货

谢助 2024-06-16 04:30:14
0 跟贴 0
美军与胡塞武装在红海攻防美海军官员表示"扛不住了"

环球网资讯 2024-06-17 00:21:45
10905 跟贴 10905
拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

新智元 2024-06-17 13:23:23
7 跟贴 7
一哄而上，打不赢美国高科技

华商韬略 2024-03-14 10:07:05
4890 跟贴 4890
没想到模型的神奇之处这么厉害，男人捡到模型后从此变得衣食无忧

青扬电影本人 2024-06-16 12:05:54
0 跟贴 0
司令不吃小棋，军长不扛军旗，这是策略，这是艺术，

阿呆军棋 2024-06-13 10:36:18
0 跟贴 0
是什么影响了民营的信心？专家在回避最简单的事实

永不出场的戈多 2024-06-17 12:04:16
2610 跟贴 2610
乌军用西方武器轰击俄本土，俄罗斯报复策略曝光，或开启军备竞赛

东风送语 2024-06-17 13:59:00
2 跟贴 2
数学界的神级天才，用公式证明“神”的存在，被质疑绝非人类智慧

名扬大咖说 2024-06-16 08:23:21
0 跟贴 0
男人拥有一座玩具模型，模型能控制现实世界《一座小镇》

金乐说影 2024-06-16 18:35:00
0 跟贴 0
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
374 跟贴 374
传奇世界：欧皇幸存者偏差？非酋薛定谔的猫？何必纠结开心就好！

90小法师 2024-06-16 13:19:27
8 跟贴 8
因对华关系紧张印度损失150亿美元和10万个工作岗位

观察者网 2024-06-17 15:28:28
7475 跟贴 7475
谋定而后动！周五复议大战，民进党赢的策略居然是让蓝营无法投票

张友骅台湾 2024-06-17 16:57:58
0 跟贴 0
拿动物做实验应不应该，我们不能总站在，道德制高点去批判

小辛说 2024-06-16 21:49:55
0 跟贴 0
一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

生物学霸 2024-01-18 18:06:29
0 跟贴 0
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
71 跟贴 71
男孩第一次玩“真言之口”沒想到伸错地方差点把模型“截瞎”听到撒谎会咬掉手被吓得一秒撒回

科教聚焦 2024-06-17 19:31:35
0 跟贴 0
411-中学数学竞赛题，解方程。难度系数五颗星！咋解

我服子佩 2024-06-17 00:20:48
0 跟贴 0
中国女排把波兰女排打崩溃 "新七仙女"阵容初步形成

上观新闻 2024-06-17 06:11:12
2104 跟贴 2104
网友：青岛一售楼处被业主围堵！每平15000多元跌至毛坯7000多

火山诗话 2024-06-17 06:08:53
4627 跟贴 4627
398-一道求值题，公式熟练，可迅速搞定

我服子佩 2024-06-14 20:59:36
1 跟贴 1
美女单手玩杂技，花样操作看呆网友，危险系数五颗星！

爱生活的陌 2024-06-17 09:42:55
0 跟贴 0

上海房价再次飙升，市民心情複雜

上海房价再次飙升，市民心情複雜

石辰搞笑日常

2024-06-17 19:21:49

A股：大家请做好心理充分的准备，明天市场接下来将这么走！

A股：大家请做好心理充分的准备，明天市场接下来将这么走！

兵哥闲聊

2024-06-17 16:48:34

江南造船厂内，13艘大型战舰同时动工，把美国甩在身后

江南造船厂内，13艘大型战舰同时动工，把美国甩在身后

说天说地说实事

2024-06-17 15:59:02

“中国首次将核弹头置于高度战备状态”

“中国首次将核弹头置于高度战备状态”

枢密院十号

2024-06-17 23:44:53

刘建超会见俄罗斯统一俄罗斯党主席梅德韦杰夫

刘建超会见俄罗斯统一俄罗斯党主席梅德韦杰夫

界面新闻

2024-06-17 19:23:40

他们是圈内最干净的情侣，14年无绯闻、无婚变，堪比神仙眷侣

他们是圈内最干净的情侣，14年无绯闻、无婚变，堪比神仙眷侣

兰兰爱音乐123

2024-06-16 21:51:50

凯特感到虚弱和疲惫，缺席嘉德节和赛马会，身体可能再次亮红灯

凯特感到虚弱和疲惫，缺席嘉德节和赛马会，身体可能再次亮红灯

红袖说事

2024-06-17 20:04:38

越南海滩女游客裸泳，引起轩然大波，警方已介入

越南海滩女游客裸泳，引起轩然大波，警方已介入

越南语学习平台

2024-06-17 10:21:47

139元起！京东京造磁吸SSD上市：1000MB/s、支持4K ProRes视频录制

139元起！京东京造磁吸SSD上市：1000MB/s、支持4K ProRes视频录制

快科技

2024-06-15 15:06:28

白酒为什么不能冰镇之后喝？网友：在医院门口喝都赶不上趟

白酒为什么不能冰镇之后喝？网友：在医院门口喝都赶不上趟

奇特短尾矮袋鼠

2024-06-15 14:31:42

为啥说一个吹风机能顶老中医？看完网友分享，原来实用性被忽略了

为啥说一个吹风机能顶老中医？看完网友分享，原来实用性被忽略了

有趣的火烈鸟

2024-06-17 12:24:16

ASML掀老底：3nm芯片实际为23nm，1nm芯片是18nm?

ASML掀老底：3nm芯片实际为23nm，1nm芯片是18nm?

互联网.乱侃秀

2024-06-16 14:14:18

生育率是怎么崩成这样的?

曹多鱼的财经世界

2024-06-17 09:34:50

方舟子打假姜萍称可以肯定她压根不懂高等数学！惹怒网友被喷

方舟子打假姜萍称可以肯定她压根不懂高等数学！惹怒网友被喷

糖逗在娱乐

2024-06-17 23:03:50

新型炸鹅无人艇问世，够俄罗斯人喝几壶！

新型炸鹅无人艇问世，够俄罗斯人喝几壶！

凡事一定有办法13119

2024-06-17 12:43:45

台湾问题根本不是武统与和统的问题了，而是以下这两方面问题

台湾问题根本不是武统与和统的问题了，而是以下这两方面问题

星辰故事屋

2024-05-24 20:01:38

竞争激烈，媒曝已经有7座城市申办18强赛国足比赛，长沙有机会吗

竞争激烈，媒曝已经有7座城市申办18强赛国足比赛，长沙有机会吗

尘语者

2024-06-17 17:39:14

再见朱婷！恭喜王云蕗！中国女排总决赛14人换血，曝蔡家军3进5出

再见朱婷！恭喜王云蕗！中国女排总决赛14人换血，曝蔡家军3进5出

二哥聊球

2024-06-17 16:09:11

英特尔入股东莞立讯技术公司

每日经济新闻

2024-06-17 17:52:09

4大惊人暗示浮现！39岁C罗逆袭？或包揽欧洲杯冠军+金球奖

4大惊人暗示浮现！39岁C罗逆袭？或包揽欧洲杯冠军+金球奖

念洲

2024-06-14 22:32:15

追踪人工智能动态

9542文章数 175383关注度

往期回顾全部

科技要闻

为什么你的iPhone，肯定用不上"苹果AI"？

头条要闻

瑞典智库称中国核弹头数量增加总数达500枚中方回应

头条要闻

瑞典智库称中国核弹头数量增加总数达500枚中方回应

体育要闻

飞翔的斗牛士如今也迎来最后一舞

娱乐要闻

上影节红毯：倪妮好松弛，娜扎吸睛

财经要闻

人均养老金上调3% 怎么年轻人吵翻了？

汽车要闻

传奇新篇章全新一代大众迈腾来了

态度原创

家居

亲子

教育

游戏

旅游

家居要闻

研己实景古典与现代的交融

亲子要闻

弟弟用力掐姐姐的脸，姐姐一声不吭看了一眼妈妈，站起来一顿操作

教育要闻

【地理专题】沙漠中的绿洲，高考地理中的“沙”

黄月英一橙带两紫，三国谋定天下这样的组合也能轻松开荒毫无压力

旅游要闻

游客放狗进赛里木湖追天鹅，景区回应！

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版