网易首页 > 网易号 > 正文 申请入驻

大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

说起现如今训大模型的核心方法,RLHF是绕不开的话题。

RLHF,即基于人类反馈的强化学习,无论是ChatGPT还是开源的LLaMA都离不开它。

但其中的“H”却是一大瓶颈,因为收集高质量的人类反馈实在是太难了。

那能不能交给AI来做呢?的确有人就这么干了,但能否替代RLHF一直没有定论,直到Google进行了这项研究。

在一篇新发布的arXiv论文中,Google将RLAIF训练出的模型在文本总结上的表现与RLHF做了比较。

RLAIF用AI来代替RLHF中的人类,完成生成反馈的工作,让大模型训练不再受制于人类的局限

在训练后的人类评价中,人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别

甚至在一些细节上,RLAIF的表现还要优于RLHF。

有AI工程师转发了这篇论文并评论说,到GPT-5的时候可能就不再需要人类数据标注员了。

在介绍详细的评测结果之前,我们不妨先来看看RLAIF的工作流程。

用LLM生成反馈数据

其实RLAIF和RLHF差不多,就是把人换成了AI,从字面上也能看出来。

所以重点自然而然地来到了生成反馈内容上。

研究人员首先让AI在两个答案中进行选择以获得反馈。

为了避免随机性问题,会进行多次选择,其间还会对选项的顺序进行交换。

其中还用到了思维链(CoT)的推理模式,以获取更好的回答。

此外,为了提高LLM的自我一致性,这一过程并非直接二选一,而是分别给两个答案打分,相加为1。

这套流程走下来的prompt和输出大概是酱婶儿的:

举个例子:

有了这些数据,就可以拿来训练奖励模型,进而预测出偏好分数了。

接着, 利用训练好的奖励模型,研究人员让目标模型进行强化学习。

与其他模型常用的PPO(Proximal Policy Optimization)算法不同,RLAIF采用的是更为简单有效的修改版A2C(Advantage Actor Critic)算法。

当然,也可以不训练奖励模型,直接用AI生成的标注数据进行强化学习。

实际上,团队得到的标注数据集比奖励模型规模更大也更好用,但考虑这样消耗的计算成本太高,还是选择了奖励模型。

到这里大模型的“课程”就已经学完了,不过要想“毕业”的话还得再经历一场“考试”才行。

“考试”一共包括下面的三项内容:

  • AI Labeler Alignment:AI偏好相对于人类偏好的精确程度
  • Pairwise Accuracy:训练好的奖励模型与人类偏好数据集的匹配程度
  • Win Rate:人类在RLAIF和RLHF生成结果之间的倾向性

经过这样一番测试之后,强化学习终于大功告成。

那么,“AI教出来的学生”成绩究竟怎么样呢?

测试效果可以与RLHF媲美

研究团队找来了1200名人员,在对SFT(基线监督微调)、RLHF、RLAIF以及真人给出的答案从优质到劣质进行排序。

以SFT方式作为基线,RLHF和RLAIF的Win Rate均超过了70%,也就是说人类对这两种方式的倾向程度是SFT的将近三倍。

虽然RLHF的表现略胜于RLAIF,但两者的差距并不明显。

而若以RLHF作为参照,RLAIF的Win Rate则是50%,说明人类对两者的倾向程度是一样的。

有趣的是,两种RL训练出的模型给的结果都远远胜过了真人直接给出的答案。

RLAIF相对于真人的Win Rate高达79%,而RLHF是80%,即倾向性是真人答案的四倍。

此外,在对输出内容进行仔细评估之后,研究人员还发现RLAIF训练出的模型出现幻觉的概率比RLHF更低,逻辑和语法错误也更少。

One More Thing

不过对于RLAIF,也有网友发现了华点:

拿来生成反馈的模型不也是用RLHF训练出来的吗?

而另一边,RLHF的过程当中,也不能排除有的人在用AI“偷懒”的可能。

或许“你中有我,我中有你”才是两种方式测试结果这么接近的原因吗?

论文地址:
https://www.arxiv.org/abs/2309.00267

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史上最佳!瓜帅封神:英超4连冠+15年12夺联赛冠军,缔造5大神迹

史上最佳!瓜帅封神:英超4连冠+15年12夺联赛冠军,缔造5大神迹

侃球熊弟
2024-05-20 00:51:10
内阁成员下最后通牒欲“退群”,内塔尼亚胡迅速驳回!以战时内阁面临解体风险

内阁成员下最后通牒欲“退群”,内塔尼亚胡迅速驳回!以战时内阁面临解体风险

红星新闻
2024-05-19 18:58:15
1965年,一张罕见合影,李鹏总理和两个儿子李小鹏、李小勇

1965年,一张罕见合影,李鹏总理和两个儿子李小鹏、李小勇

麦田历史说
2024-04-06 19:17:44
三连号奇迹!一等奖6注,分落5地!双色球24056期开奖,遍地开花

三连号奇迹!一等奖6注,分落5地!双色球24056期开奖,遍地开花

小宇宙双色球
2024-05-20 12:36:19
微软宣布停止向俄罗斯客户提供服务

微软宣布停止向俄罗斯客户提供服务

亡海中的彼岸花
2024-05-18 16:27:56
在你来之前我就是冠军啦!格拉利什:我3冠,哈兰德2冠,哈哈哈哈

在你来之前我就是冠军啦!格拉利什:我3冠,哈兰德2冠,哈哈哈哈

小豆豆赛事
2024-05-20 02:28:34
刚刚,这场最关键的战役,我们已经赢了!

刚刚,这场最关键的战役,我们已经赢了!

一个坏土豆
2024-05-18 20:02:10
北京海淀区中海富华里被投诉存在多个问题 相关部门要求开发商严格按合同施工

北京海淀区中海富华里被投诉存在多个问题 相关部门要求开发商严格按合同施工

天天财经116
2024-05-20 11:52:30
伊朗总统专机失联,前任总统内贾德有望重出江湖,对美手腕强硬

伊朗总统专机失联,前任总统内贾德有望重出江湖,对美手腕强硬

叮当当科技
2024-05-20 10:10:17
官方:金度勋担任韩国队临时主帅,6月11日带队对阵中国队

官方:金度勋担任韩国队临时主帅,6月11日带队对阵中国队

直播吧
2024-05-20 12:18:21
沸腾了,A股突发两消息,高层再出王炸利好,这个方向彻底爆了!

沸腾了,A股突发两消息,高层再出王炸利好,这个方向彻底爆了!

静守时光落日
2024-05-20 15:00:18
他被开除党籍

他被开除党籍

锡望
2024-05-07 11:16:24
闹大了!广东又一主力球员出走,31+4锋线今夏落户广东,老朱点赞

闹大了!广东又一主力球员出走,31+4锋线今夏落户广东,老朱点赞

宝哥精彩赛事
2024-05-20 13:03:03
后续!“胖猫”事件不予立案,“钱是自己给的,桥是自己跳的”

后续!“胖猫”事件不予立案,“钱是自己给的,桥是自己跳的”

汉史趣闻
2024-05-19 16:19:26
森林狼更衣室狂欢曝光:华子大笑怒吼+康利激动快哭了 全队加练太拼

森林狼更衣室狂欢曝光:华子大笑怒吼+康利激动快哭了 全队加练太拼

开心体育站
2024-05-20 13:03:44
中央军委、国防部接连发声,官媒重磅起底,让真相大白于天下

中央军委、国防部接连发声,官媒重磅起底,让真相大白于天下

政知新媒体
2024-05-17 18:46:18
你的贫穷是被设计好的,社会需要大量穷人!

你的贫穷是被设计好的,社会需要大量穷人!

鹿和犀
2024-05-04 20:48:38
南京阿姨10元“手冲咖啡”火了!

南京阿姨10元“手冲咖啡”火了!

鲁中晨报
2024-05-20 14:43:06
我国统一强音刚落,赖清德向大陆喊话,美启动对台重大军事合作?

我国统一强音刚落,赖清德向大陆喊话,美启动对台重大军事合作?

天生搬砖人
2024-05-20 11:25:07
国乒3消息:肖战力挺王曼昱,张雪峰为她发话,马琳支持奥运女单

国乒3消息:肖战力挺王曼昱,张雪峰为她发话,马琳支持奥运女单

阿信点评
2024-05-19 18:01:40
2024-05-20 16:56:49
量子位
量子位
追踪人工智能动态
9413文章数 175287关注度
往期回顾 全部

科技要闻

在印尼启用"星链"后 马斯克又考虑建电池厂

头条要闻

副部级"老虎"任上被查 曾任江苏最年轻地级市市委书记

头条要闻

副部级"老虎"任上被查 曾任江苏最年轻地级市市委书记

体育要闻

8年半,讲不出再见

娱乐要闻

王俊凯现身蔡依林演唱会,牵手唱歌!

财经要闻

韵达快递乱象:管理以罚代管 新政落地难

汽车要闻

智驾升级/月底上市 问界新M7 MAX焕新版

态度原创

游戏
房产
数码
手机
亲子

《漫威终极逆转》Steam国区上线 网易游戏发行

房产要闻

突然爆发!大量重磅宅地挂出,海南土地市场开始狂飙!

数码要闻

技嘉电竞雕 X Z790 主板来袭,下单即送技嘉灵鹰 H1 游戏耳机

手机要闻

小米 Redmi Turbo 3“镜瓷白”真机亮相:正面白色面板视效

亲子要闻

宝宝不小心把妈妈碗碰碎了,接下来的表情亮了

无障碍浏览 进入关怀版