网易首页 > 网易号 > 正文 申请入驻

模型偏好只与大小有关?全面解析人类与32种大模型偏好的定量组分

0
分享至

在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。

尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析,以了解不同来源的偏好数据是如何由各种预定义属性(如无害,幽默,承认局限性等)定量组成的。

进行的分析有如下特点:


  • 注重真实应用:研究中采用的数据均来源于真实的用户 - 模型对话,更能反映实际应用中的偏好。

  • 分场景建模:对属于不同场景下的数据(如日常交流,创意写作)独立进行建模分析,避免了不同场景之间的互相影响,结论更清晰可靠。

  • 统一框架:采用了一个统一的框架解析人类与大模型的偏好,并且具有良好的可扩展性。


该研究发现:


  • 人类用户对模型回复中错误之处的敏感度较低,对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的回复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有错误,表达清晰且安全无害的回复。

  • 尺寸接近的大模型会展现出相似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。

  • 基于偏好的评估可以被有意地操纵。鼓励待测模型以评估者喜欢的属性进行回复可以提高得分,而注入最不受欢迎的属性则会降低得分。



图 1:人类,GPT-4-Turbo 与 LLaMA-2-70B-Chat 在 “日常交流” 场景下的偏好解析结果,数值越大代表越偏好该属性,而小于 50 则表示对该属性的厌恶。

本项目已经开源了丰富的内容与资源:


  • 可交互式演示:包含了所有分析的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以进行定量分析。

  • 数据集:包含了本研究中所收集的用户 - 模型成对对话数据,包括来自真实用户以及多达 32 个大模型的偏好标签,以及针对所定义属性的详细标注。

  • 代码:提供了收集数据所采用的自动标注框架及其使用说明,此外也包括了用于可视化分析结果的代码。




  • 论文:https://arxiv.org/abs/2402.11296

  • 演示:https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization

  • 代码:https://github.com/GAIR-NLP/Preference-Dissection

  • 数据集:https://huggingface.co/datasets/GAIR/preference-dissection


方法介绍

该研究收集了来自 ChatbotArena Conversations 数据集中大量来自真实应用中的成对用户 - 模型对话数据。每个样本点由一个用户问询与两个不同的模型回复组成。研究者们首先收集了人类用户与不同大模型在这些样本上的偏好标签,其中人类用户的标签已经包含在所选用的原始数据集内,而 32 个选用的开源或闭源的大模型的标签则由研究者额外进行推理与收集。

该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架,为所有的模型回复标注了它们在预先定义的 29 个属性上的得分,随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”,例如回复 A 的无害性得分高于回复 B,则该属性的比较特征为 + 1,反之则为 - 1,相同时为 0。

利用所构建的比较特征与收集到的二元偏好标签,研究者们可以通过拟合贝叶斯线性回归模型的方式,以建模比较特征到偏好标签之间的映射关系,而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。

由于该研究收集了多种不同来源的偏好标签,并进行了分场景的建模,因而在每个场景下,对于每个来源(人类或特定大模型),都能够得到一组偏好到属性的定量分解结果。


图 2:分析框架的总体流程示意图

分析结果

该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出,人类对错误的敏感程度显著低于 GPT-4-Turbo,且厌恶承认局限性而拒绝回答的情形。此外,人类也对迎合自己主观立场的回复表现出明显的偏好,而并不关心回复中是否纠正了问询中潜在的错误。与之相反,GPT-4-Turbo 则更注重回复的正确性,无害性与表达的清晰程度,并且致力于对问询中的模糊之处进行澄清。


图 3:人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性


图 4:人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度,值接近 50 代表不敏感。

此外,该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度,可以发现当按照参数量(<14B 或 > 30B)进行划分时,组内相似度(0.83,0.88)明显高于组间相似度(0.74),而按照其他因素划分时则没有类似的现象,表明大模型的偏好很大程度上决定于其尺寸,而与训练方式无关。


图 5:不同大模型(包括人类)之间偏好的相似程度,按参数量排列。

另一方面,该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致,而变化仅发生在表达偏好的强度上,即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。


图 6:大模型在对齐微调前后的偏好变化情况

最后,该研究发现,通过将人类或大模型的偏好定量分解到不同的属性,可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上,通过非训练(设置系统信息)与训练(DPO)的方式注入评估者(人类或大模型)的偏好的属性均可显著提升分数,而注入不受偏好的属性则会降低得分。


图 7:对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果

总结

本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应,对错误不太敏感;而高性能大模型则更重视正确性、清晰性和无害性。研究还表明,模型大小是影响偏好组分的一个关键因素,而对其微调则影响不大。此外,该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵,表明了基于偏好评估的不足。研究团队还公开了所有研究资源,以支持未来的进一步研究。

本文转载自机器之心

以赛辅练,更进一步提升专业能力,这个竞赛千万别错过!

天津市未来与预测科学研究会、中国未来研究会大数据与数学模型专业委员会联合发起的第三届中国高校大数据挑战赛正在报名中!


竞赛信息

为了促进高校大学生实际应用技能的提高,着眼于未来,培养具有创新能力和实践能力的大数据人才,推动大数据的产学研用,探索大数据的核心科学与技术,提升高校毕业生的就业竞争力。经研究决定,天津市未来与预测科学研究会、中国未来研究会大数据与数学模型专业委员会联合发起2023年第三届中国高校大数据挑战赛

竞赛报名方式

扫描下方二维码进行报名:


或复制下方链接进行报名:

https://www.saikr.com/vse/bdc/2023?ces=public

参赛对象

大赛面向中国及境外在校学生(包括研究生、本科生和专科生)以队为单位参赛,具体要求如下

● 可以自由组队参赛,每个参赛队伍人数可为1–3人;参赛队员必须全部为在校生;允许跨年级、跨专业、跨校组队;各院校参赛人数不限。

● 每支队伍允许最多有一名指导老师,指导教师须为在职高校教师。

大赛福利

1.等级奖项:

全国一等奖(约10%

全国二等奖(约20%

全国三等奖(约30%

优秀奖(若干):成功提交论文的队伍即可获得。

以上奖项均可获得纸质证书

获奖证书冠名为“2023年第三届中国高校大数据挑战赛”荣誉证书,同时加盖中国未来研究会大数据与数学模型专业委员会和天津市未来与预测科学研究会的公章。

2.组织单位类:

优秀组织单位

优秀组织社团

优秀指导教师

获得组织类称号的高校教师或组织,颁发主办方中国未来研究会大数据与数学模型专业委员会和天津市未来与预测科学研究会官方盖章的纸质版证书。

3.专属课程

组委会为所有报名选手提供竞赛专属免费课程,特邀高校优秀数据处理老师主讲。报名成功后专属课程将自动关联报名账号!


4.直播讲座

组委会将于比赛开始前邀请领域内的专家学者老师,为大家举办线上公开讲座,详细地介绍比赛的准备技巧以及比赛需要的数据处理相关知识,具体时间将在开课前通知。

时间安排

报名时间:

即日起至2024年3月8日

竞赛时间:

2024年3月9日8:00至2024年3月12日20:00

成绩公布时间:

2024年4月30日前

大赛交流

组委会官方QQ:3021243298

联系电话&微信:19822023486(王老师)

竞赛交流QQ群号:701790781

BONUS TIME

数学建模资料、视频讲解、历年赛题

后台回复 【校苑】领取


推荐阅读(点击下方图片即可跳转)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗总统坠机遇难,伊朗对华态度或发生转变,沙伊和解或成泡影

伊朗总统坠机遇难,伊朗对华态度或发生转变,沙伊和解或成泡影

基斯默默
2024-05-21 15:44:37
新东方:教唆46名孩子说谎,赴美被拒签,践踏诚信,别想再来了

新东方:教唆46名孩子说谎,赴美被拒签,践踏诚信,别想再来了

大风文字
2024-05-21 06:44:20
全球最大云计算公司暂停采购英伟达“超级芯片” 原因竟是升级太快

全球最大云计算公司暂停采购英伟达“超级芯片” 原因竟是升级太快

财联社
2024-05-22 00:34:11
799克黄金被制成挎包链条入境被查,网友:神操作

799克黄金被制成挎包链条入境被查,网友:神操作

三月柳
2024-05-20 15:20:54
历史重演..李哥曾因无力偿还3200万失去米兰所有权,结束中资时代

历史重演..李哥曾因无力偿还3200万失去米兰所有权,结束中资时代

直播吧
2024-05-21 11:46:16
NBA本季最佳防守二阵:卡鲁索、霍乐迪、杰登、萨格斯、怀特

NBA本季最佳防守二阵:卡鲁索、霍乐迪、杰登、萨格斯、怀特

懂球帝
2024-05-22 02:31:07
原来森林北也是二婚。还有个女儿

原来森林北也是二婚。还有个女儿

琼瑶史事
2024-05-19 19:01:44
泰国高僧通灵劳荣枝冤魂:与法子英前世是苦命鸳鸯,再轮回需1000年

泰国高僧通灵劳荣枝冤魂:与法子英前世是苦命鸳鸯,再轮回需1000年

古今档案
2024-05-18 11:31:51
禁停“电鸡”,三元里出现了退租潮...

禁停“电鸡”,三元里出现了退租潮...

广州楼市发布
2024-05-21 21:01:51
以太坊狂飙近20%,价格一度超3700美元!比特币突破7.1万美元!港交所现货ETF走强:三只以太币STF涨超19%

以太坊狂飙近20%,价格一度超3700美元!比特币突破7.1万美元!港交所现货ETF走强:三只以太币STF涨超19%

和讯网
2024-05-21 12:22:15
给《我是歌手》十位“候选歌手”实力排个名,孙楠第5,韩红第2

给《我是歌手》十位“候选歌手”实力排个名,孙楠第5,韩红第2

皮皮电影
2024-05-21 09:22:10
美国彻底摊牌了!6国首脑接连遭遇暗杀!

美国彻底摊牌了!6国首脑接连遭遇暗杀!

大国观察眼
2024-05-22 00:41:57
王心刚:泪目!一路好好走!再无国民第一男神,93岁与病妻爱65年

王心刚:泪目!一路好好走!再无国民第一男神,93岁与病妻爱65年

娱乐圈阿榨
2024-05-21 10:34:13
夺冠仅1天,英超冠军遭指控!3种处罚方式曝光:降级+被剥夺奖杯

夺冠仅1天,英超冠军遭指控!3种处罚方式曝光:降级+被剥夺奖杯

侃球熊弟
2024-05-20 21:00:28
历史首人!文班亚马新秀赛季入选最佳防守一阵

历史首人!文班亚马新秀赛季入选最佳防守一阵

直播吧
2024-05-22 02:18:13
博主声称小米派人堵家门口,不删微博就折腾他父母

博主声称小米派人堵家门口,不删微博就折腾他父母

映射生活的身影
2024-05-21 13:18:19
中俄天然气管道,非绕道哈萨克斯坦,中国一步妙棋,给了普京大礼

中俄天然气管道,非绕道哈萨克斯坦,中国一步妙棋,给了普京大礼

吕喆有话说
2024-05-21 08:53:20
安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

一个人讲故事
2024-05-05 21:46:11
汪峰官宣恋情,章子怡、葛荟婕赢麻了!小苹果力挺宇宙超可爱妈妈

汪峰官宣恋情,章子怡、葛荟婕赢麻了!小苹果力挺宇宙超可爱妈妈

旧梦影看世界
2024-05-21 14:23:25
黄奇帆:海南不可能超过香港,因为香港有10条致胜法宝无人超越!

黄奇帆:海南不可能超过香港,因为香港有10条致胜法宝无人超越!

蓝色海边
2024-05-21 18:43:36
2024-05-22 03:46:44
数学家
数学家
服务于数学建模爱好者的平台
3562文章数 1909关注度
往期回顾 全部

科技要闻

小鹏一季度营收65.5亿,经营亏损16.5亿

头条要闻

美媒:莱希之死基本为小哈梅内伊接替父亲职位铺平道路

头条要闻

美媒:莱希之死基本为小哈梅内伊接替父亲职位铺平道路

体育要闻

兄弟们,为了我,拿下冠军吧!

娱乐要闻

杨洋乔欣聊天记录曝光!还牵扯张天爱

财经要闻

中植系的销售,不退40亿被抓了

汽车要闻

四排八座纯电MPV/续航超过800km 翼真L380开启预订

态度原创

健康
艺术
旅游
数码
游戏

在中国,到底哪些人在吃“伟哥”?

艺术要闻

挖掘艺术界未来的璀璨星辰 | 莱俪青年艺术奖获奖艺术家邓启鹏

旅游要闻

四川广元男子拍到会呼吸的泉水 反复涌出又消失

数码要闻

芝奇将于 2024 台北电脑展推出内存与外设新品、举办年度超频活动

PS伦敦工作室发文告别:我们经历了疯狂而美妙的旅程

无障碍浏览 进入关怀版