网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸

2024-05-20 15:21:11　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan

【新智元导读】最公平的大模型基准测试诞生了！来自LLM竞技场，最接近人类偏好，数据新鲜、速度快、成本低，严格分离学渣和学霸。

大模型排行榜哪家强？还看LLM竞技场~

截至此刻，已有共计90名LLM加入战斗，用户总投票数超过了77万。

然而，在网友们吃瓜调侃新模型冲榜、老模型丧失尊严的同时，

人家竞技场背后的组织LMSYS，已经悄悄完成了成果转化：从实战中诞生的最有说服力的基准测试——Arena-Hard。

而Arena-Hard所展现出的四项优势，也正是当前的LLM基准测试最需要的：

-可分离性（87.4%）明显优于MT-bench（22.6%）； -与Chatbot Arena的排名最相近，达到89.1%； -运行速度快，价格便宜（25美元） -频繁更新实时数据

中译中一下就是，首先这个大模型的考试要有区分度，不能让学渣也考到90分；

其次，考试的题目应该更贴合实际，并且打分的时候要严格对齐人类偏好；

最后一定不能泄题，所以测试数据要经常更新，保证考试的公平；

——后两项要求对于LLM竞技场来说，简直像是量身定做。

我们来看一下新基准测试的效果：

上图中将Arena Hard v0.1，与之前的SOTA基准测试MT Bench进行了比较。

我们可以发现，Arena Hard v0.1与MT Bench相比，具有更强的可分离性（从22.6%飙升到了87.4%），并且置信区间也更窄。

另外，看下这个排名，与下面最新的LLM竞技场排行榜是基本一致的：

这说明Arena Hard的评测非常接近人类的偏好（89.1%）。

——Arena Hard也算是开辟了众包的新玩法：

网友获得了免费的体验，官方平台获得了最有影响力的排行榜，以及新鲜的、高质量的数据——没有人受伤的世界完成了。

给大模型出题

下面看下如何构建这个基准测试。

简单来说，就是怎么从竞技场的20万个用户提示（问题）中，挑出来一些比较好的。

这个「好」体现在两方面：多样性和复杂性。下图展示了Arena-Hard的工作流：

总结一波：首先对所有提示进行分类（这里分了4000多个主题），然后人为制定一些标准，对每个提示进行打分，同一类别的提示算平均分。

得分高的类别可以认为复杂性（或者质量）高——也就是Arena-Hard中「Hard」的含义。

选取前250个得分最高的类别（250保证了多样性），每个类别随机抽2位幸运提示，组成最终的基准测试集（500 prompts）。

下面详细展开：

多样性

研究人员首先使用OpenAI的text-embedding-3-small转换每个提示，使用UMAP减少维度，并使用基于分层的聚类算法（HDBSCAN）来识别聚类，然后使用GPT-4-turbo进行汇总。

复杂性

通过下表的七个关键标准来选择高质量的用户查询：

1.提示是否要求提供特定的输出？ 2.是否涵盖一个或多个特定领域？ 3.是否具有多个级别的推理、组件或变量？ 4.是否直接让AI展示解决问题的能力？ 5.是否涉及一定程度的创造力？ 6.是否要求响应的技术准确性？ 7.是否与实际应用相关？

对于每个提示，使用LLM（GPT-3.5-Turbo、GPT-4-Turbo）标注其满足了多少个标准（打分0到7），然后，计算每组提示（聚类）的平均分数。

下图展示了部分聚类的平均分排序：

我们可以观察到，得分较高的聚类通常是比较有挑战性的主题（比如游戏开发、数学证明），而分数较低的聚类则属于琐碎或模棱两可的问题。

有了这个复杂性，就可以拉开学霸与学渣之间的差距，我们看下面的实验结果：

在上面的3个比较中，假设GPT-4比Llama2-70b强、Claude的大杯比中杯强，Mistral-Large比Mixtral强，

我们可以看到，随着（复杂性）分数的增加，更强的模型的胜率也在提高——学霸获得区分、学渣获得过滤。

因为分数越好高（问题越复杂），区分度越好，所以最终选取了250 个平均得分>=6分（满分7分）的高质量分类。

然后，随机抽取每个类别的2个提示，形成了这版基准测试—— Arena-Hard-v0.1。

判卷老师靠谱吗？

试卷出完了，谁来判卷是个问题。

人工当然是最准的，而且因为这是「Hard模式」，很多涉及领域知识的问题还需要专家前来评估——这显然不行。

那么退而求其次，选择目前公认的最聪明的模型GPT-4来当判卷老师。

比如上面的那些图表中，涉及打分的环节，都是交给GPT-4来做的。另外，研究人员使用CoT提示LLM，在做出判决之前先生成答案。

GPT-4 判出的结果

下面使用gpt-4-1106-preview作为判断模型，用于比较的基线采用gpt-4-0314。

上表中比较并计算了每个模型的Bradley-Terry系数，并转换为相对于基线的胜率作为最终分数。95%置信区间是通过100轮引导计算得出的。

克劳德表示不服

——我Claude-3 Opus也是排行榜并列第一啊，凭啥让GPT当判卷老师？

于是，研究人员比较GPT-4-1106-Preview和Claude-3 Opus作为判卷老师的表现。

一句话总结：GPT-4是严父，Claude-3是慈母。

当使用GPT-4打分时，跨模型的可分离性更高（范围从23.0到78.0）。

而当使用Claude-3时，模型的得分大多都提高了不少：自家的模型肯定要照顾，开源模型也很喜欢（Mixtral、Yi、Starling），gpt-4-0125-preview也确实比我更好。

Claude-3甚至爱gpt-3.5-0613胜过gpt-4-0613。

下表使用可分离性和一致性指标进一步比较了GPT-4和Claude-3：

从结果数据来看，GPT-4在所有指标上都明显更好。

通过手动比较了GPT-4和Claude-3之间的不同判断示例，可以发现，当两位LLM意见不一致时，通常可以分为两大类：

保守评分，以及对用户提示的不同看法。

Claude-3-Opus在给分时比较宽容，给出苛刻分数的可能性要小得多——它特别犹豫是否要宣称一个回答比另一个回答「好得多」。

相比之下，GPT-4-Turbo会识别模型响应中的错误，并以明显较低的分数惩罚模型。

另一方面，Claude-3-Opus有时会忽略较小的错误。即使Claude-3-Opus确实发现了这些错误，它也倾向于将它们视为小问题，并在评分过程中非常宽容。

即使是在编码和数学问题中，小错误实际上会完全破坏最终答案，但Claude-3-Opus仍然对这些错误给予宽大处理，GPT-4-Turbo则不然。

对于另外一小部分提示，Claude-3-Opus和GPT-4-Turbo以根本不同的角度进行判断。

例如，给定一个编码问题，Claude-3-Opus倾向于不依赖外部库的简单结构，这样可以为用户提供最大教育价值的响应。

而GPT-4-Turbo可能会优先考虑提供最实用答案的响应，而不管它对用户的教育价值如何。

虽然这两种解释都是有效的判断标准，但GPT-4-Turbo的观点可能与普通用户更接近。

有关不同判断的具体例子，参见下图，其中许多都表现出这种现象。

局限性测试

LLM喜欢更长的回答吗？

下面绘制了在MT-Bench和Arena-Hard-v0.1上，每个模型的平均token长度和分数。从视觉上看，分数和长度之间没有很强的相关性。

为了进一步检查潜在的冗长偏差，研究人员使用GPT-3.5-Turbo对三种不同的系统提示（原始、健谈、详细）进行了消融。

结果表明，GPT-4-Turbo和Claude-3-Opus的判断都可能受到更长输出的影响，而Claude受到的影响更大（因为GPT-3.5-Turbo对GPT-4-0314的胜率超过40%）。

有趣的是，「健谈」对两位裁判的胜率影响不大，这表明输出长度不是唯一的因素，更详细的答案也可能受到LLM评委的青睐。

实验使用的提示：

detailed: You are a helpful assistant who thoroughly explains things with as much detail as possible. chatty: You are a helpful assistant who is chatty.

GPT-4 判断的方差

研究人员发现，即使温度=0，GPT-4-Turbo仍可能产生略有不同的判断。

下面对gpt-3.5-turbo-0125的判断重复三次并计算方差。

由于预算有限，这里只对所有模型进行一次评估。不过作者建议使用置信区间来确定模型分离。

参考资料：

https://lmsys.org/blog/2024-04-19-arena-hard/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

实至名归的坦克兵种！《英雄无敌3》输出最为强大的6级兵

游戏之灵 2024-06-02 21:30:02
6 跟贴 6
提前选好装备备战下半年3A大作

MG搞机荟 2024-06-02 16:58:30
0 跟贴 0

轻松一刻：你这是想要出发去哪里？

莱月昂 2024-05-29 23:17:04
8 跟贴 8

泽连斯基走上讲台发言记者们纷纷起立举起相机拍照

征垣之路 2024-06-02 16:41:45
30822 跟贴 30822
永远的小平（62）| 邓小平提到的百年大计是什么？老同志要让，要认真地选接班人，否则搞“四化”只能

看度新闻 2024-06-02 09:00:37
600 跟贴 600

不想炸薯条的Ilya和不送GPU的英伟达，Hinton最新专访：道路千万条，安全第一条

新智元 2024-06-02 12:34:14
0 跟贴 0

嫦娥六号着陆月背南极-艾特肯盆地

央视新闻客户端 2024-06-02 06:46:29
24773 跟贴 24773
若孤立我们的趋势不变，我们可能会面临很大的麻烦

罗sir职话 2024-06-02 11:51:25
10544 跟贴 10544

“中华经典通识”6月讲堂丨理解《红楼梦》人物的三个维度

zhjuzhen 2024-06-01 18:16:54
1 跟贴 1
中国女排0比3不敌意大利队世界排名被日本女排超越

澎湃新闻 2024-06-02 20:50:31
10568 跟贴 10568
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
1 跟贴 1
家长：恢复八十年代的教材刻不容缓，现在的教材简直乱来！

李老师讲最真教育 2024-06-02 16:18:10
806 跟贴 806
Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

量子位 2024-05-26 15:58:07
0 跟贴 0
她曾是重庆最美的高考状元，如今当上央视主持人，42岁依然单身

橘子大娱社 2024-05-31 16:45:03
75 跟贴 75
家长带女孩在田地里学插秧孩子情绪崩溃跳起来坐在田里哭

直击新鲜事 2024-06-02 09:30:32
8458 跟贴 8458
机构回应教官多次将男孩头按进水里

点时新闻 2024-06-02 18:29:26
143 跟贴 143
SPSS详细教程：Cox回归中，分类变量的PH假定检验

医咖会 2024-05-29 19:30:56
1 跟贴 1
COMPUTEX 2024：NVIDIA AI连环招，游戏原来可以这么玩

爱极物 2024-06-03 01:54:53
0 跟贴 0
多地市委书记晋升副省长候补中央委员跨省履新

鲁中晨报 2024-06-02 08:03:07
227 跟贴 227
马斯克脑机接口公司首位"用户"：80%设备已脱落，生活被颠覆了

爱范儿 2024-06-01 12:08:17
139 跟贴 139
引发观众现场痛哭，淘宝宠物行为艺术展单日参观人数破万

金羊网 2024-06-02 14:14:07
24117 跟贴 24117
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
391 跟贴 391
拜登同意乌克兰有限使用美制武器打击俄领土

新华社 2024-06-01 09:36:44
13715 跟贴 13715
武器虽然发光了，就是这属性有点不太正经

《大话西游2》电脑版 2024-06-02 18:08:25
5 跟贴 5
安东尼·约书亚透露会在9月重返拳台，但仍然没有排除和维尔德比赛

搏击视野 2024-06-02 21:49:54
47 跟贴 47
体检时这5项指标正常，恭喜你，身体基本无碍！真正达标的人不多

39健康网 2024-06-02 22:30:02
1 跟贴 1
伊朗前总统内贾德登记参选总统

界面新闻 2024-06-02 15:35:08
5893 跟贴 5893
中国75比68澳大利亚评分：一人满分两将不合格，分卫线力挽狂澜

撒丁岛体育 2024-06-03 00:15:59
3 跟贴 3
小升初不管成绩有多好，到初中后的第一次考试，基本都会被打击到

好爸育儿 2024-05-30 14:07:49
94 跟贴 94
乌军摧毁俄军在别尔哥罗德的导弹发射器，两天不到，形势开始逆转

山河路口 2024-06-02 20:21:22
3245 跟贴 3245
硕士答辩看到一篇非常惊喜的论文，网友直呼：求导师分享全文

TOP大学来了 2024-06-02 14:31:09
11 跟贴 11
他们到底接受了怎样的教育？加沙人的三观震碎你，你还会同情她吗

狗剩说电影 2024-06-02 14:14:56
4184 跟贴 4184
晨意帮忙丨“滴滴滴”怪声每半分钟响一次！长沙女子求支招：到底哪来的？

潇湘晨报 2024-06-02 21:44:11
2021 跟贴 2021
「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

机器之心Pro 2024-03-07 15:09:59
0 跟贴 0
价格大跳水!上海很多人爱吃商家:从未见过如此大降价

新闻坊 2024-06-02 15:29:16
347 跟贴 347
地方政府贷款买自己的地，目前未被当作金融风险，背后藏巨大的雷

爆角追踪 2024-06-02 16:58:51
3609 跟贴 3609
创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

DeepTech深科技 2024-04-26 15:48:38
0 跟贴 0
比亚迪卖疯了！5月新能源车卖了超33万辆！赛力斯也发布了成绩单

每日经济新闻 2024-06-02 17:10:07
2346 跟贴 2346
广大烟民撑起上海税收，

爆角追踪 2024-06-02 15:55:49
4162 跟贴 4162
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
68 跟贴 68

手段堪比梁安琪，改名字获公公认可，还成功帮助丈夫拿到千亿资产

手段堪比梁安琪，改名字获公公认可，还成功帮助丈夫拿到千亿资产

圈里的甜橙子

2024-06-03 02:35:16

24岁小伙约45岁大妈开房，偷拍整个过程，大妈：一辈子都会有阴影

24岁小伙约45岁大妈开房，偷拍整个过程，大妈：一辈子都会有阴影

青史录

2023-09-19 19:03:40

951万粉丝抖音大号大蓝被禁止关注

951万粉丝抖音大号大蓝被禁止关注

鞭牛士

2024-05-31 23:20:15

医院的这项检查，不要反复做，做一次，致癌风险或高43％

医院的这项检查，不要反复做，做一次，致癌风险或高43％

医者真言

2024-05-31 17:21:18

最高院：私家车无偿搭载他人发生交通事故，车主要赔偿搭乘人吗？

最高院：私家车无偿搭载他人发生交通事故，车主要赔偿搭乘人吗？

周军律师聊案子

2024-06-02 10:01:09

极端高温下，印度大选今日结束：至少19名选举官员被热死

极端高温下，印度大选今日结束：至少19名选举官员被热死

红星新闻

2024-06-01 17:29:17

格局？郑钦文拒将出局归咎误判！怒斥裁判：在大满贯犯错不能接受

格局？郑钦文拒将出局归咎误判！怒斥裁判：在大满贯犯错不能接受

我爱英超

2024-06-02 06:56:43

马斯特爆料：西方转投氢能，将大力开发氢能车！我国点错科技树？

马斯特爆料：西方转投氢能，将大力开发氢能车！我国点错科技树？

简读视觉

2024-06-01 13:56:22

沈阳地铁疑因社保断缴惹保洁人员维权？中标公司：部分人员属于合法退休年龄正在沟通合理补偿建议

沈阳地铁疑因社保断缴惹保洁人员维权？中标公司：部分人员属于合法退休年龄正在沟通合理补偿建议

红星新闻

2024-06-02 21:20:05

尴尬1.8亿三兄弟现在只有年龄最大的姆巴佩还没有欧冠

尴尬1.8亿三兄弟现在只有年龄最大的姆巴佩还没有欧冠

直播吧

2024-06-02 06:16:54

湖南大妈大闹六一活动后续：带走接受调查，网友为她孙子感到惋惜

湖南大妈大闹六一活动后续：带走接受调查，网友为她孙子感到惋惜

娱乐小可爱蛙

2024-06-02 18:21:22

为何中国人现在活得越来越累？

清晖有墨

2024-05-16 06:20:51

莫言：一个人最大的悲哀，就是轻易向别人透露着这4 个隐私，很蠢

莫言：一个人最大的悲哀，就是轻易向别人透露着这4 个隐私，很蠢

历史微鉴

2024-05-04 18:53:09

中国女排惨败朱婷再上热搜！全场高呼蔡斌下课，排协社媒被攻陷

中国女排惨败朱婷再上热搜！全场高呼蔡斌下课，排协社媒被攻陷

元爸体育

2024-06-02 23:18:54

山东小伙结婚当天，新娘长相显老引误会，网友：不是显老，是真老

山东小伙结婚当天，新娘长相显老引误会，网友：不是显老，是真老

户外小阿隋

2024-06-02 06:29:13

闹大了！董明珠称：打工人想要休闲可以辞职，王自如评论区沦陷

闹大了！董明珠称：打工人想要休闲可以辞职，王自如评论区沦陷

阿平爱生活23

2024-06-02 13:00:37

国家终于出手了！5个综艺节目被强制停播，没有一个值得同情

国家终于出手了！5个综艺节目被强制停播，没有一个值得同情

娱乐的小灶

2024-06-01 19:02:34

庆余年2收官！6位演员被赞，2位演员被嘲，佟梦实成最大赢家

庆余年2收官！6位演员被赞，2位演员被嘲，佟梦实成最大赢家

糊咖娱乐

2024-05-31 16:07:00

白玉兰入围名单：人情冷暖、论资排辈，在王阳身上体现得淋漓尽致

白玉兰入围名单：人情冷暖、论资排辈，在王阳身上体现得淋漓尽致

娱乐圈笔娱君

2024-05-31 16:18:12

中甲最新积分榜:2-0！2-5！大连翻车，广州狂轰5球，重庆四连胜！

中甲最新积分榜:2-0！2-5！大连翻车，广州狂轰5球，重庆四连胜！

阿牛体育说

2024-06-03 02:01:53

AI产业主平台领航智能+时代

11110文章数 65532关注度

往期回顾全部

游戏要闻

《星空》幕后有大动作或为大型升级或DLC

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒左腿粉碎性骨折

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒左腿粉碎性骨折

体育要闻

从0-1到2-1！石宇奇绝地反击逆转队友李诗沣，豪夺赛季第3冠

娱乐要闻

白玉兰提名：胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力问界暂"缺席"

科技要闻

黄仁勋：2026年将推下代GPU架构平台Rubin

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

艺术

数码

教育

旅游

公开课

艺术要闻

穿越时空的艺术：《马可·波罗》AI沉浸影片探索人类文明

数码要闻

华硕 ROG 宣布 6 月 3 日直播发布新幻 16 Air 笔记本与外设新品

教育要闻

TTS新传高级名词解释：关联资本主义｜平台is watching you!!!

旅游要闻

武侯祠开启“时光机”穿越到“那些年”

公开课

近视只是视力差？小心并发症

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版