网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了!

这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。

但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2(Bard)排位大比拼

谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。

而它的具体表现如何?

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。

在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。

从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。

Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。

另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。

然而,PaLM 2与较弱的模型对弈时,表现较差。

在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之,研究人员发现,与评估过的其他模型相比,Google Cloud Vertex API现有的PaLM 2存在以下缺陷:

- PaLM 2受到更严格的监管,影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中,PaLM 2遇到不确定或不愿回答的问题时,与其他模型相比,更有可能放弃回答。

粗略估计,在所有的配对战中,PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是,有30.8%比赛输给了不是Top 4的模型。

这也能够解释,为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时,也反映出聊天机器人竞技场方法论的一个缺陷,因为随意用户更有可能因为微妙的不准确回答,而惩罚弃权行为。

下面,研究者提供几个失败的案例,说明PaLM 2如何输给弱聊天机器人。

另外,研究者注意到,有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中,看到了一些不受欢迎的趋势:

- PaLM 2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗?」

「为什么天空是蓝的?」

多语言能力有限

PaLM 2倾向于不回答非英语问题,包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称,无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外,UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实,在非英语排行榜上,PaLM 2排名第16。

推理能力很弱

研究人员称,并没有发现PaLM 2有着强大的推理能力。

一方面,它似乎可以检测问题是否是「纯文本」的,并且倾向于拒绝回答不是纯文本的问题,例如编程语言、调试和代码解释中的问题。

另一方面,与其他聊天机器人相比,PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题,竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话,并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名,不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名还相对靠前。

与巨量参数大型模型相比,这些较小的模型同样表现良好。

由此,研究人员推测,高质量的预训练,以及微调数据集比模型规模更重要。

然而,较大的模型在更复杂的推理任务,或回答更细微的问题时仍有可能表现得更好。

因此,在预训练和微调阶段管理高质量的数据集,似乎是缩小模型规模的同时,保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外,Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM(Large Language Model)的聊天机器人进行「真实环境」的基准测试。

这意味着,用户提供的投票数据和在投票过程中生成的提示-回答,反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符,后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

参考资料:

https://lmsys.org/blog/2023-05-25-leaderboard/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
面向变了!67岁倪萍朝天鼻、脸馒化,谈儿子沉迷游戏被劝退学

面向变了!67岁倪萍朝天鼻、脸馒化,谈儿子沉迷游戏被劝退学

丁隗解说
2026-03-06 19:38:08
补时绝杀!榜首易主:沙特豪门登顶,疯狂13连胜,C罗争冠有戏

补时绝杀!榜首易主:沙特豪门登顶,疯狂13连胜,C罗争冠有戏

足球狗说
2026-03-08 05:04:04
薛之谦好友再爆张杰猛料,二胎本想生龙凤胎,但因抠门生了俩闺女

薛之谦好友再爆张杰猛料,二胎本想生龙凤胎,但因抠门生了俩闺女

西楼知趣杂谈
2026-03-05 18:39:17
河南一男子带无标识充电宝上火车被拦,当场情绪失控摔打充电宝导致瞬间起火,被行政处罚

河南一男子带无标识充电宝上火车被拦,当场情绪失控摔打充电宝导致瞬间起火,被行政处罚

环球网资讯
2026-03-08 08:58:55
畸形审美?这4位男演员长相平平,却总当主角演帅哥,实在不理解

畸形审美?这4位男演员长相平平,却总当主角演帅哥,实在不理解

泪满过眼
2026-02-25 05:03:57
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
伊朗网红吐槽中国网民,他们都太好战了,根本不懂战争的残酷

伊朗网红吐槽中国网民,他们都太好战了,根本不懂战争的残酷

新游戏大妹子
2026-03-05 12:59:52
当年三千多块的安卓手机,如今沦为59元的“电子垃圾”!

当年三千多块的安卓手机,如今沦为59元的“电子垃圾”!

数码眯眯眼
2026-03-05 18:04:07
京东外卖血亏百亿,刘强东开始止损

京东外卖血亏百亿,刘强东开始止损

新浪财经
2026-03-08 08:33:42
伊朗总统最新发声,宣布重要消息

伊朗总统最新发声,宣布重要消息

新民周刊
2026-03-07 18:26:59
央行狂买黄金,释放什么信号?

央行狂买黄金,释放什么信号?

格隆汇
2026-03-08 09:55:05
薛之谦秒了谢娜张杰!福西西根部纹女友头像!

薛之谦秒了谢娜张杰!福西西根部纹女友头像!

八卦疯叔
2026-03-08 11:54:34
陈秀英:百岁妈妈,因近亲结婚生下3个“猴娃”,50年没出过村子

陈秀英:百岁妈妈,因近亲结婚生下3个“猴娃”,50年没出过村子

雍亲王府
2026-01-25 09:30:03
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
张兰汪小菲彻底闹掰!曝身世揭离婚内幕太心寒

张兰汪小菲彻底闹掰!曝身世揭离婚内幕太心寒

观察鉴娱
2026-03-07 10:32:26
大S儿女抚养费缩水10倍!小杨阿姨在北京租房待工,呼吁大家帮她

大S儿女抚养费缩水10倍!小杨阿姨在北京租房待工,呼吁大家帮她

古希腊掌管松饼的神
2026-03-07 18:02:12
三分命中率联盟第一!肯纳德成湖人最大惊喜 东契奇鼓励他多出手

三分命中率联盟第一!肯纳德成湖人最大惊喜 东契奇鼓励他多出手

罗说NBA
2026-03-08 06:24:44
天啊!看到陈红1996年新婚的闺房照,才懂陈凯歌为啥说一见钟情

天啊!看到陈红1996年新婚的闺房照,才懂陈凯歌为啥说一见钟情

好贤观史记
2026-03-02 16:47:20
大批美国游客涌入中国,打着采购的幌子,真实目的竟让美国难堪?

大批美国游客涌入中国,打着采购的幌子,真实目的竟让美国难堪?

小玡说故事
2026-03-06 14:45:37
得知最小的儿子在苏联夭折,毛主席:贺子珍不走,绝不会发生这事

得知最小的儿子在苏联夭折,毛主席:贺子珍不走,绝不会发生这事

大运河时空
2026-03-08 15:25:03
2026-03-08 16:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14669文章数 66667关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

媒体:伊朗用"穷人巡航导弹"反击美以 美盟友闻之色变

头条要闻

媒体:伊朗用"穷人巡航导弹"反击美以 美盟友闻之色变

体育要闻

大伤后被交易,他说:22岁的我已经死了

娱乐要闻

周迅新恋情曝光,李亚鹏等人已成过去

财经要闻

油价要失控?

汽车要闻

9分钟充饱 全新腾势Z9GT首搭闪充技术26.98万起

态度原创

本地
数码
游戏
亲子
公开课

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

数码要闻

微软和英伟达联手丢“王炸”!所有游戏玩家都能用上光追了?

曝NS2开发机门槛降低 但老任不希望粗制滥造游戏泛滥

亲子要闻

3岁女儿突然关心爸爸,原来是另有目的,小小年纪一肚子心眼

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版