网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了!

这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。

但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2(Bard)排位大比拼

谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。

而它的具体表现如何?

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。

在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。

从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。

Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。

另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。

然而,PaLM 2与较弱的模型对弈时,表现较差。

在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之,研究人员发现,与评估过的其他模型相比,Google Cloud Vertex API现有的PaLM 2存在以下缺陷:

- PaLM 2受到更严格的监管,影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中,PaLM 2遇到不确定或不愿回答的问题时,与其他模型相比,更有可能放弃回答。

粗略估计,在所有的配对战中,PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是,有30.8%比赛输给了不是Top 4的模型。

这也能够解释,为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时,也反映出聊天机器人竞技场方法论的一个缺陷,因为随意用户更有可能因为微妙的不准确回答,而惩罚弃权行为。

下面,研究者提供几个失败的案例,说明PaLM 2如何输给弱聊天机器人。

另外,研究者注意到,有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中,看到了一些不受欢迎的趋势:

- PaLM 2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗?」

「为什么天空是蓝的?」

多语言能力有限

PaLM 2倾向于不回答非英语问题,包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称,无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外,UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实,在非英语排行榜上,PaLM 2排名第16。

推理能力很弱

研究人员称,并没有发现PaLM 2有着强大的推理能力。

一方面,它似乎可以检测问题是否是「纯文本」的,并且倾向于拒绝回答不是纯文本的问题,例如编程语言、调试和代码解释中的问题。

另一方面,与其他聊天机器人相比,PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题,竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话,并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名,不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名还相对靠前。

与巨量参数大型模型相比,这些较小的模型同样表现良好。

由此,研究人员推测,高质量的预训练,以及微调数据集比模型规模更重要。

然而,较大的模型在更复杂的推理任务,或回答更细微的问题时仍有可能表现得更好。

因此,在预训练和微调阶段管理高质量的数据集,似乎是缩小模型规模的同时,保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外,Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM(Large Language Model)的聊天机器人进行「真实环境」的基准测试。

这意味着,用户提供的投票数据和在投票过程中生成的提示-回答,反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符,后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

参考资料:

https://lmsys.org/blog/2023-05-25-leaderboard/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
粮食变革:专家在陕西发现的三株植物,改变了新一轮的粮食格局

粮食变革:专家在陕西发现的三株植物,改变了新一轮的粮食格局

森罗万象视频
2026-04-16 21:18:48
破防了!雷霆盘外招!在马刺酒店外放音乐!干扰休息!

破防了!雷霆盘外招!在马刺酒店外放音乐!干扰休息!

柚子说球
2026-05-31 08:12:16
神舟二十二号成功着陆!外壳被烧黑背后航天员经历了啥

神舟二十二号成功着陆!外壳被烧黑背后航天员经历了啥

霁寒飘雪
2026-05-31 14:46:36
孙颖莎最新采访情绪失控

孙颖莎最新采访情绪失控

最爱乒乓球
2026-05-31 05:03:43
56岁张嘉益现状,住西安大豪宅,二婚娶女演员,如今新剧获赞

56岁张嘉益现状,住西安大豪宅,二婚娶女演员,如今新剧获赞

娱说瑜悦
2026-05-13 15:25:22
买香菇刷医保、牙膏变“医保药”,国家医保局公布4起药店骗保典型案例

买香菇刷医保、牙膏变“医保药”,国家医保局公布4起药店骗保典型案例

上观新闻
2026-05-31 14:56:05
重庆一山体有大量巨石滚落阻断道路,交通委:塌方量超万方,抢通难度大

重庆一山体有大量巨石滚落阻断道路,交通委:塌方量超万方,抢通难度大

大象新闻
2026-05-31 14:51:15
用空调真的违法,六万人热死还不够,欧洲人宁可关学校也不装空调

用空调真的违法,六万人热死还不够,欧洲人宁可关学校也不装空调

探源历史
2026-05-30 01:34:19
359旅主任刘亚生被俘,胡宗南从军统调来女特务,下令今晚拿下他

359旅主任刘亚生被俘,胡宗南从军统调来女特务,下令今晚拿下他

磊子讲史
2026-05-29 14:42:20
网红狗被偷后续:男子被带走,老婆还在哺乳期,收狗人曝更多内情

网红狗被偷后续:男子被带走,老婆还在哺乳期,收狗人曝更多内情

阅微札记
2026-05-30 11:47:19
没人能再造一个中国,跑去东南亚的美国人,含泪把订单搬回了中国

没人能再造一个中国,跑去东南亚的美国人,含泪把订单搬回了中国

趣味萌宠的日常
2026-05-31 00:51:07
大妈和儿子住对门,老伴住院儿子忙没来,办出院看见熟悉身影愣住

大妈和儿子住对门,老伴住院儿子忙没来,办出院看见熟悉身影愣住

暖风吹过竹林
2026-05-30 10:30:32
油价大跌超500元/吨,今年“最大油价下跌”后,6月4日油价再大降

油价大跌超500元/吨,今年“最大油价下跌”后,6月4日油价再大降

油价早知道
2026-05-30 00:57:42
巴基斯坦专家曾言:这三场战争已验证,中国才是世界最强超级大国

巴基斯坦专家曾言:这三场战争已验证,中国才是世界最强超级大国

涵豆说娱
2026-05-11 21:30:51
"不能判刑,那就高额罚款!"

"不能判刑,那就高额罚款!"

回京历史梦
2026-05-29 18:31:50
白捡24TB硬盘!员工拆开公司淘汰设备后直接乐坏了

白捡24TB硬盘!员工拆开公司淘汰设备后直接乐坏了

游民星空
2026-05-31 12:27:20
5999元起,九号新车用5寸彩屏把导航搬上电动车

5999元起,九号新车用5寸彩屏把导航搬上电动车

赛博兰博
2026-05-30 01:24:12
比起AI花活,iOS 27更需要解决这3个iPhone痛点

比起AI花活,iOS 27更需要解决这3个iPhone痛点

摸鱼算法
2026-05-30 01:45:37
古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

史之铭
2026-05-28 00:48:09
苏芒起诉“第一女仆”闹剧:给洋人当X还想骑国人头上,恶心!

苏芒起诉“第一女仆”闹剧:给洋人当X还想骑国人头上,恶心!

红色少女主播
2026-05-30 21:42:55
2026-05-31 15:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15349文章数 66894关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

男子怀疑妻子出轨在车上装定位:兄弟不给我借钱给她借

头条要闻

男子怀疑妻子出轨在车上装定位:兄弟不给我借钱给她借

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
艺术
教育
数码
军事航空

旅游要闻

厂房老宅变身文旅热土,古村落何以孕育“新风景”

艺术要闻

Luis Alvarez Roure | 美国现实主义画家

教育要闻

四年级简便运算的易错题:掌握方法很easy

数码要闻

球星亚马尔预热Beats Studio Pro 2耳机:全新设计,粉色配色

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版