网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了!

这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。

但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2(Bard)排位大比拼

谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。

而它的具体表现如何?

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。

在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。

从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。

Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。

另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。

然而,PaLM 2与较弱的模型对弈时,表现较差。

在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之,研究人员发现,与评估过的其他模型相比,Google Cloud Vertex API现有的PaLM 2存在以下缺陷:

- PaLM 2受到更严格的监管,影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中,PaLM 2遇到不确定或不愿回答的问题时,与其他模型相比,更有可能放弃回答。

粗略估计,在所有的配对战中,PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是,有30.8%比赛输给了不是Top 4的模型。

这也能够解释,为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时,也反映出聊天机器人竞技场方法论的一个缺陷,因为随意用户更有可能因为微妙的不准确回答,而惩罚弃权行为。

下面,研究者提供几个失败的案例,说明PaLM 2如何输给弱聊天机器人。

另外,研究者注意到,有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中,看到了一些不受欢迎的趋势:

- PaLM 2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗?」

「为什么天空是蓝的?」

多语言能力有限

PaLM 2倾向于不回答非英语问题,包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称,无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外,UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实,在非英语排行榜上,PaLM 2排名第16。

推理能力很弱

研究人员称,并没有发现PaLM 2有着强大的推理能力。

一方面,它似乎可以检测问题是否是「纯文本」的,并且倾向于拒绝回答不是纯文本的问题,例如编程语言、调试和代码解释中的问题。

另一方面,与其他聊天机器人相比,PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题,竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话,并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名,不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名还相对靠前。

与巨量参数大型模型相比,这些较小的模型同样表现良好。

由此,研究人员推测,高质量的预训练,以及微调数据集比模型规模更重要。

然而,较大的模型在更复杂的推理任务,或回答更细微的问题时仍有可能表现得更好。

因此,在预训练和微调阶段管理高质量的数据集,似乎是缩小模型规模的同时,保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外,Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM(Large Language Model)的聊天机器人进行「真实环境」的基准测试。

这意味着,用户提供的投票数据和在投票过程中生成的提示-回答,反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符,后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

参考资料:

https://lmsys.org/blog/2023-05-25-leaderboard/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个沈伯洋摁下去,一大群沈伯洋冒出来?都得挨收拾,一个不会少

一个沈伯洋摁下去,一大群沈伯洋冒出来?都得挨收拾,一个不会少

飞花逐月大帝
2025-11-04 10:30:59
全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

一杯咖啡语
2025-11-04 15:08:15
被曝核酸造假,半年敛财4.5亿,核酸大王张核子最终下场如何?

被曝核酸造假,半年敛财4.5亿,核酸大王张核子最终下场如何?

蜉蝣说
2025-10-05 23:57:52
河北小伙娶小12岁乌克兰绝色美女,结婚11年后,妻子出轨波兰农民

河北小伙娶小12岁乌克兰绝色美女,结婚11年后,妻子出轨波兰农民

青史楼兰
2025-09-16 10:44:15
陈晋一跑不动也不换,斯帅保守 放着3攻击手不用 申花排倒数第三

陈晋一跑不动也不换,斯帅保守 放着3攻击手不用 申花排倒数第三

替补席看球
2025-11-05 22:33:19
欧冠狂欢夜:拜仁2-1赢巴黎登顶 利物浦送皇马首败 阿森纳10连胜

欧冠狂欢夜:拜仁2-1赢巴黎登顶 利物浦送皇马首败 阿森纳10连胜

侃球熊弟
2025-11-05 05:09:46
郑钧儿子长大变丑,15岁长得很成熟,他没下巴,越长越像刘芸!

郑钧儿子长大变丑,15岁长得很成熟,他没下巴,越长越像刘芸!

小熊侃史
2025-11-05 00:22:15
男子被警方扣押1000万元,无罪后申诉要求返还 当地公安局:严格按照判决执行,有异议可申诉

男子被警方扣押1000万元,无罪后申诉要求返还 当地公安局:严格按照判决执行,有异议可申诉

红星新闻
2025-11-04 21:58:11
因臀部过于性感 日恐怖游戏未通过Steam审核

因臀部过于性感 日恐怖游戏未通过Steam审核

3DM游戏
2025-11-04 21:29:04
李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

挪威森林
2025-11-02 12:56:16
1976年为什么被认为是最诡异的一年,那一年到底发生了什么?

1976年为什么被认为是最诡异的一年,那一年到底发生了什么?

历史有些冷
2025-11-04 21:20:03
重庆燃气抄表员不足工人一年净减121人 整改不力被罚810万李金陆掌舵17月离任

重庆燃气抄表员不足工人一年净减121人 整改不力被罚810万李金陆掌舵17月离任

长江商报
2025-11-05 09:54:55
中国国防部首次强硬表态:解放军将全力打击“台独”及外部干预!

中国国防部首次强硬表态:解放军将全力打击“台独”及外部干预!

Ck的蜜糖
2025-11-05 00:42:42
海港夺冠彻底稳了!不仅因为申花以已无力追赶,而是因为这三点!

海港夺冠彻底稳了!不仅因为申花以已无力追赶,而是因为这三点!

田先生篮球
2025-11-05 11:48:35
如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

风信子的花
2025-10-24 23:59:39
美国试射“民兵III”型洲际弹道导弹,俄罗斯宣布准备恢复核试验

美国试射“民兵III”型洲际弹道导弹,俄罗斯宣布准备恢复核试验

山河路口
2025-11-05 22:56:11
弗州竞选惊爆冷门:琼斯逆袭,民主党以64%胜率上演惊天翻盘

弗州竞选惊爆冷门:琼斯逆袭,民主党以64%胜率上演惊天翻盘

老玮是个手艺人
2025-11-05 12:59:08
全球第一,固态电池巨头,拿下120亿订单!

全球第一,固态电池巨头,拿下120亿订单!

飞鲸投研
2025-11-05 09:08:06
发型奇怪、不讲卫生、又装又尴尬,他来《你好星期六》是谁邀请的

发型奇怪、不讲卫生、又装又尴尬,他来《你好星期六》是谁邀请的

老汆古装影视解说
2025-11-03 22:24:00
baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

八星人
2025-11-05 15:55:40
2025-11-06 00:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13794文章数 66238关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

丈夫突然病亡2天后妻子也离世留下一儿一女 妹妹发声

头条要闻

丈夫突然病亡2天后妻子也离世留下一儿一女 妹妹发声

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

游戏
时尚
本地
亲子
家居

遭日本禁止发售恐怖游戏上架Steam!内容过于凄惨

今年一定要拥有这件大衣,复古又时髦!

本地新闻

这届干饭人,已经把博物馆吃成了食堂

亲子要闻

温暖守护小患者 上海这家医院的眼科有个“儿童乐园”

家居要闻

别样府院 畅享诗意生活

无障碍浏览 进入关怀版