网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了!

这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。

但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2(Bard)排位大比拼

谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。

而它的具体表现如何?

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。

在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。

从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。

Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。

另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。

然而,PaLM 2与较弱的模型对弈时,表现较差。

在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之,研究人员发现,与评估过的其他模型相比,Google Cloud Vertex API现有的PaLM 2存在以下缺陷:

- PaLM 2受到更严格的监管,影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中,PaLM 2遇到不确定或不愿回答的问题时,与其他模型相比,更有可能放弃回答。

粗略估计,在所有的配对战中,PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是,有30.8%比赛输给了不是Top 4的模型。

这也能够解释,为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时,也反映出聊天机器人竞技场方法论的一个缺陷,因为随意用户更有可能因为微妙的不准确回答,而惩罚弃权行为。

下面,研究者提供几个失败的案例,说明PaLM 2如何输给弱聊天机器人。

另外,研究者注意到,有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中,看到了一些不受欢迎的趋势:

- PaLM 2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗?」

「为什么天空是蓝的?」

多语言能力有限

PaLM 2倾向于不回答非英语问题,包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称,无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外,UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实,在非英语排行榜上,PaLM 2排名第16。

推理能力很弱

研究人员称,并没有发现PaLM 2有着强大的推理能力。

一方面,它似乎可以检测问题是否是「纯文本」的,并且倾向于拒绝回答不是纯文本的问题,例如编程语言、调试和代码解释中的问题。

另一方面,与其他聊天机器人相比,PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题,竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话,并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名,不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名还相对靠前。

与巨量参数大型模型相比,这些较小的模型同样表现良好。

由此,研究人员推测,高质量的预训练,以及微调数据集比模型规模更重要。

然而,较大的模型在更复杂的推理任务,或回答更细微的问题时仍有可能表现得更好。

因此,在预训练和微调阶段管理高质量的数据集,似乎是缩小模型规模的同时,保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外,Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM(Large Language Model)的聊天机器人进行「真实环境」的基准测试。

这意味着,用户提供的投票数据和在投票过程中生成的提示-回答,反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符,后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

参考资料:

https://lmsys.org/blog/2023-05-25-leaderboard/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州女子接触氢氟酸中毒身亡,警方介入!曾有环卫工手遭腐蚀

杭州女子接触氢氟酸中毒身亡,警方介入!曾有环卫工手遭腐蚀

南方都市报
2025-09-15 23:44:18
利率3%的大额存单重出江湖,银行又在抢存款了

利率3%的大额存单重出江湖,银行又在抢存款了

别人都叫我阿腈
2025-09-15 16:43:43
中俄免签还未开始,大量俄罗斯美女涌入街头,网传价格只有本一半

中俄免签还未开始,大量俄罗斯美女涌入街头,网传价格只有本一半

壹点半娱乐
2025-09-12 00:07:10
中华人民共和国政府与波兰共和国政府间合作委员会第四次全体会议共同文件

中华人民共和国政府与波兰共和国政府间合作委员会第四次全体会议共同文件

新京报
2025-09-15 21:06:21
被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

归史
2025-09-09 10:14:27
台湾网红馆长大陆网络平台账号粉丝达200万,商业变现模式待探索

台湾网红馆长大陆网络平台账号粉丝达200万,商业变现模式待探索

总在茶余后
2025-09-14 00:31:15
山东省纪委监委通报,姜青山被查

山东省纪委监委通报,姜青山被查

鲁中晨报
2025-09-15 10:15:33
疯了疯了!贝弗利有望加盟!整个CBA又要闹翻天

疯了疯了!贝弗利有望加盟!整个CBA又要闹翻天

篮球实战宝典
2025-09-15 18:44:05
高中生扶大妈遭讹15万,12年后大妈孙子考上清大,他在门口跪地求饶

高中生扶大妈遭讹15万,12年后大妈孙子考上清大,他在门口跪地求饶

罪案洞察者
2025-09-12 13:55:25
一根藤上几根“瓜”,于朦胧事件越扒越有料,该慌的远不止程青松

一根藤上几根“瓜”,于朦胧事件越扒越有料,该慌的远不止程青松

一娱三分地
2025-09-15 23:01:24
为什么富豪都往美国跑?背后隐藏的真相

为什么富豪都往美国跑?背后隐藏的真相

枫冷慕诗
2025-09-14 10:37:28
2025年全国出生人口预测,结果竟然就剩681万?

2025年全国出生人口预测,结果竟然就剩681万?

娱乐八卦木木子
2025-09-15 11:39:25
女大学生因军训照走红,多家公司求签约却被拒绝,原因超直接!

女大学生因军训照走红,多家公司求签约却被拒绝,原因超直接!

广电新视网
2025-09-12 12:13:49
细思极恐!曝程青松于朦胧合照,说不认识于朦胧,满口谎言四处乱撩

细思极恐!曝程青松于朦胧合照,说不认识于朦胧,满口谎言四处乱撩

八星人
2025-09-15 14:18:32
以色列打遍中东无敌手,唯一吓不倒的“硬骨头”,买了中国红旗-9

以色列打遍中东无敌手,唯一吓不倒的“硬骨头”,买了中国红旗-9

博览历史
2025-09-15 20:19:15
中美TikTok谈判背后:一场科技霸权的生死较量

中美TikTok谈判背后:一场科技霸权的生死较量

华山穹剑
2025-09-15 20:30:47
女人被满足后,还会想继续下一次吗?几个女人说出了心声

女人被满足后,还会想继续下一次吗?几个女人说出了心声

第7情感
2025-09-15 22:21:25
于东来称“希望不要毁了西贝”,罗永浩回应

于东来称“希望不要毁了西贝”,罗永浩回应

观察者网
2025-09-15 14:44:34
费解!在中央厨房制作就不算预制菜?那商场里的饭馆我都不吃了

费解!在中央厨房制作就不算预制菜?那商场里的饭馆我都不吃了

小小河
2025-09-14 22:53:46
关了关了就关了!没有没有就没有!超长高温日,沪上老人屡遭“极度尴尬”

关了关了就关了!没有没有就没有!超长高温日,沪上老人屡遭“极度尴尬”

新民晚报
2025-09-15 18:55:20
2025-09-16 04:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13452文章数 66154关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

亲子
艺术
健康
公开课
军事航空

亲子要闻

我该怎么办呢?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

内分泌科专家破解身高八大谣言

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

无障碍浏览 进入关怀版