网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了!

这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。

但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2(Bard)排位大比拼

谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。

而它的具体表现如何?

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。

在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。

从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。

Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。

另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。

然而,PaLM 2与较弱的模型对弈时,表现较差。

在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之,研究人员发现,与评估过的其他模型相比,Google Cloud Vertex API现有的PaLM 2存在以下缺陷:

- PaLM 2受到更严格的监管,影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中,PaLM 2遇到不确定或不愿回答的问题时,与其他模型相比,更有可能放弃回答。

粗略估计,在所有的配对战中,PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是,有30.8%比赛输给了不是Top 4的模型。

这也能够解释,为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时,也反映出聊天机器人竞技场方法论的一个缺陷,因为随意用户更有可能因为微妙的不准确回答,而惩罚弃权行为。

下面,研究者提供几个失败的案例,说明PaLM 2如何输给弱聊天机器人。

另外,研究者注意到,有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中,看到了一些不受欢迎的趋势:

- PaLM 2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗?」

「为什么天空是蓝的?」

多语言能力有限

PaLM 2倾向于不回答非英语问题,包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称,无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外,UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实,在非英语排行榜上,PaLM 2排名第16。

推理能力很弱

研究人员称,并没有发现PaLM 2有着强大的推理能力。

一方面,它似乎可以检测问题是否是「纯文本」的,并且倾向于拒绝回答不是纯文本的问题,例如编程语言、调试和代码解释中的问题。

另一方面,与其他聊天机器人相比,PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题,竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话,并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名,不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名还相对靠前。

与巨量参数大型模型相比,这些较小的模型同样表现良好。

由此,研究人员推测,高质量的预训练,以及微调数据集比模型规模更重要。

然而,较大的模型在更复杂的推理任务,或回答更细微的问题时仍有可能表现得更好。

因此,在预训练和微调阶段管理高质量的数据集,似乎是缩小模型规模的同时,保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外,Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM(Large Language Model)的聊天机器人进行「真实环境」的基准测试。

这意味着,用户提供的投票数据和在投票过程中生成的提示-回答,反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符,后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

参考资料:

https://lmsys.org/blog/2023-05-25-leaderboard/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10个月只赢了2次,雷军:输给特斯拉不丢人,YU7现已有绝对竞争力!“从造车第一天开始,米粉和大众就期待我们超过特斯拉”

10个月只赢了2次,雷军:输给特斯拉不丢人,YU7现已有绝对竞争力!“从造车第一天开始,米粉和大众就期待我们超过特斯拉”

每日经济新闻
2026-05-22 12:47:50
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
Netflix的史诗级巨作,终于要回归了

Netflix的史诗级巨作,终于要回归了

来看美剧
2026-05-22 22:34:54
越南准备成为下一个乌克兰?一旦中越开战,中国还会手下留情吗?

越南准备成为下一个乌克兰?一旦中越开战,中国还会手下留情吗?

起喜电影
2026-05-23 00:12:47
霍尔木兹停摆“后遗症”:阿联酋将投1500亿美元建设能源运输体系

霍尔木兹停摆“后遗症”:阿联酋将投1500亿美元建设能源运输体系

财联社
2026-05-22 13:00:13
美在国际事务中如几何搅局者般肆意

美在国际事务中如几何搅局者般肆意

烽火瞭望者
2026-05-22 06:12:51
女同事借我SUV回老家,还车时还送一盒茶叶,我夜里收到8000罚款

女同事借我SUV回老家,还车时还送一盒茶叶,我夜里收到8000罚款

兰姐说故事
2026-03-14 17:05:09
她丈夫是上将自己官至正部,后夫妻双双都开除,2个孩子结局如何

她丈夫是上将自己官至正部,后夫妻双双都开除,2个孩子结局如何

大运河时空
2026-05-21 12:20:03
大反转!日本要被气吐血,在东京举办博览会,结果现场被中企席卷

大反转!日本要被气吐血,在东京举办博览会,结果现场被中企席卷

老谢谈史
2026-05-15 19:59:46
巴基斯坦军方消息人士:巴陆军参谋长已启程前往伊朗

巴基斯坦军方消息人士:巴陆军参谋长已启程前往伊朗

财联社
2026-05-22 21:04:10
她长得太美了,到了中年还是这么迷人,看起来比李小冉有气质。

她长得太美了,到了中年还是这么迷人,看起来比李小冉有气质。

动物奇奇怪怪
2026-05-22 07:58:52
借力英伟达,联想翻身,杨元庆:不受存储涨价影响,联想未来两年目标成为千亿美元规模企业

借力英伟达,联想翻身,杨元庆:不受存储涨价影响,联想未来两年目标成为千亿美元规模企业

搜狐科技
2026-05-22 19:51:51
卧槽!詹姆斯点明下家球队,大批球队失去希望

卧槽!詹姆斯点明下家球队,大批球队失去希望

体育新角度
2026-05-22 22:18:22
受不了国台办每周都批驳赖清德,民进党发言人破防称“快被烦死了”

受不了国台办每周都批驳赖清德,民进党发言人破防称“快被烦死了”

海峡导报社
2026-05-22 10:48:42
梁靖崑不再隐瞒,坦言自己的心愿,原来他和马龙3年前的处境一样

梁靖崑不再隐瞒,坦言自己的心愿,原来他和马龙3年前的处境一样

可爱的巴比龙
2026-05-21 20:13:09
沙特媒体称获悉美伊协议草案,内容包括在所有战线实现停火

沙特媒体称获悉美伊协议草案,内容包括在所有战线实现停火

澎湃新闻
2026-05-22 18:44:04
新婚15天,就爆不伦!人妻私讯:穿最色内裤求欢,床照全网疯传!

新婚15天,就爆不伦!人妻私讯:穿最色内裤求欢,床照全网疯传!

川渝视觉
2026-05-18 08:58:21
英媒:圣徒主帅埃克特大概率被直接解雇,甚至可能提前结束职业生涯

英媒:圣徒主帅埃克特大概率被直接解雇,甚至可能提前结束职业生涯

懂球帝
2026-05-22 12:29:38
全票赞成解散议会,内塔尼亚胡遭遇政治惨败,中东或迎更大风暴?

全票赞成解散议会,内塔尼亚胡遭遇政治惨败,中东或迎更大风暴?

月满楼熊安全
2026-05-22 07:52:39
金秀贤刚被警方“洗白”,韩已故女星雪莉哥哥宣战:再敢爬出来,就是第二次战役

金秀贤刚被警方“洗白”,韩已故女星雪莉哥哥宣战:再敢爬出来,就是第二次战役

红星新闻
2026-05-22 14:34:09
2026-05-23 05:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15279文章数 66880关注度
往期回顾 全部

科技要闻

雷军:输给特斯拉不丢人

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

头条要闻

伊朗前总统内贾德被指是"最大内鬼" 其目前下落不明

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

富途拟被罚18.5亿元 老虎 长桥也回应了

汽车要闻

11万级直接上四驱 银河星耀7限时权益价9.88万起

态度原创

家居
时尚
数码
艺术
教育

家居要闻

低调传承 温润沉静

真顶流批量涌现,强女当道的时代来了

数码要闻

OPPO Enco Air5s耳机规格公布,5月25日发布

艺术要闻

八大山人那些涂鸦的画

教育要闻

家长没有坚定的信任孩子才会总担心他出问题

无障碍浏览 进入关怀版