网易首页 > 网易号 > 正文 申请入驻

黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

龙争虎斗的大模型竞技场,今天突然更新:

国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型,跃升总榜第七,也成为榜上国产大模型第一

可以看到,它的成绩几乎与GPT-4-0125-preview持平。

同时,国内清华系大模型公司智谱华章的GLM-4-0116也杀进总榜,位居第15位。



这个结果来自累积超1170万全球用户的真实盲测投票数。

而且大模型竞技场最近修改了规则,只要大模型亮明身份后就不能再继续投票,杜绝了刷分的可能性。

再来看Yi-Large排名之前的前6名中,有4个模型来自GPT,另外有1个谷歌的Gemini,1个Anthropic的Claude。

零一万物创始人兼CEO李开复博士为此表示,LMSYS提供了一个第三方的、公正的平台,其他竞争对手也都非常认可。

而零一万物的团队规模、参数规模、GPU算力都比排名更靠前的模型“小”。

零一万物的GPU可能只有Google、Microsoft的5%,但团队一直在探索,能不能训练跟大厂一样好的模型。
我们的特点就是以千亿模型杀入了万亿模型的范围。如果我们有10倍的GPU,我们的万亿模型应该完全可能达到第一名。
Yi-Large成排名飞升黑马

大模型竞技场官推还给出了Yi-Large的更多成绩:

中文类别中,Yi-Large和GLM-4两个国产大模型的表现不俗。

其中,Yi-Large成绩尤为突出,与GPT-4o并列总榜第一。



模型强度的置信区间,则如下图所示:



值得注意的是,为了提高大模型竞技场查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。

这个新机制旨在消除过度冗余的用户提示——如过度重复的“你好”——这类冗余提示可能会影响排行榜的准确性。

LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认总榜。

目前,在去除冗余查询后的总榜中,Yi-Large的Elo得分更进一步,与Claude 3 Opus、GPT-4-0125-preview并列第四。

解释一下,Elo评分系统基于统计学原理设定,是当前国际公认的竞技水平评估标准。在这个评分系统里,每个参赛者都有基准评分,然后根据每场比赛调整评分。一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。

LMSYS引入Elo评分系统,是为了保证大模型竞技场在最大程度上保证排名的客观公正。



而在分类别的排行榜中,Yi-Large同样表现亮眼。

编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单。这三个榜单以专业性与高难度著称,可称为当下大模型最烧脑的公开盲测。

编程能力(Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic当家旗舰模型Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。



长提问(Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。



艰难提示词(Hard Prompts)则是LMSYS响应社区要求,在今天的排行榜刷新中新增的类别。

这个类别的提示词来自大模型竞技场用户提交的prompts,它们经过专门设计,更加复杂、要求更高且更加严格。

LMSYS增加这一类别榜单的原因,是官方认为这类提示能够测试最新语言模型面临挑战性任务时的性能。

这个榜单上,Yi-Large处理艰难提示的能力与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。



这次表现亮眼的Yi-Large,是一周前零一万物刚对外发布的闭源模型

当时官方给出的评测结果中,推理方面,Yi-Large在HumanEval和MATH都位列第一,超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct(都是时下大模型领域的佼佼者)。



据了解,Yi-Large的下一步是采用MoE架构的Yi-XLarge,目前已经启动训练。

大模型竞技场

大模型竞技场(Chatbot Arena),似乎已经成为现在头部大模型的兵家必争之地。

此前,国外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot(不是GPT-2)、Mistral AI的Mistral Large等模型都在上面冲锋陷阵。

国内诸多玩家也都陆陆续续把自家孩子放进去考验真功夫。

大神卡帕西去年就夸过大模型竞技场很Awesome:



GPT-4o发布后,OpenAI的CEO奥特曼也转帖引用大模型竞技场盲测擂台的测试结果,直呼鹅妹子嘤。



发布它的开放研究组织LMSYS Org(Large Model Systems Organization)发布,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。

虽然背后团队主要来自高校,但LMSYS的研究项目却相对更贴近产业。

他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的MT-Bench已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上live大模型打擂台测试所需的算力。



在形式上,大模型竞技场借鉴了搜索引擎时代的横向对比评测思路

它首先将所有上传评测的参赛模型随机两两配对,以匿名模型的形式呈现在用户面前。

在不知道模型型号名称的前提下,用户输入自己的提示词,模型A、模型B两侧分别生成两PK模型的真实结果,然后由用户在结果下方做出投票四选一:

A模型较佳/B模型较佳/两者平手/两者都不好。

提交投票后,可进行下一轮PK。



目前,大模型竞技场的评测过程涵盖了从用户直接参与投票、盲测、大规模投票和动态更新评分机制等多个方面,尽可能保证结果的客观和专业。

官方公开数据显示,本次更新的大模型竞技场,共有44款模型参赛。

既有开源高手,如Llama3-70B;也有全球各家大厂、创业公司的闭源模型。

最后,奉上一张胜率热图,它涵盖了目前大模型竞技场上的所有大模型:



快来看看你pick的大模型胜率如何吧(手动狗头)~

大模型竞技场盲测平台:
https://arena.lmsys.org/
大模型竞技场评测排行(滚动更新):
https://chat.lmsys.org/?leaderboard

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周深演唱会到处送票没人看,开场大片空座,座位上放荧光棒撑场面

周深演唱会到处送票没人看,开场大片空座,座位上放荧光棒撑场面

西瓜爱娱娱
2024-06-02 16:57:58
山东“铁锭大巴”已开通4年,9990元吃住行全包,网友:打死不去

山东“铁锭大巴”已开通4年,9990元吃住行全包,网友:打死不去

三月柳
2024-06-03 14:25:12
要是那个单刀进了阿德耶米赛后陷入呆滞!眼里的光没了...

要是那个单刀进了阿德耶米赛后陷入呆滞!眼里的光没了...

刺头体育
2024-06-03 13:11:15
菲律宾军舰人员枪指中国海警!我方防长:中方的克制也是有限度的

菲律宾军舰人员枪指中国海警!我方防长:中方的克制也是有限度的

云姐闲聊
2024-06-03 00:06:13
“咬”起来了?许家印不承认财务造假,认为责任应由审计机构承担

“咬”起来了?许家印不承认财务造假,认为责任应由审计机构承担

王五说说看
2024-06-03 10:59:17
终于来了!字母哥正式确认加盟!人家又要对抗整个NBA……

终于来了!字母哥正式确认加盟!人家又要对抗整个NBA……

篮球实战宝典
2024-06-02 15:33:24
奥迪新Q7国内实拍!4S店:7月上市,现款降价16.5万清库存

奥迪新Q7国内实拍!4S店:7月上市,现款降价16.5万清库存

网上车市
2024-06-03 11:13:11
惠若琪:赢泰国朱婷上场呼喊队友,输给意大利时女排无暇顾此

惠若琪:赢泰国朱婷上场呼喊队友,输给意大利时女排无暇顾此

懂球帝
2024-06-03 11:33:58
24岁桑乔拒多特挽留,逼宫曼联高层:想我回去,就必须解雇滕哈赫

24岁桑乔拒多特挽留,逼宫曼联高层:想我回去,就必须解雇滕哈赫

风过乡
2024-06-03 08:01:59
AMD杀疯了!新一代最强AI芯片MI350系列登场,性能提高3500%|硅基世界

AMD杀疯了!新一代最强AI芯片MI350系列登场,性能提高3500%|硅基世界

钛媒体APP
2024-06-03 12:25:10
奥尼尔:投3分真太TMD爽了 羡慕现在的中锋 我打球时教练根本不让

奥尼尔:投3分真太TMD爽了 羡慕现在的中锋 我打球时教练根本不让

直播吧
2024-06-03 16:09:12
重要信号!楼市即将上涨了,房地产市场再次上央视,透露什么信号

重要信号!楼市即将上涨了,房地产市场再次上央视,透露什么信号

楼市味道
2024-06-03 14:05:03
逆天大瓜!孙楠和那英嘴对嘴亲吻!就是不知道对方的另一半怎么想

逆天大瓜!孙楠和那英嘴对嘴亲吻!就是不知道对方的另一半怎么想

娱乐白名单
2024-06-02 11:39:10
31岁章泽天生娃后遗症显现,儿童节晒照中,发缝变宽头发花白!

31岁章泽天生娃后遗症显现,儿童节晒照中,发缝变宽头发花白!

鑫鑫说说
2024-06-03 11:52:42
湖北省人大民族宗教侨务外事委员会主任委员朱汉桥接受审查调查

湖北省人大民族宗教侨务外事委员会主任委员朱汉桥接受审查调查

界面新闻
2024-06-03 17:07:46
事发上海!一车突然变道驶离高架上匝道,将另一车撞翻

事发上海!一车突然变道驶离高架上匝道,将另一车撞翻

新民晚报
2024-06-03 17:30:46
曾仕强:不要随便可怜别人,千万记住,心软是病,情深致命

曾仕强:不要随便可怜别人,千万记住,心软是病,情深致命

韩韩故事记
2024-06-01 18:50:07
上海财政是唯一自给率在100%以上省区...

上海财政是唯一自给率在100%以上省区...

金石随笔
2024-06-03 00:06:20
周琦续约了没?朱芳雨:我还在努力

周琦续约了没?朱芳雨:我还在努力

直播吧
2024-06-03 08:10:10
喜欢把“谢谢”二字挂在嘴边的人,往往是这三种命运,你别不信

喜欢把“谢谢”二字挂在嘴边的人,往往是这三种命运,你别不信

娱乐洞察点点
2024-06-03 12:39:03
2024-06-03 19:16:49
量子位
量子位
追踪人工智能动态
9485文章数 175309关注度
往期回顾 全部

游戏要闻

独占不重要?前暴雪CEO谈索尼策略:玩家不会为了玩独占买主机

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

头条要闻

美国放宽限制后 乌克兰首次使用"海马斯"袭击俄本土

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

接班100天,宗馥莉急了

科技要闻

特斯拉回应单踏板模式可能被禁止:暂无影响

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

教育
游戏
艺术
本地
旅游

教育要闻

又到高考季!祝福张桂梅校长生日快乐,身体健康,平安顺遂

《怪物猎人》新作开启预注册:但是款三消手游

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

旅游要闻

哈尔滨至香港航线正式开通

无障碍浏览 进入关怀版