网易首页 > 新闻中心 > 新闻 > 正文

Compass Arena首期大模型竞技场榜单揭晓,智谱AI GLM-4系列模型展示领先实力

0
分享至

(原标题:Compass Arena首期大模型竞技场榜单揭晓,智谱AI GLM-4系列模型展示领先实力)

6月13日,司南OpenCompass和魔搭ModelScope联手推出的大语言模型竞技场 Compass Arena公布首期大模型对战榜单。智谱AI的GLM-4 w/search 排名仅次于GPT-4o,位列国内大模型第一。相比 GLM-4,GLM-4 w/search 可以在交互过程中引入外部搜索引擎信息辅助内容生成。

Compass Arena司南大模型竞技场是由司南OpenCompass团队和魔搭ModelScope团队共同推出的大语言模型 (LLM) 评测平台,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。Compass Arena汇集了Qwen-Max、GLM-4、abab6.5以及Llama 3系列等20余个主流大语言模型,通过创新的竞技模式,让用户在直观体验比较不同模型的性能后,根据自己对生成内容质量的主观判断,自由评估选择生成效果更为出色的大模型。

Compass Arena大模型竞技场首期对战榜单收集了截至6月12日接近6000条由用户真实反馈的大模型匿名对战数据,经过数据清洗和过滤后利用Bradley-Terry模型估计了大语言模型的竞技场Elo等级分数和95%置信区间,并使用该等级分数对大模型进行排名。榜单中,智谱AI的GLM-4 w/search凭借回答环节引入外部搜索引擎信息能力的辅助,有效提升了生成内容的准确性和完整性,排名仅次于GPT-4o位列第二名,成为Compass Arena大模型竞技场首期对战榜单国内大模型第一名。

值得一提的是,智谱AI的GLM-4系列模型自发布以来便收获业内及广大用户认可,并多次在权威榜单与全球顶级大模型一较高下。清华《SuperBench大模型综合能力评测报告》显示,GLM-4在语义理解等方面的能力表现超过众多国际一流模型,在代码、智能体等方面,排名国内第一。在SuperCLUE-Fin(SC-Fin)中文原生金融大模型测评基准中,GLM-4斩获一项A+及多项A级评价,在国内大模型中排名第一。

据了解,智谱AI于今年1月推出新一代基座大模型GLM-4,并在6月初发布最新开源模型GLM-4-9B,该模型拥有更强的基础能力,支持更长的上下文(最高支持1M/约两百万字),有更精准的函数调用和All Tools能力,并在这个尺寸上首次具备了多模态能力。GLM-4-9B中文学科能力提升50%,最高支持达1百万tokens长文本,支持多达26种语言,函数调用(Function Call)能力媲美GPT-4-Turbo。

上述模型均已在智谱AI MaaS大模型开放平台上线,开发者可以接入GLM-4全系列模型开放API,从而体验智谱大模型的卓越性能。

相关推荐
热点推荐
美军最担心情况发生了:只要中国需要,随时能拿出一批“运轰20”

美军最担心情况发生了:只要中国需要,随时能拿出一批“运轰20”

空天力量
2025-09-18 19:50:49
“小兵张嘎”谢孟伟被捕!目无法纪,坑蒙老百姓,道歉竟甩锅网友

“小兵张嘎”谢孟伟被捕!目无法纪,坑蒙老百姓,道歉竟甩锅网友

有范又有料
2025-09-18 09:54:50
上海市崇明区政协副主席张荣被查

上海市崇明区政协副主席张荣被查

新京报
2025-09-18 11:08:09
牛市结束的三大信号

牛市结束的三大信号

悠闲葡萄
2025-09-18 15:18:50
刚刚,DeepSeek登上Nature封面!梁文锋带队回应质疑,R1训练真29.4万美金

刚刚,DeepSeek登上Nature封面!梁文锋带队回应质疑,R1训练真29.4万美金

新智元
2025-09-18 07:51:35
西贝又出事了!家长给孩子选高价儿童套餐,吃一半发现米饭是酸的

西贝又出事了!家长给孩子选高价儿童套餐,吃一半发现米饭是酸的

星河也灿烂
2025-09-16 16:10:31
80岁张春桥保外就医细节:每天两菜一汤,最怕听到孩子笑声!

80岁张春桥保外就医细节:每天两菜一汤,最怕听到孩子笑声!

星宇共鸣
2025-07-24 17:34:26
湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

青青会讲故事
2025-09-17 11:32:38
亚冠激烈冲突!20人互相扭打,球迷投掷杂物,比赛险被腰斩

亚冠激烈冲突!20人互相扭打,球迷投掷杂物,比赛险被腰斩

奥拜尔
2025-09-18 22:07:13
上海学校虾仁炒蛋发臭后续:紧急撤换、官方介入、供餐方老底被扒

上海学校虾仁炒蛋发臭后续:紧急撤换、官方介入、供餐方老底被扒

千言娱乐记
2025-09-18 19:33:18
摇中“6666”狂喜!下秒丈夫念出一串数,网友:瞬间冷静了

摇中“6666”狂喜!下秒丈夫念出一串数,网友:瞬间冷静了

起喜电影
2025-09-17 23:31:45
朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

猫眼观史
2024-03-25 14:31:14
陈赫前妻不穿内衣大胆出镜,胸和肚子快一样平,那张脸倒是很美

陈赫前妻不穿内衣大胆出镜,胸和肚子快一样平,那张脸倒是很美

涵豆说娱
2025-09-09 17:09:17
降息后,大家要注意了!明年,楼市会出现真正的“止跌回稳”

降息后,大家要注意了!明年,楼市会出现真正的“止跌回稳”

子木聊房
2025-09-18 11:01:17
他曾活埋5000多名红军,私吞十几箱财宝逃到国外,如今却被人歌颂

他曾活埋5000多名红军,私吞十几箱财宝逃到国外,如今却被人歌颂

健康快乐丁
2025-07-22 11:51:13
刚宣布!不降息

刚宣布!不降息

中国基金报
2025-09-18 22:06:42
“25基点太少,50基点太多”:美联储降息“走钢丝”,“特朗普代言人”投下唯一反对票

“25基点太少,50基点太多”:美联储降息“走钢丝”,“特朗普代言人”投下唯一反对票

每日经济新闻
2025-09-18 06:55:05
阴债不还,人生难顺,地藏王:欠阴债的人有三处特征,早发现早还清

阴债不还,人生难顺,地藏王:欠阴债的人有三处特征,早发现早还清

古怪奇谈录
2025-09-10 16:29:03
高兴太早!中国女篮热身赛险胜,却收三大坏消息,李梦不回真晚了

高兴太早!中国女篮热身赛险胜,却收三大坏消息,李梦不回真晚了

宗介说体育
2025-09-18 12:50:36
11人涉香港65公斤“黄金劫案”被警方拘捕

11人涉香港65公斤“黄金劫案”被警方拘捕

新华社
2025-09-18 23:53:01
2025-09-19 02:39:00

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

教育
艺术
家居
本地
公开课

教育要闻

TTS新传论文带读:“技术座架变迁”(论述题装X词汇大赏

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

家居要闻

多维交集 简意雅情结合

本地新闻

云游中国|谁懂!在天下第一关拍到史诗感大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×