网易首页 > 网易号 > 正文 申请入驻

全球大模型竞技场:多款国产模型上榜,Seed 2.0排名领先

0
分享至

春节期间国产大模型迎来集中上新周期,全球大模型竞技场 LMArena 榜单格局随之出现重大调整。

其中,字节跳动旗下 Seed 2.0 的表现最为亮眼。该模型为首次亮相 LMArena 榜单,便成功跻身综合排行榜全球前十,位列本次登榜国产模型首位。同期密集发布的多款国产旗舰大模型亦同步登榜,GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列榜单第 16 至 19 位。国产大模型第一梯队正以前所未有的集群姿态,集体冲击全球大模型技术最高水平。

本次 LMArena 综合榜单头部席位仍由国际主流大模型占据,榜单前三依次为 claude-opus-4-6、gemini-3.1-pro-pr、grok-4.20-beta1;国产阵营中,Seed 2.0 位列综合榜单第 9 位,是唯一进入全球前十的国产大模型。


从细分项看,几家国产新旗舰的能力结构并不相同。

字节的 Seed2.0 是目前表现最强势的国产模型,综合排名位列全球第 9。 该模型在 Coding 上尤为出色,排名全球第 7,在 Hard Prompts(高难度指令) 方面也位居第 8。这表明字节的 Seed 系列在处理复杂逻辑和生产力工具场景下,已经具备了与 Google Gemini 和 OpenAI GPT 系列正面硬刚的实力。

月之暗面的 Kimi-K2.5-thinking 虽然综合排名在第 19,但在特定的推理领域表现惊人。 它在 Math 维度高居全球第 8,在 Expert 维度排名第 10。这说明 Kimi 的强化学习和思考机制在解决极高难度的理科问题和复杂知识理解上,甚至超过了许多排名更靠前的通用型模型。

GLM-5(智谱AI)、Ernie-5.0-0110(百度文心) 以及 Qwen3.5-397b(阿里千问),分别占据了第 16、17、18 名。 这些模型在 Math 等硬核指标上普遍优于其综合排名,反映出国产模型在数理逻辑和技术落地上的深耕。

虽然国产模型在 Top 20 中占据了近四分之一的席位,但与最顶尖的 Claude-opus-4-6 和 Gemini-3.1-pro 在 Overall 和 Creative Writing 方面仍有一定身位差。 目前国产模型主要在硬实力(数学、编程、专家知识)上寻求突破,而在指令遵循的细腻程度和长文本任务的稳定性上,仍是未来追赶的主要目标。

与此同时,在垂直赛道的细分战场上,国产模型的表现进一步印证了“全赛道渗透、多点开花”的趋势。

在考验网页开发能力的代码赛道,智谱AI的 GLM-5 表现抢眼,以 1452 的评分排名第8,成为唯一杀入该项前十的国产力量。

在视觉理解(Vision)维度,Seed 2.0排名第4,仅次于Gemini的三款模型。此前在综合排名中稍显靠后的 Kimi K2.5-thinking ,在视觉赛道成功跻身全球前十。


然而,搜索(Search)赛道依然是国产模型亟待攻克的堡垒。在目前的全球前十排名中,国产模型尚无一上榜,该领域仍由 Grok、GPT 和 Gemini 等把持。在搜索与大模型深度融合的精准度上,国产阵营仍需更高效的工程化落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

职场资深秘书
2026-05-05 18:20:53
游龙戏凤:乌电子战部队空中擒获俄军战机,俄上将惨遭爆头

游龙戏凤:乌电子战部队空中擒获俄军战机,俄上将惨遭爆头

史政先锋
2026-05-06 20:14:22
特朗普以为访华稳了,派心腹摸底后漫天要价,点名向中方要一个人

特朗普以为访华稳了,派心腹摸底后漫天要价,点名向中方要一个人

兰妮搞笑分享
2026-05-06 15:12:32
42岁音乐人抑郁症自杀离世,最后遗言:感谢所有人,对不起父母

42岁音乐人抑郁症自杀离世,最后遗言:感谢所有人,对不起父母

素素娱乐
2026-05-06 16:53:22
综合消息丨汉坦病毒涉疫邮轮病例数已升至8例

综合消息丨汉坦病毒涉疫邮轮病例数已升至8例

新华社
2026-05-06 22:31:33
AI记账软件怼用户159元给父亲买寿衣,“寿衣是死人穿的,你爸穿的蓝白衫确实像”,官方回应:系AI话术漏洞所致,非人为恶意,已紧急修复

AI记账软件怼用户159元给父亲买寿衣,“寿衣是死人穿的,你爸穿的蓝白衫确实像”,官方回应:系AI话术漏洞所致,非人为恶意,已紧急修复

扬子晚报
2026-05-06 20:50:03
超千万人签署!球迷发起"姆巴佩离开皇马"请愿!主帅:球员必须理解什么是皇家马德里

超千万人签署!球迷发起"姆巴佩离开皇马"请愿!主帅:球员必须理解什么是皇家马德里

懂个球
2026-05-06 16:58:00
“四川华蓥女游客玩瀑布秋千坠亡”警方介入,当地称家属已和解,目击者:其撞到瀑布凸出处大石;景区已清空账号

“四川华蓥女游客玩瀑布秋千坠亡”警方介入,当地称家属已和解,目击者:其撞到瀑布凸出处大石;景区已清空账号

大象新闻
2026-05-06 15:42:10
男子把80万奔驰借朋友撑场面找对象,自己每天挤公交、打车,结果朋友将车抵押3万元还债了!

男子把80万奔驰借朋友撑场面找对象,自己每天挤公交、打车,结果朋友将车抵押3万元还债了!

犀利强哥
2026-05-05 16:58:12
一只青蛙如何被井外势力蛊惑

一只青蛙如何被井外势力蛊惑

黔有虎
2026-05-05 22:54:29
吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

映射生活的身影
2026-05-06 19:29:52
悲催!社区食堂迎来集体退场的结局,网友:不符合市场经济规律

悲催!社区食堂迎来集体退场的结局,网友:不符合市场经济规律

火山詩话
2026-05-06 07:01:51
曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

项鹏飞
2026-05-06 16:51:22
因有乘客在火车“吸烟处”吸烟,女子向列车长投诉+威胁要打12306

因有乘客在火车“吸烟处”吸烟,女子向列车长投诉+威胁要打12306

可达鸭面面观
2026-05-06 17:30:32
突发!国乒劲敌退出伦敦世乒赛!此前3-2爆冷击败国乒男团!

突发!国乒劲敌退出伦敦世乒赛!此前3-2爆冷击败国乒男团!

好乒乓
2026-05-06 17:00:44
国际足联也急了!原来除了中国,还有这么多国家不给世界杯买单了

国际足联也急了!原来除了中国,还有这么多国家不给世界杯买单了

阿纂看事
2026-05-06 15:55:12
四会市委书记翁卓辉被查

四会市委书记翁卓辉被查

南方都市报
2026-05-06 17:54:08
高市这一跪,“里外不是人”!

高市这一跪,“里外不是人”!

国是直通车
2026-05-06 17:38:18
打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

细说职场
2026-04-28 10:39:02
王海称胖东来套取国家补贴资金,情节严重负责人可承担刑事责任

王海称胖东来套取国家补贴资金,情节严重负责人可承担刑事责任

映射生活的身影
2026-05-06 23:38:17
2026-05-07 03:12:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69251文章数 656123关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

房产
游戏
本地
亲子
公开课

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

开车的小孩子最帅了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版