网易首页 > 网易号 > 正文 申请入驻

全球大模型竞技场:多款国产模型上榜,Seed 2.0排名领先

0
分享至

春节期间国产大模型迎来集中上新周期,全球大模型竞技场 LMArena 榜单格局随之出现重大调整。

其中,字节跳动旗下 Seed 2.0 的表现最为亮眼。该模型为首次亮相 LMArena 榜单,便成功跻身综合排行榜全球前十,位列本次登榜国产模型首位。同期密集发布的多款国产旗舰大模型亦同步登榜,GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列榜单第 16 至 19 位。国产大模型第一梯队正以前所未有的集群姿态,集体冲击全球大模型技术最高水平。

本次 LMArena 综合榜单头部席位仍由国际主流大模型占据,榜单前三依次为 claude-opus-4-6、gemini-3.1-pro-pr、grok-4.20-beta1;国产阵营中,Seed 2.0 位列综合榜单第 9 位,是唯一进入全球前十的国产大模型。


从细分项看,几家国产新旗舰的能力结构并不相同。

字节的 Seed 2.0 是目前表现最强势的国产模型,综合排名位列全球第 9。 该模型在 Coding 上尤为出色,排名全球第 7,在 Hard Prompts(高难度指令) 方面也位居第 8。这表明字节的 Seed 系列在处理复杂逻辑和生产力工具场景下,已经具备了与 Google Gemini 和 OpenAI GPT 系列正面硬刚的实力。

月之暗面的 Kimi-K2.5-thinking 虽然综合排名在第 19但在特定的推理领域表现惊人。它在 Math 维度高居全球第 8,在 Expert 维度排名第 10。这说明 Kimi 的强化学习和思考机制在解决极高难度的理科问题和复杂知识理解上,甚至超过了许多排名更靠前的通用型模型。

GLM-5(智谱AI)、Ernie-5.0-0110(百度文心) 以及 Qwen3.5-397b(阿里千问),分别占据了第 16、17、18 名。这些模型在 Math 等硬核指标上普遍优于其综合排名,反映出国产模型在数理逻辑和技术落地上的深耕。

虽然国产模型在 Top 20 中占据了近四分之一的席位,但与最顶尖的 Claude-opus-4-6 和 Gemini-3.1-pro 在 Overall 和 Creative Writing 方面仍有一定身位差。 目前国产模型主要在硬实力(数学、编程、专家知识)上寻求突破,而在指令遵循的细腻程度和长文本任务的稳定性上,仍是未来追赶的主要目标。

与此同时,在垂直赛道的细分战场上,国产模型的表现进一步印证了“全赛道渗透、多点开花”的趋势。

在考验网页开发能力的代码赛道,智谱AI的 GLM-5 表现抢眼,以 1452 的评分排名第8,成为唯一杀入该项前十的国产力量。

在视觉理解(Vision)维度,Seed 2.0排名第4,仅次于Gemini的三款模型。此前在综合排名中稍显靠后的 Kimi K2.5-thinking ,在视觉赛道成功跻身全球前十。


然而,搜索(Search)赛道依然是国产模型亟待攻克的堡垒。在目前的全球前十排名中,国产模型尚无一上榜,该领域仍由 Grok、GPT 和 Gemini 等把持。在搜索与大模型深度融合的精准度上,国产阵营仍需更高效的工程化落地。

文/张帅

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
所有发达国家都有一个共性:人工很贵,劳动很值钱。

所有发达国家都有一个共性:人工很贵,劳动很值钱。

流苏晚晴
2026-01-27 18:18:22
比张镇麟还差!中国男篮逆转夜最失意之人:失误被换下 仅出场30

比张镇麟还差!中国男篮逆转夜最失意之人:失误被换下 仅出场30

郝小小看体育
2026-03-02 00:43:15
活塞力克魔术巩固联盟第一 坎宁安29+7+11完胜班凯罗24+11

活塞力克魔术巩固联盟第一 坎宁安29+7+11完胜班凯罗24+11

醉卧浮生
2026-03-02 09:33:01
周扒皮都怕!女儿替父请假2小时遭辞退,店已关门,老板底裤被扒

周扒皮都怕!女儿替父请假2小时遭辞退,店已关门,老板底裤被扒

千言娱乐记
2026-02-28 14:42:55
3月30日起执行!国务院824号令:农村土葬老坟处置规则与权益保护

3月30日起执行!国务院824号令:农村土葬老坟处置规则与权益保护

三农雷哥
2026-02-26 19:39:24
重要赛事!3月2晚上19:30,中央5套CCTV5、CCTV5+直播节目表

重要赛事!3月2晚上19:30,中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-03-02 08:15:22
一百名癌症科专家已证实:吸烟和肺癌的关系,最好花点时间看看

一百名癌症科专家已证实:吸烟和肺癌的关系,最好花点时间看看

展望云霄
2026-02-28 10:42:38
自家名宿不护着,赖特:赖斯的动作绝对是一个点球

自家名宿不护着,赖特:赖斯的动作绝对是一个点球

懂球帝
2026-03-02 09:48:07
女子离乡返程时儿子没有送别,看监控发现儿子打开电视把头埋沙发下,用声音掩盖自己的哭声

女子离乡返程时儿子没有送别,看监控发现儿子打开电视把头埋沙发下,用声音掩盖自己的哭声

观威海
2026-03-01 13:27:08
大年初二回娘家拜年,看到继母一个人忙着做菜,我做了一个决定

大年初二回娘家拜年,看到继母一个人忙着做菜,我做了一个决定

人间百态大全
2026-03-02 06:35:03
伊朗遭袭,俄成最大赢家,美媒一语惊人,伊朗对中国没那么重要?

伊朗遭袭,俄成最大赢家,美媒一语惊人,伊朗对中国没那么重要?

让我的世界更加精彩
2026-03-02 10:54:52
马年第一颗雷爆了!烧光500亿,“中国宝马”还是倒下了

马年第一颗雷爆了!烧光500亿,“中国宝马”还是倒下了

华庭讲美食
2026-03-01 13:39:18
哈梅内伊死了,美伊战争烈度比想象的要大很多

哈梅内伊死了,美伊战争烈度比想象的要大很多

黑噪音
2026-03-01 09:49:45
居然是真的,特斯拉新车涨价了 !

居然是真的,特斯拉新车涨价了 !

花果科技
2026-03-01 20:29:33
美总统称美军在对伊行动中打死48名伊朗指挥官

美总统称美军在对伊行动中打死48名伊朗指挥官

界面新闻
2026-03-02 07:33:10
陈盈骏发布会回应输球!多次强调可惜,直指攻守执行已经很好了!

陈盈骏发布会回应输球!多次强调可惜,直指攻守执行已经很好了!

篮球资讯达人
2026-03-01 19:50:54
蒙古国的人,为啥如此仇视中国人?

蒙古国的人,为啥如此仇视中国人?

贱议你读史
2026-02-27 15:12:56
产蛋比不过鸡,长肉比不过鸭,人类为何要驯服凶猛的大鹅?

产蛋比不过鸡,长肉比不过鸭,人类为何要驯服凶猛的大鹅?

翰林冷知识
2026-03-01 11:52:05
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
稀土库存全面告急,美企破防,美媒:中国再不批准,谈判等于作废

稀土库存全面告急,美企破防,美媒:中国再不批准,谈判等于作废

纪中百大事
2026-03-01 11:56:34
2026-03-02 12:24:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
235093文章数 743767关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

本地
游戏
家居
旅游
军事航空

本地新闻

津南好·四时总相宜

刺客信条幻景D加密遭攻克!这次不靠虚拟机

家居要闻

万物互联 享科技福祉

旅游要闻

湘潭七星村:“樱花+咖啡”解锁春日新玩法,游客争相打卡

军事要闻

美军动用新型武器:山寨伊朗的

无障碍浏览 进入关怀版