网易首页 > 网易号 > 正文 申请入驻

国产大模型集体冲击全球大模型技术最高水平,豆包2.0表现最亮眼

0
分享至

春节期间国产大模型迎来集中上新周期,全球大模型竞技场 LMArena 榜单格局随之出现重大调整。

其中,字节跳动旗下 Seed 2.0 的表现最为亮眼。该模型首次亮相 LMArena 榜单,便成功跻身综合排行榜全球前十,位列本次登榜国产模型首位。同期密集发布的多款国产旗舰大模型亦同步登榜,GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列榜单第 16 至 19 位。国产大模型第一梯队正以前所未有的集群姿态,集体冲击全球大模型技术最高水平。

本次 LMArena 综合榜单头部席位仍由国际主流大模型占据,榜单前三依次为 claude-opus-4-6、gemini-3.1-pro-pr、grok-4.20-beta1;国产阵营中,字节跳动的豆包2.0位列综合榜单第9位,是唯一进入全球前十的国产大模型。

从细分项看,几家国产新旗舰的能力结构并不相同。

字节的豆包2.0是目前表现最强势的国产模型,综合排名位列全球第9。该模型在Coding(编程)上尤为出色,排名全球第7,在Hard Prompts(高难度指令)方面也位居第8。这表明字节的Seed系列在处理复杂逻辑和生产力工具场景下,已经具备了与谷歌Gemini和OpenAI GPT系列正面硬刚的实力。

月之暗面的Kimi-K2.5-thinking虽然综合排名在第19,但在特定的推理领域表现惊人。它在Math(数学)维度高居全球第8,在Expert(专家知识)维度排名第10。这说明Kimi的强化学习和思考机制在解决极高难度的理科问题和复杂知识理解上,甚至超过了许多排名更靠前的通用型模型。

GLM-5(智谱AI)、Ernie-5.0-0110(百度文心)以及Qwen3.5-397b(阿里千问),分别占据了第16、17、18名。这些模型在Math等硬核指标上普遍优于其综合排名,反映出国产模型在数理逻辑和技术落地上的深耕。

虽然国产模型在前20中占据了近四分之一的席位,但与最顶尖的 Claude-opus-4-6和Gemini-3.1-pro在Overall(整体)和Creative Writing(创意写作)方面仍有一定差距。 目前国产模型主要在硬实力(数学、编程、专家知识)上寻求突破,而在指令遵循的细腻程度和长文本任务的稳定性上,仍是未来追赶的主要目标。

与此同时,在垂直赛道的细分战场上,国产模型的表现进一步印证了“全赛道渗透、多点开花”的趋势。

在考验网页开发能力的代码赛道,智谱AI的GLM-5表现抢眼,以1452的评分排名第8,成为唯一杀入该项前十的国产力量。

在视觉理解(Vision)维度,Seed 2.0排名第4,仅次于Gemini的三款模型。此前在综合排名中稍显靠后的Kimi K2.5-thinking,在视觉赛道成功跻身全球前十。

然而,搜索(Search)赛道依然是国产模型亟待攻克的堡垒。在目前的全球前十排名中,国产模型尚无一上榜,该领域仍由 Grok、GPT 和 Gemini 等把持。在搜索与大模型深度融合的精准度上,国产阵营仍需更高效的工程化落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯一旦击败乌克兰,这六个国家或将遭殃,没有一个是无辜的

俄罗斯一旦击败乌克兰,这六个国家或将遭殃,没有一个是无辜的

老范谈史
2026-02-27 22:24:44
56岁李静飞清迈陪戴军过春节,两个人手牵手散步,相处更像夫妻

56岁李静飞清迈陪戴军过春节,两个人手牵手散步,相处更像夫妻

小蜜情感说
2026-02-27 00:09:25
比亚迪销量大跌,吉利反超成第一,技术强不如体验好

比亚迪销量大跌,吉利反超成第一,技术强不如体验好

沙雕小琳琳
2026-02-27 04:33:10
这次荷兰没话说了!中方正式宣布:更换国内供应商,从此不再合作

这次荷兰没话说了!中方正式宣布:更换国内供应商,从此不再合作

晓劗就是我
2026-02-26 15:50:07
东北男人“新战袍”:4000元的迪桑特,成了体制内的隐形工牌

东北男人“新战袍”:4000元的迪桑特,成了体制内的隐形工牌

毒sir财经
2026-02-25 23:40:03
重磅!重庆四环规划落地,全力打造“四环二十二射六十联线”高速路网体系

重磅!重庆四环规划落地,全力打造“四环二十二射六十联线”高速路网体系

白浅娱乐聊
2026-02-27 16:29:08
女生连续4年记录与家人告别场景,四年时间爸爸和奶奶相继离世,最后对着空荡荡的房子说再见

女生连续4年记录与家人告别场景,四年时间爸爸和奶奶相继离世,最后对着空荡荡的房子说再见

观威海
2026-02-27 15:11:08
难怪日本裁判很猖狂,原来是FIBA国际篮联撑腰,暗讽中国队不装了

难怪日本裁判很猖狂,原来是FIBA国际篮联撑腰,暗讽中国队不装了

篮球看比赛
2026-02-27 13:42:59
亚足联官方:女足亚洲杯将在斋月期间设置进食与饮水暂停

亚足联官方:女足亚洲杯将在斋月期间设置进食与饮水暂停

懂球帝
2026-02-27 18:25:11
209记三分球!克神创造历史,这么打下去,库里的纪录也保不住了

209记三分球!克神创造历史,这么打下去,库里的纪录也保不住了

世界体育圈
2026-02-27 11:39:59
伊朗媒体:伊朗拒绝向国外转移浓缩铀

伊朗媒体:伊朗拒绝向国外转移浓缩铀

财联社
2026-02-27 05:14:12
有什么反击混账父母原生家庭的案例 网友的讲述真是让人惊掉下巴

有什么反击混账父母原生家庭的案例 网友的讲述真是让人惊掉下巴

侃神评故事
2026-02-21 17:35:03
吉利全新硬核“方盒子”SUV曝光!三点没想到,方程豹钛7或遇强劲对手

吉利全新硬核“方盒子”SUV曝光!三点没想到,方程豹钛7或遇强劲对手

车矩阵更懂车
2026-02-26 23:19:44
马筱梅大方晒幸福,坦言不会喂奶、拍嗝,育儿重任全都交给汪小菲

马筱梅大方晒幸福,坦言不会喂奶、拍嗝,育儿重任全都交给汪小菲

一盅情怀
2026-02-27 15:36:08
女子捡到手机藏了4个月,失主通过Wi-Fi定位找上门,发现手机已被重置,对方还索要“保管费”!法院判了

女子捡到手机藏了4个月,失主通过Wi-Fi定位找上门,发现手机已被重置,对方还索要“保管费”!法院判了

都市快报橙柿互动
2026-02-27 00:35:31
女儿替父请假两小时被开除后续:女儿发声曝更多恶行,评论区沦陷

女儿替父请假两小时被开除后续:女儿发声曝更多恶行,评论区沦陷

奇思妙想生活家
2026-02-27 20:18:32
古人逛一次青楼要多少银子?换算成人民币后,只得感叹根本去不起

古人逛一次青楼要多少银子?换算成人民币后,只得感叹根本去不起

老谢谈史
2026-02-22 21:43:23
超6亿和解金,欣旺达亏了还是赚了

超6亿和解金,欣旺达亏了还是赚了

蓝鲸新闻
2026-02-27 10:40:20
上海一女子突然失踪,5年后12岁女儿收到母亲托梦:妈妈在这等你

上海一女子突然失踪,5年后12岁女儿收到母亲托梦:妈妈在这等你

第四思维
2025-09-09 09:35:32
拿着底薪,火箭快船都放弃的球员 如今场均18+5+7 大合同又要来了

拿着底薪,火箭快船都放弃的球员 如今场均18+5+7 大合同又要来了

大卫的篮球故事
2026-02-26 21:47:08
2026-02-27 23:23:00
证券时报 incentive-icons
证券时报
运营主体:深圳证券时报社有限公司
874014文章数 238807关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

23岁博士研究生确诊胃癌晚期 坦言经常错过食堂饭点

头条要闻

23岁博士研究生确诊胃癌晚期 坦言经常错过食堂饭点

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

数码
家居
房产
教育
公开课

数码要闻

三星与美国德州达成协议,旗下智能电视不再默认“监视”当地居民

家居要闻

素色肌理 品意式格调

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

教育要闻

2月25日直播剪影,龙凯锋军事评论

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版