网易首页 > 网易号 > 正文 申请入驻

闭源美国,开源中国!Kimi代码称王,通义数学夺冠,这份榜单必须转发

0
分享至

来源:市场资讯

来源:人工智能顾问

日前,国内权威大模型评测机构SuperCLUE正式发布《2025年年度中文大模型基准测评报告》。这份被誉为“AI界年终成绩单”的重磅榜单,再次点燃了行业关注。

在全球23个顶尖大模型的激烈角逐中,海外巨头Anthropic、谷歌、OpenAI依旧稳居综合能力前三甲,但国产模型已不再“陪跑”——以Kimi-K2.5-Thinking与Qwen3-Max-Thinking为代表的中国力量强势突围,不仅在综合排名中紧随其后,更在代码生成与数学推理两大“硬科技”赛道中摘得全球桂冠。

这标志着国产大模型正从“追赶者”迈向“并行者”,甚至在特定领域实现“领跑”。

01 海外闭源模型领跑,国产模型紧咬不放

本次测评从数学推理、科学理解、代码生成等六大核心维度,全面检验大模型的综合智能水平。最终综合得分排名中:

●第1名:Claude-Opus-4.5-Reasoning(Anthropic)—68.25分

●第2名:Gemini-3-Pro-Preview(谷歌)—65.59分

●第3名:GPT-5.2(high)(OpenAI)—64.32分

三大海外闭源模型凭借其强大的工程优化与数据积累,继续领跑全球。

但值得注意的是,第4名由国产开源模型Kimi-K2.5-Thinking以61.50分强势拿下,成为综合排名最高的国产模型;而阿里云推出的高性能模型Qwen3-Max-Thinking则以60.61分位列第6,紧随其后,展现出中国头部AI企业的双线作战能力。


02 单项登顶:国产模型实现“局部反超”

如果说综合排名仍显差距,那么在细分赛道上,国产模型已实现历史性突破:

●代码生成单项赛:Kimi-K2.5-Thinking以53.33分高居榜首,超越GPT-5.2与Gemini-3-Pro,成为本次测评中代码生成能力最强的开源模型。其在算法逻辑、代码结构与跨语言适配上的表现尤为突出,被评测团队评价为“具备工程级落地潜力”。

●数学推理单项赛:Qwen3-Max-Thinking与谷歌Gemini-3-Pro-Preview以80.87分并列全球第一!这是国产高性能模型首次在高难度数学任务中与国际顶级模型比肩。评测专家指出,其在复杂符号推理、多步演算与异常情况处理中展现出接近人类专家的稳定性。

“这不仅是分数的胜利,更是中国大模型在底层推理能力上的‘硬核突破’。”SuperCLUE技术负责人在解读报告时强调,“数学与代码,是AI智能的‘试金石’。国产模型能在此类任务中登顶,说明我们的基础模型架构与训练范式已进入世界先进行列。”

03 开源阵营“中国时刻”:Top5全被国产包揽

更令人振奋的是,在开源模型榜单中,国产力量实现了“绝对统治”——综合排名前五的开源模型全部来自中国,形成“中国方阵”。

其中,Kimi-K2.5-Thinking作为开源组最高分得主,不仅在代码任务中一骑绝尘,其在科学推理与知识应用中的表现也大幅领先同类开源模型。

而Qwen系列、DeepSeek、GLM等开源体系也悉数上榜,展现出国内大模型生态的蓬勃活力与技术沉淀。

“开源不是‘廉价替代’,而是创新的加速器。”一位参与评测的高校研究员表示,“国产开源模型的集体崛起,正在为金融、科研、教育等垂直领域提供低成本、高可控的AI底座,这是生态级的胜利。”

04 从“追赶到并行”:国产大模型的进化逻辑

回顾2025年,中国大模型产业经历了从“参数竞赛”到“能力攻坚”的战略转型。各大厂商不再盲目追求“更大”,而是聚焦“更准”“更稳”“更安全”。

Kimi团队在模型推理架构上的创新,通义实验室在数学预训练数据清洗与符号增强上的深耕,正是这种“技术回归本质”理念的体现。同时,国家在AI安全、数据合规、评测体系等方面的制度建设也为模型发展提供了“中国标准”。

SuperCLUE作为独立第三方评测平台,其覆盖70+项子能力、采用多轮开放式题目的测评机制,已成为国内最具公信力的“AI能力标尺”。

尽管在综合能力上与国际顶尖模型仍有差距,中国民营科技实业家协会人工智能产业分会会长杨光润却认为,国产模型的“差异化突围”路径已清晰可见:以开源为基,以硬核能力为矛,以本土化场景为盾。

随着视觉语言模型(VLM)和具身智能的快速发展,大模型正从“对话工具”进化为“智能体大脑”。而国产模型在代码与数学上的领先,或将为机器人、自动驾驶、科研计算等高阶智能场景提供关键支撑。

2026年的钟声已响,AI竞赛进入深水区。

海外巨头仍在领跑,但国产模型已不再尾随。中国民营科技实业家协会人工智能产业分会会长杨光润认为,这一次,中国不仅没有缺席,更在多个关键赛道上,握有了定义规则的可能。

当Kimi写出最优解,当通义算出正确答案——

那不只是模型的胜利,更是中国AI生态的集体觉醒。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
家长举报家委会3年收10多万元班费,明细显示主要用于购买学习资料和文印费,重庆渝中区教委介入调查

家长举报家委会3年收10多万元班费,明细显示主要用于购买学习资料和文印费,重庆渝中区教委介入调查

极目新闻
2026-02-05 21:52:22
AI+制造深度融合,工业母机行业迎来新机遇

AI+制造深度融合,工业母机行业迎来新机遇

第一财经资讯
2026-02-06 11:24:07
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
许家印关押860天后近况曝光,众叛亲离无人探视付不起120万诉讼费

许家印关押860天后近况曝光,众叛亲离无人探视付不起120万诉讼费

离离言几许
2026-02-06 22:01:09
爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

海佑讲史
2026-02-05 13:00:05
黄岩岛对峙升级,中方已备最坏打算,美媒:轰6和055抵达

黄岩岛对峙升级,中方已备最坏打算,美媒:轰6和055抵达

何氽简史
2026-02-04 20:09:13
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
外壳也不能买!2017年青岛男子花100元买了当摆件,4年后出事了

外壳也不能买!2017年青岛男子花100元买了当摆件,4年后出事了

万象硬核本尊
2026-02-06 20:38:15
乌军一年阵亡不到10000人?俄军:光尸体就给你1.6万多具了

乌军一年阵亡不到10000人?俄军:光尸体就给你1.6万多具了

战风
2026-02-06 15:17:57
Lisa雪地比基尼秀身材,14万羽绒服敞开,回屋烤火萌翻

Lisa雪地比基尼秀身材,14万羽绒服敞开,回屋烤火萌翻

探索新高度
2026-02-05 22:12:43
乘客吐槽地铁LCD“看不清”,地铁:改!

乘客吐槽地铁LCD“看不清”,地铁:改!

BRTV新闻
2026-02-06 20:24:06
被曝关联“骗保”精神病院,董事长疑为实控人!最新声明

被曝关联“骗保”精神病院,董事长疑为实控人!最新声明

南方都市报
2026-02-06 16:05:40
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
66岁山口百惠的残酷家规:儿子40岁,仍在挤电车。

66岁山口百惠的残酷家规:儿子40岁,仍在挤电车。

果妈聊军事
2026-02-05 15:31:06
加拿大人等不及了!民调显示:61%受访者支持进口中国电动汽车

加拿大人等不及了!民调显示:61%受访者支持进口中国电动汽车

明天后天大后天
2026-02-06 17:07:44
江苏女子“摇号”遇到“888”豹子号,价值数百万,犹豫几秒竟选择放弃,车管所:你这人很聪明!

江苏女子“摇号”遇到“888”豹子号,价值数百万,犹豫几秒竟选择放弃,车管所:你这人很聪明!

谭老师地理大课堂
2026-02-05 21:04:50
特斯拉中国AI训练中心已投入使用

特斯拉中国AI训练中心已投入使用

财联社
2026-02-06 19:12:06
仅1个月!CBA官方确认:场均20分全能悍将被裁,2队已火速联系

仅1个月!CBA官方确认:场均20分全能悍将被裁,2队已火速联系

话体坛
2026-02-06 12:05:38
34岁肖战不落座,娱乐圈残酷现实淋漓尽致

34岁肖战不落座,娱乐圈残酷现实淋漓尽致

携手游人间a
2026-02-06 10:48:08
韩国股指期货触发熔断机制

韩国股指期货触发熔断机制

财联社
2026-02-06 08:13:54
2026-02-07 05:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2139842文章数 5382关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

教育
房产
本地
健康
公开课

教育要闻

高考服务处所别错过!3类关键功能解析

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版