网易首页 > 网易号 > 正文 申请入驻

闭源美国,开源中国!Kimi代码称王,通义数学夺冠,这份榜单必须转发

0
分享至

来源:市场资讯

来源:人工智能顾问

日前,国内权威大模型评测机构SuperCLUE正式发布《2025年年度中文大模型基准测评报告》。这份被誉为“AI界年终成绩单”的重磅榜单,再次点燃了行业关注。

在全球23个顶尖大模型的激烈角逐中,海外巨头Anthropic、谷歌、OpenAI依旧稳居综合能力前三甲,但国产模型已不再“陪跑”——以Kimi-K2.5-Thinking与Qwen3-Max-Thinking为代表的中国力量强势突围,不仅在综合排名中紧随其后,更在代码生成与数学推理两大“硬科技”赛道中摘得全球桂冠。

这标志着国产大模型正从“追赶者”迈向“并行者”,甚至在特定领域实现“领跑”。

01 海外闭源模型领跑,国产模型紧咬不放

本次测评从数学推理、科学理解、代码生成等六大核心维度,全面检验大模型的综合智能水平。最终综合得分排名中:

●第1名:Claude-Opus-4.5-Reasoning(Anthropic)—68.25分

●第2名:Gemini-3-Pro-Preview(谷歌)—65.59分

●第3名:GPT-5.2(high)(OpenAI)—64.32分

三大海外闭源模型凭借其强大的工程优化与数据积累,继续领跑全球。

但值得注意的是,第4名由国产开源模型Kimi-K2.5-Thinking以61.50分强势拿下,成为综合排名最高的国产模型;而阿里云推出的高性能模型Qwen3-Max-Thinking则以60.61分位列第6,紧随其后,展现出中国头部AI企业的双线作战能力。


02 单项登顶:国产模型实现“局部反超”

如果说综合排名仍显差距,那么在细分赛道上,国产模型已实现历史性突破:

●代码生成单项赛:Kimi-K2.5-Thinking以53.33分高居榜首,超越GPT-5.2与Gemini-3-Pro,成为本次测评中代码生成能力最强的开源模型。其在算法逻辑、代码结构与跨语言适配上的表现尤为突出,被评测团队评价为“具备工程级落地潜力”。

●数学推理单项赛:Qwen3-Max-Thinking与谷歌Gemini-3-Pro-Preview以80.87分并列全球第一!这是国产高性能模型首次在高难度数学任务中与国际顶级模型比肩。评测专家指出,其在复杂符号推理、多步演算与异常情况处理中展现出接近人类专家的稳定性。

“这不仅是分数的胜利,更是中国大模型在底层推理能力上的‘硬核突破’。”SuperCLUE技术负责人在解读报告时强调,“数学与代码,是AI智能的‘试金石’。国产模型能在此类任务中登顶,说明我们的基础模型架构与训练范式已进入世界先进行列。”

03 开源阵营“中国时刻”:Top5全被国产包揽

更令人振奋的是,在开源模型榜单中,国产力量实现了“绝对统治”——综合排名前五的开源模型全部来自中国,形成“中国方阵”。

其中,Kimi-K2.5-Thinking作为开源组最高分得主,不仅在代码任务中一骑绝尘,其在科学推理与知识应用中的表现也大幅领先同类开源模型。

而Qwen系列、DeepSeek、GLM等开源体系也悉数上榜,展现出国内大模型生态的蓬勃活力与技术沉淀。

“开源不是‘廉价替代’,而是创新的加速器。”一位参与评测的高校研究员表示,“国产开源模型的集体崛起,正在为金融、科研、教育等垂直领域提供低成本、高可控的AI底座,这是生态级的胜利。”

04 从“追赶到并行”:国产大模型的进化逻辑

回顾2025年,中国大模型产业经历了从“参数竞赛”到“能力攻坚”的战略转型。各大厂商不再盲目追求“更大”,而是聚焦“更准”“更稳”“更安全”。

Kimi团队在模型推理架构上的创新,通义实验室在数学预训练数据清洗与符号增强上的深耕,正是这种“技术回归本质”理念的体现。同时,国家在AI安全、数据合规、评测体系等方面的制度建设也为模型发展提供了“中国标准”。

SuperCLUE作为独立第三方评测平台,其覆盖70+项子能力、采用多轮开放式题目的测评机制,已成为国内最具公信力的“AI能力标尺”。

尽管在综合能力上与国际顶尖模型仍有差距,中国民营科技实业家协会人工智能产业分会会长杨光润却认为,国产模型的“差异化突围”路径已清晰可见:以开源为基,以硬核能力为矛,以本土化场景为盾。

随着视觉语言模型(VLM)和具身智能的快速发展,大模型正从“对话工具”进化为“智能体大脑”。而国产模型在代码与数学上的领先,或将为机器人、自动驾驶、科研计算等高阶智能场景提供关键支撑。

2026年的钟声已响,AI竞赛进入深水区。

海外巨头仍在领跑,但国产模型已不再尾随。中国民营科技实业家协会人工智能产业分会会长杨光润认为,这一次,中国不仅没有缺席,更在多个关键赛道上,握有了定义规则的可能。

当Kimi写出最优解,当通义算出正确答案——

那不只是模型的胜利,更是中国AI生态的集体觉醒。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
向太自曝“向佐有几段恋情都是我拆散的”,如果儿媳妇不是郭碧婷,自己未必是好婆婆

向太自曝“向佐有几段恋情都是我拆散的”,如果儿媳妇不是郭碧婷,自己未必是好婆婆

小椰的奶奶
2026-04-08 00:17:49
斯洛特:伊萨克能上但不会首发;踢曼城的前35分钟给了我信心

斯洛特:伊萨克能上但不会首发;踢曼城的前35分钟给了我信心

懂球帝
2026-04-08 03:20:07
44分13板9助!辽篮双星终于硬气一回:给他俩顶薪还真值了?

44分13板9助!辽篮双星终于硬气一回:给他俩顶薪还真值了?

篮球快餐车
2026-04-08 00:11:58
最新数据公布!美军中央司令部:373名美军在对伊朗行动中受伤,5人伤势严重

最新数据公布!美军中央司令部:373名美军在对伊朗行动中受伤,5人伤势严重

环球网资讯
2026-04-07 10:39:10
用完就完了,剩下的路自己走

用完就完了,剩下的路自己走

笨鸟摘文
2026-04-04 21:36:13
这下严重了!三大运营商2025年移动A...

这下严重了!三大运营商2025年移动A...

新浪财经
2026-04-07 20:10:59
凯恩能否踢满90分钟?孔帕尼:我认为可以,他训练状态很出色

凯恩能否踢满90分钟?孔帕尼:我认为可以,他训练状态很出色

懂球帝
2026-04-08 03:09:04
拉姆塞宣布退役

拉姆塞宣布退役

绿茵情报局
2026-04-07 18:46:34
NASA宇航员绕月时干了件事:40万人同时看哭了

NASA宇航员绕月时干了件事:40万人同时看哭了

全栈遛狗员
2026-04-07 06:15:51
诈尸了!哈梅内伊死而复生?特朗普大秀军功,伊朗做出了一个举动

诈尸了!哈梅内伊死而复生?特朗普大秀军功,伊朗做出了一个举动

起喜电影
2026-04-07 16:21:57
杨丽萍被偶遇,纯素颜下巴叠出5层褶,原生指甲长又白看着很粗糙

杨丽萍被偶遇,纯素颜下巴叠出5层褶,原生指甲长又白看着很粗糙

削桐作琴
2026-02-25 18:38:30
看上海外婆,再看北京姥姥,我悟了:老了尽量少戴黄金、穿老年装

看上海外婆,再看北京姥姥,我悟了:老了尽量少戴黄金、穿老年装

孤傲何妨初
2026-03-03 14:35:38
放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

梁濆爱玩车
2026-04-08 03:00:30
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
84栋,价值14亿!深圳最惨别墅群,沦为月租250块当停车场

84栋,价值14亿!深圳最惨别墅群,沦为月租250块当停车场

GA环球建筑
2026-04-06 23:00:49
董宇辉风波后首现身!鬓角白发惹人议,三十出头熬成这样?

董宇辉风波后首现身!鬓角白发惹人议,三十出头熬成这样?

雷科技
2026-04-07 12:03:42
一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

忠于法纪
2026-04-06 15:10:31
过于较真、操心太多,不是性格问题,是一种心理缺陷。别不信

过于较真、操心太多,不是性格问题,是一种心理缺陷。别不信

清风拂心
2026-04-02 08:15:03
唏嘘!前曼联巨星彻底陨落,30 岁竟落得这般下场

唏嘘!前曼联巨星彻底陨落,30 岁竟落得这般下场

澜归序
2026-03-29 03:30:49
郑丽文抵达上海,大陆高规格接待,国民党大佬:两岸绝不能动武

郑丽文抵达上海,大陆高规格接待,国民党大佬:两岸绝不能动武

风干迷茫人
2026-04-08 02:16:18
2026-04-08 03:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2782077文章数 6480关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普:伊朗人愿为自由承受轰炸

头条要闻

特朗普:伊朗人愿为自由承受轰炸

体育要闻

阿森纳客战葡体:哲凯赖什战旧主,马杜埃凯、厄德高首发

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

教育
家居
亲子
手机
艺术

教育要闻

这位学生自制的学具你见过吗?

家居要闻

雅致惬意 感知生活之美

亲子要闻

春天娃长个黄金期,喝对黑豆水,个子悄悄往上窜

手机要闻

Ultra取消,Pro Max上位,华为Nova 16系列产线大调整!

艺术要闻

深圳最惨地王复活?70亿起拍,曾规划中国第一高楼!

无障碍浏览 进入关怀版