网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4登榜,全球开源前5都是中国模型了

0
分享至

4月24日,沉寂15个月的DeepSeek发布并开源了全新一代模型DeepSeek-V4。这款搭载百万词元超长上下文,在Agent 能力、世界知识、推理性能方面大幅提升,被海外开发者直呼 “鲸鱼回归”。

在刚刚更新的全球权威Artificial Analysis智能指数开源模型榜单上,DeepSeek V4 Pro(Max)相比上一代模型V3.2提升了10分,以52分的成绩进入全球开源模型的前两位。


来源:Artificial Analysis智能指数官网

拿到54分成绩的是在本周一发布的中国万亿参数开源模型Kimi K2.6,也是全球排名前五的开源模型中,同时支持图片和视频理解的多模态模型,其他四个是纯文本模型。

前后相差不到四天,两个万亿参数级开源模型先后落地。

巧合的是,这并非中国AI开源双雄的首次 “不谋而合”。从2025年1月至今,DeepSeek与Kimi已发生多次技术发布“撞车”,从推理模型、注意力架构到数学推理,再到此次万亿参数大模型迭代,两家AI创业公司始终踩着同一条技术节拍前行。

DeepSeek与Kimi的技术“撞车”并非偶然,而是对AGI技术顶峰的同向追逐,更是中国开源AI阵营抱团突围、直面美国闭源巨头的战略默契。当全球AI竞争从单一技术比拼升级为生态对抗,这对由两位广东籍创始人带领的创业双子星,正以 “技术共生、互利互惠” 的中国模式,尝试改写全球AI格局。

连续四次技术“撞车”

2025年1月20日,DeepSeek-R1与Kimi K1.5之间的“撞车”是最戏剧性的一次。

当晚,DeepSeek发布R1推理模型并以MIT协议完全开源。不到两小时后,Kimi K1.5多模态思考模型亮相。两个模型的目标高度一致:让大模型从“张嘴就来”进化为“先想后说”——即通过强化学习跑通Long-CoT(长思维链)推理,复现OpenAI-o1的核心能力。

随后,OpenAI在一篇官方论文中点名指出,DeepSeek和Kimi是“最早复现OpenAI-o1 Long-CoT”的两家公司。 当全世界都在迷茫OpenAI的o1思路时,中国这两家公司几乎同步给出了独立的复现方案。


来源:OpenAI《Competitive Programming with Large Reasoning Models》论文

2025年2月,双方不约而同地改造Transformer注意力机制。DeepSeek发布NSA(Native Sparse Attention,原生稀疏注意力),Kimi发布MoBA(混合块注意力)。稀疏注意力是解决Transformer长上下文成本爆炸问题的关键方向,能够大幅降低KV缓存占用和注意力计算量。两家在几乎同一个时间窗口给出了各自的创新解法。

2025年4月,Kimi推出Kimina-Prover Preview数学推理专项模型,专注数学定理证明与复杂推理。不久后,DeepSeek-Prover-V2发布。两者都走了“自验证”路线——通过自我验证机制提升数学推理的准确性和可靠性。

2026年初,DeepSeek发布mHC(流形约束超链接),系统性地改造深度神经网络中沿用了近十年的传统残差连接结构,增强深层网络信号传播的稳定性。两个月后,Kimi放出新成果“注意力残差”,将Transformer的核心原理“注意力”重新应用到残差连接上,引发AI大神Andrej Karpathy和埃隆·马斯克等人点赞,两人都对该技术表现出浓厚兴趣。

另外值得关注的一个细节是,DeepSeek V4的训练方案中的关键变化之一是引入Muon优化器。Muon由Keller Jordan等人提出,但最初仅在小模型上验证其效果。而Kimi在2025年2月发布的论文《Muon is Scalable for LLM Training》验证了Muon在480亿参数模型的效果。在2025年7月发布的万亿参数模型K2上继续使用Muon优化器,并且做了改进解决训练不稳定的难题,最终在在相同训练量下实现了2倍的token效率提升。

杨植麟在今年3月英伟达GTC 2026演讲中,专门用最长篇幅讲解Muon。如今,这项技术成为DeepSeek V4在架构层的三项关键升级之一,提升了训练稳定性。


来源:Deepseek V4的Hugging Face主页

开源阵营向闭源巨头发起总攻

OpenAI在DeepSeek V4发布前一天上线了GPT-5.5,每百万输出token定价30美元。而DeepSeek V4 Pro的输出定价仅为每百万token 24元人民币(约3.4美元),约为GPT-5.5的十分之一。

DeepSeek V4-Pro在发布的公众号中称,其在数学、STEM和竞赛型代码的评测中超越所有已公开开源模型。

而Kimi K2.6则在公众号中称,新模型在Humanity’s Last Exam全工具测试中以54.0%的得分登顶;在DeepSearchQA深度检索中以92.5%的得分领先于GPT-5.4、Gemini 3.1 Pro和Claude Opus 4.6。

OpenRouter数据显示,K2.6在发布后迅速跃居每日榜单的榜首,跟DeepSeek一起位居全球前五。


来源:OpenRouter官网(2026年04月25日)

Meta新模型Muse Spark发布时,官方博客对比的两个基准模型正是DeepSeek和Kimi。

中美科技竞争的一个核心战场是算力供应链。此次,DeepSeek V4明确支持华为昇腾950芯片。DeepSeek在官方定价说明的小字脚注中注明:“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调”。华为方面同步宣布,昇腾超节点全系产品已完成对V4的适配与支持,通过芯模技术紧密协同,实现了高吞吐、低时延的推理部署。

Kimi在国产芯片领域同样走在前列。Kimi K2.6支持国产芯片混合推理,其技术路线强调在端侧和云端协同运行,降低对英伟达CUDA生态的依赖。Kimi从K2 Thinking就加入了INT4量化技术——通过模型量化推理,显著提升了对国产加速芯片的兼容性。华为昇腾官方平台也披露,已完成Kimi K2.5在昇腾AI上的部署,实现多模态推理性能的全面跃升。

两家同时推国产芯片适配:DeepSeek助力昇腾,Kimi开源异构推理路线。

黄仁勋在英伟达2026年度GPU技术大会的主题演讲中,用来展示下一代Blackwell Ultra芯片性能的大模型,就是Kimi K2.5,将中国开源模型作为衡量下一代GPU的标杆。


来源:黄仁勋在英伟达GTC2026大会的主题演讲

梁文锋与杨植麟,两个广东人,相差八岁,一位从量化跨界,一位深耕学术。如今,他们各自带领的团队分别成长为中国的“万亿开源头部”,推动行业协同互补的“团战”。梁文锋和杨植麟都相信,开源让每个企业、每个研究者非常低门槛地获取智能,是推动AI发展的最重要基石。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别再为华晨宇的眼泪买单!一个舞台搞得像祭坛,不但要拆还要深挖

别再为华晨宇的眼泪买单!一个舞台搞得像祭坛,不但要拆还要深挖

小娱乐悠悠
2026-04-25 11:46:19
世界羽联会员大会投票通过“15分制”改革,将于2027年实行

世界羽联会员大会投票通过“15分制”改革,将于2027年实行

懂球帝
2026-04-25 22:23:26
场均25+9+8夺赛点!詹皇再这么打下去,湖人就郁闷了,一堆大合同

场均25+9+8夺赛点!詹皇再这么打下去,湖人就郁闷了,一堆大合同

不想长大的莫扎特
2026-04-25 19:12:53
【意大利】足坛丑闻!几十名球星赛后集体嫖娼,还吸“笑气”,接待姑娘才拿3、400RMB

【意大利】足坛丑闻!几十名球星赛后集体嫖娼,还吸“笑气”,接待姑娘才拿3、400RMB

鲁晓芙看欧洲
2026-04-25 06:40:38
交警提醒:5月开始全国严查,这些行为一律扣分罚款,车主别大意

交警提醒:5月开始全国严查,这些行为一律扣分罚款,车主别大意

复转这些年
2026-04-25 23:39:55
唐伯虎真迹现身美国,世上仅此一件,网友:让当代书家汗颜

唐伯虎真迹现身美国,世上仅此一件,网友:让当代书家汗颜

幸福娃3790
2025-12-04 11:10:09
伊朗巴斯基被投毒:100人中毒倒下

伊朗巴斯基被投毒:100人中毒倒下

桂系007
2026-04-25 17:29:24
世锦赛战报:世界冠军1胜2平1负1领先1落后,赵心童9-7剑指8强了

世锦赛战报:世界冠军1胜2平1负1领先1落后,赵心童9-7剑指8强了

球场没跑道
2026-04-26 00:45:35
犀利!《夜王》登顶港片票房第三,黄子华包揽香港影史三甲

犀利!《夜王》登顶港片票房第三,黄子华包揽香港影史三甲

TVB剧评社
2026-04-25 22:01:53
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
24小时3尸4命!河北男子因彩礼谈崩灭门女友家,最高法核准死刑!

24小时3尸4命!河北男子因彩礼谈崩灭门女友家,最高法核准死刑!

奇思妙想草叶君
2026-04-16 13:15:13
掘金替补不让马刺赢的那一刻开始,两支球队的命运悄然改变了

掘金替补不让马刺赢的那一刻开始,两支球队的命运悄然改变了

静易墨
2026-04-25 21:36:31
四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

流苏晚晴
2026-04-19 20:34:47
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
机关事业单位人员大清理,这 5 类人员将被清退

机关事业单位人员大清理,这 5 类人员将被清退

细说职场
2026-04-25 13:38:47
中国新电池来了!6分钟满电、1500公里续航,改写全球新能源格局

中国新电池来了!6分钟满电、1500公里续航,改写全球新能源格局

娱乐圈的笔娱君
2026-04-24 18:01:29
学历贬值到什么程度了:超5900名中小学老师拥有博士学历!

学历贬值到什么程度了:超5900名中小学老师拥有博士学历!

灯锦年
2026-04-25 12:03:48
利物浦官方:伍德曼当选与水晶宫一役队内最佳球员

利物浦官方:伍德曼当选与水晶宫一役队内最佳球员

懂球帝
2026-04-26 01:55:27
阿尔卡拉斯退赛法网:卫冕之路戛然而止

阿尔卡拉斯退赛法网:卫冕之路戛然而止

体育硬核说
2026-04-25 00:12:24
斯诺克世锦赛:赵心童扩大优势!3次上手零封丁俊晖,9-6冲8强!

斯诺克世锦赛:赵心童扩大优势!3次上手零封丁俊晖,9-6冲8强!

刘姚尧的文字城堡
2026-04-26 00:04:00
2026-04-26 02:19:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
251519文章数 622125关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

艺术
房产
教育
家居
数码

艺术要闻

最适合作为抖音总部的大楼,它在福建莆田!

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

教育要闻

一根风筝线,牵起一个校长的教育梦

家居要闻

自然肌理 温润美学

数码要闻

联发科亮相2026北京车展:主动式智能体座舱解决方案

无障碍浏览 进入关怀版