网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4上线:使用华为芯片训练,性能比Gemini差3-6个月,价格优势明显

0
分享至



出品|搜狐科技

作者郑松毅 常博硕

编辑| 杨 锦

DeepSeek V4,来了!

OpenAI GPT 5.5 前脚刚发布,DeepSeek就亮出了“真家伙”。

就在刚刚,DeepSeek-V4的预览版本正式上线并同步开源。

据官方介绍,DeepSeek-V4拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:


更具产业里程碑意义的是,DeepSeek-V4 从模型设计之初就深度适配国产算力,在华为昇腾芯片生态实测跑通,成为全球首个在国产算力底座上完成训练与推理的万亿参数级模型,打破对海外芯片与框架的长期依赖。


性能比肩顶级闭源模型

价格比Claude便宜21倍

官方实测数据显示,DeepSeek-V4-Pro性能比肩顶级闭源模型。


Agent(智能体)能力方面,相比前代模型,DeepSeek-V4-Pro的能力显著增强。在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。

DeepSeek介绍,目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与Opus 4.6 思考模式存在一定差距。

DeepSeek给出的结论相对克制。在知识与推理任务上,其性能已经超过主流开源模型,并接近Gemini等闭源系统,但仍存在约3到6个月差距。在 agent和代码任务上,其表现接近甚至部分超过Claude Sonnet。

此外,在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型(包括月之暗面的K2.6 Thinking、智谱GLM-5.1 Thinking等),取得了比肩世界顶级闭源模型的优异成绩。


相较之下,DeepSeek-V4-Flash主打性价比,能够提供更加快捷、经济的 API 服务。在 Agent 测评中,DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当,但在高难度任务上仍有差距。

据悉,V4-Pro 与 V4-Flash 最大上下文长度为 1M均同时支持非思考模式与思考模式,其中思考模式支持 reasoning_effort 参数设置思考强度(high/max)。对于复杂的 Agent 场景建议使用思考模式,并设置强度为 max。使用价格如下:


DeepSeek表示,“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。”

再看看国际友商价格对比,可见DeepSeek的实惠:



混合架构解决工程落地痛点

全面适配国产算力

大模型处理超长文本的最大痛点,从来不是 “能不能装下”,而是跑不动、记不住、算不起。随着传统注意力机制呈平方级复杂度攀升,百万Token场景下显存与算力直接 “爆炸”,几乎无法工程落地。

DeepSeek-V4 的发布,标志着大模型正式走出 “参数竞赛”,进入效率优先下一代赛道。

从一口气审计全量代码库、一次性解析千页合同,到全程记住长时间会议、串联多轮复杂智能体任务,V4让AI 真正具备“完整理解、长期记忆、深度推理”的能力,同时把使用成本大幅下拉。

这一切得益于DeepSeek业内首创“CSA (压缩稀疏注意力) + HCA (重度压缩注意力)”的混合架构。用一套“分级压缩 + 分级检索”思路,把效率拉到极致。这一新方法显著减少了计算复杂度,提升了长上下文处理的效率。


具体来看,CSA像给长文本做重点精读。先把每 4 个Token压缩成一个信息块,再用稀疏检索只挑最相关的内容,既保留中段细节,又大幅削减计算量,兼顾精准与效率。HCA像给长文本做大纲速读,把海量信息浓缩成框架级块,专门负责全局逻辑。

官方数据显示:1M Token场景下,V4-Pro 仅需 V3.2 的 27% 推理算力、10% KV 缓存;Flash 版更是低至 10% 算力、7% 缓存。

除了混合注意力,V4 还带来三项关键技术革新,构成完整效率革命:

升级传统残差连接,把信号传播约束在稳定流形上,深层不衰减、训练不炸数值。

Muon 优化器替代传统 AdamW,收敛更快、训练更稳,完美适配 MoE 大模型与低精度训练,解决大批次长上下文训练的抖动难题。

全链路工程优专家并行细粒度通信重叠、TileLang 内核开发、FP4 量化感知训练、异构 KV 缓存管理,从计算、通信、存储全方位降本提速,推理加速最高近2倍。

最受大家关心的,是V4这次是否成功全面适配国产算力?

报告指出,DeepSeek-V4在英伟达 GPU 与华为昇腾 NPU 两大硬件平台上,对细粒度 EP 优化方案完成了全面验证。相较于性能优异的非融合基线方案,该方案在通用推理负载场景下可实现1.50~1.73 倍的加速比。

有业内观点指出,这代表已经完成华为昇腾平台的适配和实测落地。但目前对外开源的只有英伟达GPU版本,昇腾适配代码未开源,属于闭源适配优化。

值得一提的是,寒武纪在软硬一体生态中,已经完成基于 vLLM 推理框架完成对 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的适配,适配代码已开源到 GitHub 社区。

剩下的,就等DeepSeek-V4的实用表现了。还有DeepSeek的首轮融资最终花落谁家,也还是个谜题。

“不诱于誉,不恐于诽,率道而行,端然正己。”

DeepSeek官方在文章最后表示,他们将始终秉持长期主义的原则理念,在尝试与思考中踏实前行,努力向实现 AGI 的目标不断靠近。”




运营编辑 |曹倩审核|孟莎莎




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纳指、标普500指数双双再创新高

纳指、标普500指数双双再创新高

每日经济新闻
2026-04-25 07:15:41
百亿私募一季度持仓曝光:高毅资产冯柳熬不住了?减持海康威视5700万股,重阳投资却趁机抄底

百亿私募一季度持仓曝光:高毅资产冯柳熬不住了?减持海康威视5700万股,重阳投资却趁机抄底

每日经济新闻
2026-04-25 13:36:11
已经定居迪拜,费迪南德出售了他在英国价值1050万镑的豪宅

已经定居迪拜,费迪南德出售了他在英国价值1050万镑的豪宅

懂球帝
2026-04-25 10:53:06
女演员自曝:曾流产5次失去7个宝宝,如今43岁仍努力拼二胎!

女演员自曝:曾流产5次失去7个宝宝,如今43岁仍努力拼二胎!

猪小艳吖
2026-04-24 13:49:15
永不再生! 2022年河北男子潜入保护区挖上千斤, 偷偷种在玉米地里

永不再生! 2022年河北男子潜入保护区挖上千斤, 偷偷种在玉米地里

万象硬核本尊
2026-04-23 19:24:17
手握20多个冠军,嫁外国名将带夫定居广州,如今是中山大学副教授

手握20多个冠军,嫁外国名将带夫定居广州,如今是中山大学副教授

以茶带书
2026-04-16 14:50:51
赵匡胤小舅子:四年吃掉100多女子,赵匡胤袒护,赵光义怒斩

赵匡胤小舅子:四年吃掉100多女子,赵匡胤袒护,赵光义怒斩

爆史君带你读历史
2026-03-17 21:32:47
女子用饮料把男子手中烟给浇灭,得知要被拘留后立马选择和解

女子用饮料把男子手中烟给浇灭,得知要被拘留后立马选择和解

映射生活的身影
2026-04-25 15:40:32
闹大了!女生发帖高呼“卫生巾作为必需品须免费”,评论区一边倒

闹大了!女生发帖高呼“卫生巾作为必需品须免费”,评论区一边倒

火山詩话
2026-04-22 15:38:21
伊朗最高领袖或与普京首次会晤!被曝“身负重伤”:一条腿已手术3次将安假肢,面部烧伤说话困难,与官员通信靠信使接力传递信件

伊朗最高领袖或与普京首次会晤!被曝“身负重伤”:一条腿已手术3次将安假肢,面部烧伤说话困难,与官员通信靠信使接力传递信件

每日经济新闻
2026-04-25 13:48:05
SHE合体爬山!Ella戴老花镜,田馥甄齿痕抢镜,任家萱手惹人心疼

SHE合体爬山!Ella戴老花镜,田馥甄齿痕抢镜,任家萱手惹人心疼

八怪娱
2026-04-25 08:57:09
万科长公主没有选择万科

万科长公主没有选择万科

地产微资讯
2026-04-24 19:33:52
那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

尚曦读史
2025-01-19 12:50:03
向特朗普摊牌!委代总统撕破伪装,亲率几十万大军,决意硬刚美国

向特朗普摊牌!委代总统撕破伪装,亲率几十万大军,决意硬刚美国

而长终
2026-04-24 12:04:37
不玩游戏、偶像包袱重、前胸贴白鹿后背,《奔跑吧》他干嘛来了?

不玩游戏、偶像包袱重、前胸贴白鹿后背,《奔跑吧》他干嘛来了?

洲洲影视娱评
2026-04-25 14:24:44
“多走多动”是错的?医生告诫:过了65岁,走时尽量要做到这6点

“多走多动”是错的?医生告诫:过了65岁,走时尽量要做到这6点

芹姐说生活
2026-04-24 20:41:41
四川一妈妈带儿子买高铁票,结果相隔14个车厢,“距离远还不相通”,12306回应:余票不足时才会被分开,可在上车后协商换座

四川一妈妈带儿子买高铁票,结果相隔14个车厢,“距离远还不相通”,12306回应:余票不足时才会被分开,可在上车后协商换座

台州交通广播
2026-04-24 23:52:56
值40万元!甘肃农民为报仇套住一只杀了吃,5年后转手卖出皮和骨

值40万元!甘肃农民为报仇套住一只杀了吃,5年后转手卖出皮和骨

米果说识
2026-04-05 16:43:44
两位知名港星声援马蹄露!原海军航空兵黄竣锋发声,广东雨神拉票

两位知名港星声援马蹄露!原海军航空兵黄竣锋发声,广东雨神拉票

裕丰娱间说
2026-04-24 10:27:02
特朗普怎么都没料到,制裁伊拉克不成,反而硬生生促成双伊联手

特朗普怎么都没料到,制裁伊拉克不成,反而硬生生促成双伊联手

策前论
2026-04-25 15:21:35
2026-04-25 16:56:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4789文章数 9186关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

男子登机口被拦 对方没称重直接收取200元行李逾重费

头条要闻

男子登机口被拦 对方没称重直接收取200元行李逾重费

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

本地
时尚
数码
亲子
公开课

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

上新|| 入夏第一件短袖,买它!

数码要闻

英伟达适配DeepSeek-V4 AI模型,开箱性能超150 tokens/sec/user

亲子要闻

看来是真的不想写作业

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版