网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4来了!华为昇腾加持,还是那个“价格屠夫”

0
分享至

OpenAI刚刚发布GPT-5.5几个小时后,业界期待已久的DeepSeek-V4终于上线了,这次是两个版本,价格还是一贯DeepSeek的“价格屠夫”风格。

4月24日,DeepSeek宣布,全新系列模型 DeepSeek-V4的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在 Agent(智能体)能力、世界知识和推理性能上均实现国内与开源领域的领先。

距离去年1月的大版本更新已经过去了15个月,DeepSeek这次在海内外全网发布大更新后,热度飙升。海外社媒有不少网友也第一时间关注了DeepSeek的更新,在DeepSeek 评论区,大家纷纷表示,“鲸鱼回来了”“便宜又强大”“这太震撼了,如果那些效率突破成立的话”。


V4模型按大小分为Pro和Flash两个版本,也对应目前官方网页端和APP界面的专家模式和快速模式。其中Pro参数为1.6万亿,激活490亿,预训练数据33万亿;Flash参数为2840亿,激活130亿,预训练数据32万亿。

Pro和Flash两个版本的上下文都是1M(百万),均同时支持非思考模式与思考模式。

“从现在开始,一百万上下文将是 DeepSeek 所有官方服务的标配。”DeepSeek在文章中表示,V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。


从价格看,DeepSeek 提到,V4-Pro每百万tokens输入是1元,输出是12元,V4-Flash每百万tokens输入是0.2元,输出是2元。“太普惠了,还是那个DeepSeek。”有网友感慨。

值得一提的是,业界一直在关注DeepSeek-V4是否会使用国产算力,从推文来看确实是与华为昇腾合作。DeepSeek在小字中表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。

在具体性能上,两个版本的定位不同, V4-Pro性能比肩顶级闭源模型,而V4-Flash是更快捷高效的经济之选。

相比前代模型, V4-Pro 的Agent能力显著增强。在 Agentic Coding(智能体编程)评测中,V4-Pro达到当前开源模型最佳水平。

官网表示,DeepSeek-V4已成为DeepSeek内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Anthropic的Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但也提到,新模型仍与 Opus 4.6 思考模式存在一定差距。

在世界知识测评中,V4-Pro大幅领先其他开源模型,稍逊于顶尖闭源模型 Gemini-Pro-3.1。在数学、STEM、竞赛型代码的测评中, V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。

在推理上,官方在论文中表示,总体约落后前沿闭源模型 3–6 个月。Pro‑Max(Max表示最大推理能力模式)推理扩展后在标准推理基准上优于 OpenAI的GPT‑5.2、谷歌Gemini‑3.0‑Pro,略逊于GPT‑5.4、Gemini‑3.1‑Pro。

相比V4-Pro, V4-Flash 在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。在 Agent 测评中, V4-Flash 在简单任务上与V4-Pro 旗鼓相当,但在高难度任务上仍有差距。

目前,DeepSeek API已同步上线V4-Pro与V4-Flash,支持OpenAI ChatCompletions接口与Anthropic接口。

在发布消息的同时,DeepSeek也更新了一篇长达58页的论文,其中提到一些核心技术方面的信息。


相比 DeepSeek‑V3 架构,DeepSeek‑V4 系列保留 DeepSeekMoE 框架与多令牌预测(MTP)策略,并引入多项关键架构与优化创新:混合注意力架构大幅提升长上下文处理效率,流形约束超连接(mHC)增强了传统残差连接,提升信号传播稳定性,而Muon 优化器加快收敛速度,提升训练稳定性。

论文中作者团队提到,DeepSeek‑V4系列突破了超长上下文效率壁垒,原生高效支持百万令牌上下文,为测试时扩展、长周期任务、在线学习奠定基础。但局限在于,为追求长上下文效率,架构设计较为激进,保留较多经验性组件,整体偏复杂;复杂指令遵循、格式美观、极端摘要仍有提升空间。

DeepSeek认为,未来的研究方向是精简架构、研究训练稳定性基础理论、探索更稀疏的嵌入等新稀疏维度、强化长周期多轮智能体任务、加入多模态能力等。在最后,DeepSeek也表达了公司的理念,秉持长期主义的原则,“努力向实现AGI的目标不断靠近”。

在这次更新前不久,DeepSeek还传出了首次启动外部融资的风声。有报道称,DeepSeek正在以超100亿美元(约合人民币682亿元)的估值,计划募集不少于3亿美元(约合人民币20亿元)资金。对于长期拒绝外部资本、强调独立性的DeepSeek而言,此举被视为一种战略上的重大转向。

据悉,通过引入外部资金,DeepSeek将有更多计算资源开发新模型,同时能提供更具竞争力的薪酬来防止顶尖研究员流失。这次V4并没有发布多模态版本,也有猜测是由于算力和资金的不足。多模态已成为众多模型厂商的标配,DeepSeek至今还未切入,从这个意义上看融资确实迫在眉睫。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三星三折叠新机曝光:S Pen藏进铰链里

三星三折叠新机曝光:S Pen藏进铰链里

算力游侠
2026-05-12 08:30:21
5000名毕业生齐声嘘AI:这场毕业典礼演讲为何翻车?

5000名毕业生齐声嘘AI:这场毕业典礼演讲为何翻车?

碳基打工人
2026-05-12 08:53:39
53岁王军霞近况:退休定居美国,三个孩子三个爹,人生令人唏嘘

53岁王军霞近况:退休定居美国,三个孩子三个爹,人生令人唏嘘

翰飞观事
2026-04-15 19:56:03
谁,在为俞浩的“表演”埋单?

谁,在为俞浩的“表演”埋单?

小蜜情感说
2026-05-12 16:06:53
特朗普专机即将飞向北京,噩耗传出,他最不想看到的局面,出现了

特朗普专机即将飞向北京,噩耗传出,他最不想看到的局面,出现了

古史青云啊
2026-05-13 14:30:02
2026北京中小学暑假放假时间

2026北京中小学暑假放假时间

教书心
2026-05-13 09:16:22
瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

运动健身号
2026-05-13 07:20:06
小马云直播4天后,越来越多网友已清醒,他已18岁,请好好善待!

小马云直播4天后,越来越多网友已清醒,他已18岁,请好好善待!

黔乡小姊妹
2026-05-13 08:18:13
在单位里永远要记住一个人际关系的残酷实情:如果领导有事不直接找你,反倒让同事传话告诉你,只能说明这两个问题

在单位里永远要记住一个人际关系的残酷实情:如果领导有事不直接找你,反倒让同事传话告诉你,只能说明这两个问题

心理观察局
2026-05-08 09:11:06
不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

细说职场
2026-04-26 21:04:20
ABC报:皇马团队多次试图结束发布会,弗洛伦蒂诺仍执意继续

ABC报:皇马团队多次试图结束发布会,弗洛伦蒂诺仍执意继续

懂球帝
2026-05-13 05:25:11
向太:我们碧婷过得佛系,拿捏到了我们的心,我不需要她会来事

向太:我们碧婷过得佛系,拿捏到了我们的心,我不需要她会来事

体育一点就通
2026-05-13 11:50:30
北大学生体验插翅飞行,仅一周后大脑就以为人长了翅膀

北大学生体验插翅飞行,仅一周后大脑就以为人长了翅膀

返朴
2026-05-12 09:57:32
有一个建议:台湾回归后即不设省,也不设任何行政区

有一个建议:台湾回归后即不设省,也不设任何行政区

安安说
2026-03-17 12:05:05
10年后,小米再次沦为Others

10年后,小米再次沦为Others

数智研究社
2026-05-11 08:00:17
Model Y高速跑最短,达成率却最高,这事儿到底哪不对劲

Model Y高速跑最短,达成率却最高,这事儿到底哪不对劲

蓝色海边
2026-05-12 11:03:55
曾轰动全国的67岁生娃夫妻,如今丈夫累到脸发黑、6岁女儿当“护工”:当初的坚持,真的值得吗?

曾轰动全国的67岁生娃夫妻,如今丈夫累到脸发黑、6岁女儿当“护工”:当初的坚持,真的值得吗?

健康管理师吉吉
2026-05-13 12:08:13
赢下天王山之战!文班亚马27+17+5,马刺126-97大胜森林狼

赢下天王山之战!文班亚马27+17+5,马刺126-97大胜森林狼

全景体育V
2026-05-13 15:03:53
若你的小脚趾有2瓣趾甲,或许不是纯正汉人,而是这一种族的后裔

若你的小脚趾有2瓣趾甲,或许不是纯正汉人,而是这一种族的后裔

抽象派大师
2026-05-12 20:25:28
上海局部突发冰雹黄色预警,当前四区雷电黄色预警高挂!这些区域下班赶紧回家

上海局部突发冰雹黄色预警,当前四区雷电黄色预警高挂!这些区域下班赶紧回家

新民晚报
2026-05-12 19:04:25
2026-05-13 15:35:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
252924文章数 622311关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

创业板指突破4037.96点创历史新高

汽车要闻

4月新能源渗透率首破60% BBA无车型销量破万

态度原创

健康
数码
艺术
房产
公开课

干细胞能让人“返老还童”吗

数码要闻

三星Exynos 2700或弃用WLP封装 成本压力成主因

艺术要闻

果然是经济强省!浙江县域第一高楼,高约300米!

房产要闻

海口禁摩,3.3万名车主要慌了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版