1.6 万亿参数的超大模型。
居然在国产芯片上成功跑了起来。
DeepSeek V4 刚发布就打响价格闪电战。
背后还藏着行业不为人知的硬核硬仗。
![]()
直接回击外界说 DeepSeek 迭代慢的质疑。
这次 V4 参数规模直接达到 1.6T。
是 V3 版本的整整两倍。
稳居开源模型里的最高梯队。
完全有实力和头部 AI 厂商正面叫板。
更亮眼的是实现了国产算力深度适配。
DeepSeek 把华为昇腾、英伟达写入技术报告。
在昇腾 NPU 实现 1.5 到 1.73 倍推理加速。
也成为全球首个万亿参数模型。
能在国产算力底座完成训练与推理。
千芯科技董事长陈巍这样评价。
整个适配过程如同爬雪山、过草地。
巨大的适配工作量摆在面前。
让团队没法全力投入性能优化。
但市场已经给出了正向反馈。
发布当天寒武纪、摩尔线程等。
国产芯片企业股价上涨 2% 至 7%。
还官宣全量适配 DeepSeek V4。
V4 发布同时甩出重磅价格炸弹。
Pro 版 API 限时给到 2.5 折优惠。
福利时效一直延续到 2026 年 5 月。
缓存命中输入低至 0.025 元。
未命中 3 元,输出定价 6 元。
相比原价直接大幅下调。
价格几乎和 Flash 版处在同一水平。
官方透露下半年昇腾 950 批量上市。
后续模型价格还会继续下调。
当下行业普遍在上调 Token 定价。
只有 DeepSeek 选择逆势降价。
是算力储备充足,还是用户热度不足?
上线前两天 API 和网页对话都很稳定。
全程没有出现服务器拥堵情况。
市场整体反响也相对冷静。
这背后暗藏的行业信号很值得琢磨。
V4 在架构上有着亮眼创新。
采用 CSA+HCA 混合注意力机制。
把 Token 压缩做到了极致水平。
推理 FLOPs 仅为 V3.2 的 27%。
KV 缓存更是直接降到 10%。
业内专家指出 V4 用了混合精度。
FP4+FP8 的搭配模式。
相比通用 FP32 牺牲了部分准确率。
1.6 万亿超大参数加持下。
模型输出稳定性也迎来不小考验。
实测给 V4 做技术报告翻译解读。
完整翻译流程用了 20 分钟。
短板更明显体现在编程能力上。
技术报告里 Coding 测试集多处空白。
没有和月之暗面、智谱主流模型对标。
DeepSeek 解释对方 API 繁忙无法查询。
也折射出 AI 行业残酷的竞争现状。
头部玩家把 Coding 当作战略制高点。
API 调用量一路暴涨居高不下。
编程能力直接影响 MaaS 业务收入。
也左右着大客户的付费合作意愿。
补齐 Coding 短板成了必闯的关卡。
V4 的意义早已不局限于模型本身。
更证明了国产大模型自主可控可以落地。
适配国产算力也付出了不小代价。
用低精度混合精度降低显存压力。
强化稀疏注意力减少芯片通信损耗。
优化 MoE 策略提升整体运行稳定性。
甚至放弃部分极端基准刷分成绩。
胡延平教授给出专业解读。
超大模型训练对集群要求极高。
每一张芯片都要维持最佳运行状态。
任何一个环节出现不稳就容易失败。
动辄一两个月的训练任务。
随时都有崩盘重来的风险。
DeepSeek 走出了全栈迁移的第一步。
背后依靠整个产业链的协同配合。
芯片良率、性能、基建部署都要跟上。
是整个行业同步成长、水涨船高的过程。
V4 暂时平息了外界的技术质疑。
人才、资本、行业竞争缺一不可。
过去五个月已经有 10 名核心人员离职。
代码核心负责人郭达雅。
被同行以亿元年薪高薪挖走。
他深度参与 V3、Coder 等关键模型研发。
骨干人才不断流失。
不仅打乱研发迭代节奏。
还可能动摇整体技术发展路线。
市场还传出 DeepSeek 融资消息。
整体估值达到 200 亿美元。
阿里、腾讯都被列为潜在投资方。
胡延平分析,模型升级需要巨额投入。
Token 工厂时代本身就是烧钱赛道。
更深层的难题依旧亟待破解。
如何把模型优势转化为持续收入?
如何建立不依赖个人的成熟技术体系?
如何平衡技术探索与商业交付落地?
让 DeepSeek 留在行业最强玩家序列。
但国产大模型的真正决战,才刚刚开始。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.