DeepSeek，V4适配昇腾，百万token引黄仁勋惊叹|英伟达|算力基础设施|deepseek

DeepSeek，V4适配昇腾，百万token引黄仁勋惊叹

分享至

要理解V4，得先看V3的底子。2024年底，行业还在信奉“参数越大越强”，训练千亿模型动辄千万美元。DeepSeek V3用MoE架构（就像公司只让最擅长的部门干活），把6710亿总参数的训练成本压到500万出头，靠的是把每一分算力都榨干。

V4直接把这条路走到极致：总参数跃升到1.6万亿，注意力机制升级成DSA2，每层384个专家只激活6个，残差连接用Hyper-Connections。但最炸的不是参数，是它从英伟达生态彻底转到了华为昇腾芯片上。

这不是换个驱动那么简单——之前DeepSeek R1对英伟达PTX底层优化到骨髓，那是它“花小钱办大事”的核心。转到昇腾后，所有底层代码、调度逻辑全得重写！昇腾的带宽、CANN框架成熟度不如CUDA，跨节点扩展还得靠光模块，延迟和同步开销都大。工程师花了整整15个月才搞定，原计划春节发布硬是拖到4月。

黄仁勋的话点破了关键：“这对美国是糟糕的结果”。一旦顶级模型在国产硬件跑通，英伟达的护城河就真的要破了。DeepSeek官方明确说，V4下半年会正式支持华为算力——这步棋，直接捅破了“AI必须依赖美国芯片”的窗户纸。

架构优化最终要落地到成本上。过去一年，AI行业的痛点已经从“训得出”变成“用得起”——2026年中国日均Token调用量突破140万亿，推理成本成了命门。

V4在推理端砍了两刀：一是DSA2稀疏注意力，直接压缩Token维度，计算和显存需求大降；二是支持FP4精度，显存要求比FP8再降一半。路透社推算，V4每个Token仅激活370亿参数，推理成本和V3持平——参数量翻了一倍，成本却没涨！这意味着企业和创业者不用加预算，就能用上更大的模型。

V4发布时，牌桌早就变了天。大厂们动作密集到每周都有新东西。云厂商也从“押独苗”变成“模型超市”，把各家模型放一个平台分发——掌握渠道比单一技术优势更赚钱。而DeepSeek面临的局面更复杂：Agent赛道火到Token消耗指数级增长，智谱、MiniMax靠API调用闷声发财，甚至转向闭源。

大模型赛道最残酷的是，你得在飞驰的列车上换轮子——停三个月就可能出局。DeepSeek停了15个月，现在亮出的牌是王炸吗？

DeepSeek V3改变了训练成本的基线，V4则把刀砍向了推理端和硬件生态。它用万亿模型证明：国产算力也能跑顶级AI，开源能把“水电煤”的价格压到地板上。

黄仁勋的焦虑不是没道理——当中国的AI模型不再依赖英伟达芯片，美国的技术垄断就少了一块重要的拼图。而对行业来说，V4的开源相当于给所有玩家递了一把钥匙：不管是大厂还是中小团队，都能站在万亿模型的肩膀上创新。

最后问一句：你觉得DeepSeek这次的V4能打破英伟达的垄断吗？国产大模型的下一个突破口会在哪里？评论区聊聊你的看法，也别忘了点赞收藏，让更多人看到国产AI的硬实力！

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.