![]()
要理解V4,得先看V3的底子。2024年底,行业还在信奉“参数越大越强”,训练千亿模型动辄千万美元。DeepSeek V3用MoE架构(就像公司只让最擅长的部门干活),把6710亿总参数的训练成本压到500万出头,靠的是把每一分算力都榨干。
V4直接把这条路走到极致:总参数跃升到1.6万亿,注意力机制升级成DSA2,每层384个专家只激活6个,残差连接用Hyper-Connections。但最炸的不是参数,是它从英伟达生态彻底转到了华为昇腾芯片上。
这不是换个驱动那么简单——之前DeepSeek R1对英伟达PTX底层优化到骨髓,那是它“花小钱办大事”的核心。转到昇腾后,所有底层代码、调度逻辑全得重写!昇腾的带宽、CANN框架成熟度不如CUDA,跨节点扩展还得靠光模块,延迟和同步开销都大。工程师花了整整15个月才搞定,原计划春节发布硬是拖到4月。
黄仁勋的话点破了关键:“这对美国是糟糕的结果”。一旦顶级模型在国产硬件跑通,英伟达的护城河就真的要破了。DeepSeek官方明确说,V4下半年会正式支持华为算力——这步棋,直接捅破了“AI必须依赖美国芯片”的窗户纸。
![]()
架构优化最终要落地到成本上。过去一年,AI行业的痛点已经从“训得出”变成“用得起”——2026年中国日均Token调用量突破140万亿,推理成本成了命门。
V4在推理端砍了两刀:一是DSA2稀疏注意力,直接压缩Token维度,计算和显存需求大降;二是支持FP4精度,显存要求比FP8再降一半。路透社推算,V4每个Token仅激活370亿参数,推理成本和V3持平——参数量翻了一倍,成本却没涨!这意味着企业和创业者不用加预算,就能用上更大的模型。
![]()
V4发布时,牌桌早就变了天。大厂们动作密集到每周都有新东西。云厂商也从“押独苗”变成“模型超市”,把各家模型放一个平台分发——掌握渠道比单一技术优势更赚钱。而DeepSeek面临的局面更复杂:Agent赛道火到Token消耗指数级增长,智谱、MiniMax靠API调用闷声发财,甚至转向闭源。
大模型赛道最残酷的是,你得在飞驰的列车上换轮子——停三个月就可能出局。DeepSeek停了15个月,现在亮出的牌是王炸吗?
![]()
DeepSeek V3改变了训练成本的基线,V4则把刀砍向了推理端和硬件生态。它用万亿模型证明:国产算力也能跑顶级AI,开源能把“水电煤”的价格压到地板上。
黄仁勋的焦虑不是没道理——当中国的AI模型不再依赖英伟达芯片,美国的技术垄断就少了一块重要的拼图。而对行业来说,V4的开源相当于给所有玩家递了一把钥匙:不管是大厂还是中小团队,都能站在万亿模型的肩膀上创新。
最后问一句:你觉得DeepSeek这次的V4能打破英伟达的垄断吗?国产大模型的下一个突破口会在哪里?评论区聊聊你的看法,也别忘了点赞收藏,让更多人看到国产AI的硬实力!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.