网易首页 > 网易号 > 正文 申请入驻

DeepSeek,V4适配昇腾,百万token引黄仁勋惊叹

0
分享至



要理解V4,得先看V3的底子。2024年底,行业还在信奉“参数越大越强”,训练千亿模型动辄千万美元。DeepSeek V3用MoE架构(就像公司只让最擅长的部门干活),把6710亿总参数的训练成本压到500万出头,靠的是把每一分算力都榨干。

V4直接把这条路走到极致:总参数跃升到1.6万亿,注意力机制升级成DSA2,每层384个专家只激活6个,残差连接用Hyper-Connections。但最炸的不是参数,是它从英伟达生态彻底转到了华为昇腾芯片上。

这不是换个驱动那么简单——之前DeepSeek R1对英伟达PTX底层优化到骨髓,那是它“花小钱办大事”的核心。转到昇腾后,所有底层代码、调度逻辑全得重写!昇腾的带宽、CANN框架成熟度不如CUDA,跨节点扩展还得靠光模块,延迟和同步开销都大。工程师花了整整15个月才搞定,原计划春节发布硬是拖到4月。

黄仁勋的话点破了关键:“这对美国是糟糕的结果”。一旦顶级模型在国产硬件跑通,英伟达的护城河就真的要破了。DeepSeek官方明确说,V4下半年会正式支持华为算力——这步棋,直接捅破了“AI必须依赖美国芯片”的窗户纸。



架构优化最终要落地到成本上。过去一年,AI行业的痛点已经从“训得出”变成“用得起”——2026年中国日均Token调用量突破140万亿,推理成本成了命门。

V4在推理端砍了两刀:一是DSA2稀疏注意力,直接压缩Token维度,计算和显存需求大降;二是支持FP4精度,显存要求比FP8再降一半。路透社推算,V4每个Token仅激活370亿参数,推理成本和V3持平——参数量翻了一倍,成本却没涨!这意味着企业和创业者不用加预算,就能用上更大的模型。



V4发布时,牌桌早就变了天。大厂们动作密集到每周都有新东西。云厂商也从“押独苗”变成“模型超市”,把各家模型放一个平台分发——掌握渠道比单一技术优势更赚钱。而DeepSeek面临的局面更复杂:Agent赛道火到Token消耗指数级增长,智谱、MiniMax靠API调用闷声发财,甚至转向闭源。

大模型赛道最残酷的是,你得在飞驰的列车上换轮子——停三个月就可能出局。DeepSeek停了15个月,现在亮出的牌是王炸吗?



DeepSeek V3改变了训练成本的基线,V4则把刀砍向了推理端和硬件生态。它用万亿模型证明:国产算力也能跑顶级AI,开源能把“水电煤”的价格压到地板上。

黄仁勋的焦虑不是没道理——当中国的AI模型不再依赖英伟达芯片,美国的技术垄断就少了一块重要的拼图。而对行业来说,V4的开源相当于给所有玩家递了一把钥匙:不管是大厂还是中小团队,都能站在万亿模型的肩膀上创新。

最后问一句:你觉得DeepSeek这次的V4能打破英伟达的垄断吗?国产大模型的下一个突破口会在哪里?评论区聊聊你的看法,也别忘了点赞收藏,让更多人看到国产AI的硬实力!

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
父亲最后的日子里,一场关于告别的“预习”

父亲最后的日子里,一场关于告别的“预习”

澎湃新闻
2026-04-30 07:28:28
他是上海原市委书记,执掌上海十余年,96岁捐毕生积蓄,一生清廉

他是上海原市委书记,执掌上海十余年,96岁捐毕生积蓄,一生清廉

阿天爱旅行
2026-04-30 02:34:59
女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

白云故事
2025-03-17 07:55:10
以色列海军拦截“全球坚韧船队”,扣押约175名活动人士

以色列海军拦截“全球坚韧船队”,扣押约175名活动人士

界面新闻
2026-04-30 16:02:32
澳洲莱纳斯一季度稀土出口激增七成,产能爆发或将冲击我出口优势

澳洲莱纳斯一季度稀土出口激增七成,产能爆发或将冲击我出口优势

火星宏观
2026-04-30 11:33:11
汤杯淘汰赛抽签:中国位居上半区,将对阵马来西亚

汤杯淘汰赛抽签:中国位居上半区,将对阵马来西亚

懂球帝
2026-04-30 17:04:07
史上最大IPO,要黄了?

史上最大IPO,要黄了?

融资中国
2026-04-30 12:33:45
连赢3场!国羽女队3-0完胜马来西亚,强势跻身尤伯杯四强

连赢3场!国羽女队3-0完胜马来西亚,强势跻身尤伯杯四强

全景体育V
2026-04-30 19:14:21
张军落马背后深挖!体育协会监管形同虚设,林丹的选择太有远见

张军落马背后深挖!体育协会监管形同虚设,林丹的选择太有远见

顺静自然
2026-04-30 17:16:27
江湖儿女,为什么都不生孩子了?

江湖儿女,为什么都不生孩子了?

黔有虎
2026-04-30 14:53:23
A股新“股王”诞生

A股新“股王”诞生

国是直通车
2026-04-30 17:00:23
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
查尔斯国王开玩笑称若无英国美国可能在说法语,马克龙妙语回敬

查尔斯国王开玩笑称若无英国美国可能在说法语,马克龙妙语回敬

王姐懒人家常菜
2026-04-30 12:44:01
湖人3-2火箭!老詹赛后把话挑明,里夫斯承认一事实,两人成关键

湖人3-2火箭!老詹赛后把话挑明,里夫斯承认一事实,两人成关键

鱼崖大话篮球
2026-04-30 15:33:17
骑士3-2猛龙!米切尔直言不讳,哈登赛后一番表态也成重中之重

骑士3-2猛龙!米切尔直言不讳,哈登赛后一番表态也成重中之重

鱼崖大话篮球
2026-04-30 16:00:22
发表错误涉华言论 37岁厄齐尔仍不悔改:我才不在乎被处罚 很开心

发表错误涉华言论 37岁厄齐尔仍不悔改:我才不在乎被处罚 很开心

风过乡
2026-04-30 13:08:17
华工科技:公司已在海外新购买了土地约100亩,预计在今年底或明年年初建成二期新厂房

华工科技:公司已在海外新购买了土地约100亩,预计在今年底或明年年初建成二期新厂房

每日经济新闻
2026-04-30 18:39:13
想要良知?就不要在这个圈子里混!

想要良知?就不要在这个圈子里混!

通往远方的路
2026-04-25 07:41:42
林佑威谈定居苏州:找个能静下来的地方好好过日子

林佑威谈定居苏州:找个能静下来的地方好好过日子

红星新闻
2026-04-30 17:05:26
为何我国会放弃遍地翡翠,富产金丝楠木,价值抵百个香港的江心坡

为何我国会放弃遍地翡翠,富产金丝楠木,价值抵百个香港的江心坡

抽象派大师
2026-04-30 00:17:23
2026-04-30 21:07:00
往事我敬你一杯酒人
往事我敬你一杯酒人
往事我敬你一杯酒人
529文章数 137关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

被问"中方是否向伊朗提供了无人机" 国防部回应

头条要闻

被问"中方是否向伊朗提供了无人机" 国防部回应

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

家居
亲子
健康
手机
公开课

家居要闻

灵动实用 生活艺术场

亲子要闻

又一起!佛山2岁宝宝误吞硬币,咽喉卡阻险酿大祸!

干细胞治烧烫伤能用了么?

手机要闻

米粉狂喜!小米玄戒O3芯片参数全曝光,全新架构,碾压骁龙8 Elite

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版