网易首页 > 网易号 > 正文 申请入驻

“客户测950,不到一周下单了”,DeepSeek V4 逼出昇腾真功夫

0
分享至


作者 | 褚杏娟

“客户测了我们的 950,不到一个礼拜就说可以下单了。”昇腾计算业务副总裁张良透露,近期昇腾销量比以前要好,客户认可度也提高很多。

现在互联网公司、大模型初创公司都有在完全基于昇腾做模型训推。

推理看重性价比,没有那么高的稳定性要求,客户觉得用得快捷就好;而训练,客户则要求经过长时间的可靠性验证。张良向 InfoQ 表示,“客户要求的是成熟、稳定、且经过长时间验证的大规模集群系统,硬件和软件要一起验证。”

今年,大量客户开始基于昇腾做训练了。这里指的是训练大模型、超大参数模型。越来越多模型,包括一些国内领先的模型,都在基于昇腾进行训练。这个变化体现了昇腾产品成熟度的提升,确实经受住了考验。

DeepSeek V4 是对华为的一次考验

DeepSeek V4 是华为面临的一次大考,也验证了昇腾超节点全系列产品的能力。

从结果看,昇腾超节点全系列产品均支持 DeepSeek V4 。其 950 系列芯片可以同时兼顾低时延和高吞吐的两种应用场景:在 950 DT 系列上,DeepSeek V4 Flash 模型实现了低于 10 毫秒的低时延推理,Pro 模型则实现了约 20 毫秒的低时延推理;在 Atlas A3 系列上,DeepSeek V4 Flash 实现了约 30 毫秒的高吞吐性能表现。

这次,DeepSeek V4 在模型结构上发生了明显变化,比如引入混合注意力机制,结合滑窗、稀疏、压缩等多种 Attention 优化算法,以支持 1M 级长上下文推理;同时,模型继续采用 MoE 结构,对专家路由、多卡通信、KV Cache 管理和端到端推理效率提出了更高要求。


为此,CANN 针对 DeepSeek V4 中的 mHC、Hybrid Attention、Compressor、MoE 等模块进行了原生适配。其中,mHC 用于扩展传统残差连接,对此 CANN 提供了多种实现方式,包括基于 Ascend C、PyTorch 以及 TileLang 的实现路径。

比如,针对混合注意力机制,CANN 提供了 Sparse Attention Shared KV 融合算子,支持多种注意力计算,同时开发了不同倍率 KV Cache 压缩的 Compressor 算子,以及支持 KV Cache 更新的相关算子。此外,CANN 还增强了 Lightning Indexer 能力,用于高效筛选 Top-K 稀疏 KV,支撑长上下文下的稀疏注意力计算。

由于混合注意力机制依赖关系更复杂,在 prefill 阶段,CANN 通过 All Gather 或 Send/Receive 等通信能力,在卡间交换必要 Token,保证 CP 并行下的注意力计算正确执行。

而在 MoE 方面,CANN 加强了 MoE Gating TopK 功能,以支持 DeepSeek V4 中的 hash routing 和 scaled softmax。

上述也只是昇腾努力优化的一部分,在 AI 算力日益重要的当下,昇腾团队过去一年都在“卷”。

“一卡难求”下,先建基础设施

“所有工作没有基础设施是不行的。现在大家都在说‘一卡难求’,包括我自己也是一卡难求。虽然我们生产卡,但我想用卡也很难。”张良说道。

去年以来,昇腾对芯片体系进行了一轮大幅调整。

今天的大模型推理和 Agent 场景,对编程灵活性、细粒度访存能力、Cache line 设计等均提出更高的要求;同时,AI 产业的发展也需要更开放的生态支持。

针对这些问题,昇腾在新一轮产品和软件栈演进中进行了系统性补齐:一方面重新优化算力配比,提升芯片在不同计算负载下的适配能力;另一方面引入 SIMT 能力,增强编程灵活性;同时强化细粒度访存能力,使芯片能够更好适应大模型训练、推理以及复杂 Agent 工作负载中的数据访问需求。

低精度计算能力也是此次调整的重要方向。随着 DeepSeek 等模型在 FP8 等低精度格式上的探索,大模型产业对更高 Token 产出效率的需求快速提升。在此背景下,昇腾加速推进 FP8、FP4 能力落地。

张良表示,团队“拼尽全力”将 FP8、FP4 提前做出来,这使得 Token 产出能力相比此前实现翻倍提升。

当前 AI 产业正在进入新的算力周期。Agent 应用带来的高频推理、多轮调用和长链路任务执行,使 Token 消耗快速增长,也让算力效率成为客户关注的核心指标。张良认为,面对这一变化,芯片厂商不仅要提升峰值算力,更要围绕真实业务场景优化计算效率、访存能力、编程体验和生态开放能力。

“只有痛下决心真正改掉以前的不足,才能把业务做得越来越好。”张良说道,下一波 AI 机会究竟来自哪里仍不确定,但芯片和软件生态必须提前准备好。昇腾此次调整,正是为了补齐过去架构中的短板,并为未来可能出现的新一轮 AI 应用浪潮打下基础。

软件栈升级,拒绝仿 CUDA

在完成硬件架构调整后,昇腾软件栈也迎来一轮重要升级。此次升级的一个重点是将原本高度耦合的软件体系拆分为更清晰的结构模块。

过去,CANN 的很多能力像“麻花团”一样交织在一起,外部开发者很难理解和调用。现在,昇腾通过架构解耦,将不同能力模块化、结构化地拆开,让每一块能力都能被开发者看见、调用,并推动相关代码开源。


张良介绍道,这次解耦工作量很大,接近于“把软件重写一遍、把架构重新设计一遍”。昇腾原计划用一年半时间完成,但最终在 4 个月内完成核心改造。近期开发者试用后,普遍认为相比过去更容易上手。

除了架构层面的解耦,昇腾还推出了新的编程方式 PyPTO。该方式面向 Python 开发者,未来将与业界主流的基于 Python 的 Triton 编程方式保持一致,以降低开发者迁移和适配门槛。

张良表示,AI 开发正在越来越多地围绕 Python 展开,昇腾必须融入这一主流编程体系。昇腾从去年开始推进相关工作,并在今年正式将 PyPTO 做出来。

不过,Python 编程虽然快速、灵活,适合验证功能和提升开发效率,但在追求极致性能时仍存在不足。尤其是在大模型推理场景中,Token 吞吐直接影响产品性价比。同样硬件、同样算力条件下,如果 Token 吞吐低于竞争对手,就意味着单位成本竞争力不足。因此,昇腾在支持 Python 开发方式的同时,也继续保留并强化基于 C 语言的底层优化能力。

其思路是:Python 负责灵活和便捷,C 语言负责性能和吞吐优化。通过这两条路径并行,既尊重开发者对主流编程方式的偏好,也保障底层性能调优能力。

昇腾认为,开源开放的核心不是简单“放代码”,而是让开发者能够真正理解、使用和扩展底层能力。张良表示,昇腾自身不可能超过几万名开发者的智慧,外部开发者的创新方式和使用需求,也远远超过单一厂商内部能够预判的范围。因此,提升开发者使用便利性,是生态建设的根本。

对于底层软件和算子开发而言,让开发者真正持续投入并不容易。数据显示,今年以来昇腾算子开发者数量增长较快,已达到约 1.3 万人;社区月活开发者约 2000 人,这已经是相当不错的成绩。

如果说英伟达的生态护城河是 CUDA,那昇腾对应的就是 CANN。现在,比较熟悉的模型,大约 6 个小时就可以从 CUDA 迁移到 CANN,比如千问 3.6;模型架构比较新、变化比较大,可能需要花一两周时间迁完。整个迁移是较为丝滑的。

实际上,在建设生态期间,国内 AI 计算生态发展面临不同路径选择,其中一条看似简单的路线就是做一套与英伟达 CUDA 高度相似的体系,也就是所谓“仿 CUDA”。张良特别强调,昇腾坚决拒绝走这条捷径。

“如果只是做一个‘CUDA 2 号’,虽然短期适配成本较低,基于这一体系做出的新特性、新功能,最终是建立在他人的生态上,而不是在建设真正自主的 AI 计算生态。”张良说道。

按照其思路,从虚拟指令级、运行时能力,到编译器、硬件协同,都要自主构建。这样才能确保底层能力真正掌握在自己手中,而不是长期依附在既有国外生态之上。

不过,张良也强调,坚持自主路线并不意味着脱离业界生态。现实中,大量开发者主要使用的是更上层的开发框架和工具,而不是直接操作底层指令和运行时。因此,昇腾需要一方面坚持底层自主,另一方面也要兼容业界主流开发习惯,支持国内外开发者已有的软件栈和工具链。

其生态建设思路可以概括为三点:第一,底层关键能力必须自主掌握;第二,上层要兼容主流开发方式,尊重开发者习惯;第三,要逐步将自主 NPU 的关键特性和功能组件引入主流开源社区,让围绕中国 AI 硬件的能力在社区中沉淀下来。

但这一过程并不容易。目前 AI 软件生态中大量关键开源项目由海外社区主导。以 OpenAI 主导的 Triton 为例,推动其支持昇腾硬件并不容易,对方首先会考虑“敏感”问题。

张良透露,过去,昇腾开发者和华为内部团队所做的很多适配工作,往往只能以插件形式存在。相关代码提交到主流社区时,社区并不一定接受,而是要求昇腾自行维护插件。同时,这些社区在发布新版本前,也很少会基于中国软件和硬件进行验证。这导致昇腾生态长期处在被动适配状态。

为改变这一局面,昇腾投入大量时间和精力与海外开源社区沟通,通过现场交流和技术论证,推动相关插件和能力逐步进入主流项目。目前,部分社区已经开始接受昇腾相关能力,后续版本发布时也能够逐步支持昇腾硬件。类似工作不仅发生在 Triton,也发生在 PyTorch 等多个开源项目中。

这正是做生态最难的地方:不是简单写一套适配代码,而是要让主流社区认可、接受,并在版本演进中持续支持。

结束语

“做这一切,都取决于一个基础:你愿不愿意持续投入,愿不愿意把自己压到极致,在很短时间内把能力补起来,这是关键。再往下说,就是你愿不愿意砸钱,或者说有没有能力长期、持续地投入。”张良说道。

张良也坦言,昇腾团队过去几年既抓住过机会,也走过弯路,甚至有些问题曾被阶段性的市场红利掩盖。

在他看来,今天 Agent 的快速兴起,又一次把产业推向新的阶段。Agent 应用对时延、多轮推理、长序列处理以及系统综合能力提出了更高要求,也可能进一步带来“算力荒”。这对昇腾来说既是机会,也是挑战。

“Agent 这么红火,我们当然很开心,它可能带来新的算力需求。但更重要的是,我们要从中识别出真正的问题,看到不同场景对产品改进提出的新要求,比如编程编译速度的问题。只有把这些问题识别出来,才能继续投入、继续改进。能不能做到这一点,非常关键。”

张良强调,昇腾不满足于某一轮机会,而是要在每一轮产业变化中,持续暴露问题、修正问题、补齐能力。

“在我个人看来,我的产品永远不完美,还要继续努力。面向未来,我们还有很多事要做。”他说道。

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?安全与可信这道坎怎么过?研发体系不重构,还能撑多久?

AICon 上海站 2026,4 大核心专题等你来:世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。

今日荐文


你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-1,1-0!欧战疯狂1夜!英超2队取胜,德甲劲旅遭绝杀,西甲利好

3-1,1-0!欧战疯狂1夜!英超2队取胜,德甲劲旅遭绝杀,西甲利好

阿晞体育
2026-05-01 06:08:47
张雪峰遗孀李丽婧称无暇悲伤,李丽婧深夜陪婆婆睡,没提离婚旧事

张雪峰遗孀李丽婧称无暇悲伤,李丽婧深夜陪婆婆睡,没提离婚旧事

可爱小菜
2026-05-01 05:38:59
关陇集团真正的大佬是他,死于一场饭局,让宇文泰捡了三百年江山

关陇集团真正的大佬是他,死于一场饭局,让宇文泰捡了三百年江山

掠影后有感
2026-04-30 09:29:18
美国会众议院通过国土安全部拨款法案

美国会众议院通过国土安全部拨款法案

界面新闻
2026-05-01 07:05:08
火箭大赢家?伊森场均14+2.4断主防詹皇被赞 非卖品剑指亿元肥约

火箭大赢家?伊森场均14+2.4断主防詹皇被赞 非卖品剑指亿元肥约

颜小白的篮球梦
2026-04-30 23:18:14
35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

林轻吟
2026-04-02 19:51:37
人老了,安稳在家待着,才是晚年最大的福气,下面4点,说得通透

人老了,安稳在家待着,才是晚年最大的福气,下面4点,说得通透

匹夫来搞笑
2026-04-29 12:44:23
岸田文雄访问菲律宾,转交高市早苗亲笔信,和小马科斯抱团取暖

岸田文雄访问菲律宾,转交高市早苗亲笔信,和小马科斯抱团取暖

春露秋霜
2026-05-01 06:03:52
1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

晓张说
2026-04-27 07:18:18
辽宁10岁考上本科的“天才神童”近况曝光:这就是他对父母的“复仇”......

辽宁10岁考上本科的“天才神童”近况曝光:这就是他对父母的“复仇”......

脆皮先生
2026-04-29 20:06:12
炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

孟大夫之家1
2026-04-28 19:07:08
比亚迪闪充刚火就官宣固态电池,车主慌了?真相是一场技术接力赛

比亚迪闪充刚火就官宣固态电池,车主慌了?真相是一场技术接力赛

娱乐圈的笔娱君
2026-05-01 04:28:32
查洛巴:我从14岁开始留脏辫,剪掉之后整个人感觉清爽多了

查洛巴:我从14岁开始留脏辫,剪掉之后整个人感觉清爽多了

懂球帝
2026-05-01 02:05:09
伊朗考虑通过铁路向中国运输原油,稳妥优化供油流通体系

伊朗考虑通过铁路向中国运输原油,稳妥优化供油流通体系

说故事的阿袭
2026-04-30 17:59:38
扎哈罗娃:乌方以核武器作为安全保障的要求正在挑起核冲突

扎哈罗娃:乌方以核武器作为安全保障的要求正在挑起核冲突

财联社
2026-04-29 23:30:11
斯诺克名宿:遇上吴宜泽没有一颗球是安全的,他远台准度世界第一

斯诺克名宿:遇上吴宜泽没有一颗球是安全的,他远台准度世界第一

杨华评论
2026-05-01 06:57:06
俄罗斯人大量涌入中国,却发现中俄差距越来越大

俄罗斯人大量涌入中国,却发现中俄差距越来越大

杰丝聊古今
2026-04-28 03:43:50
女教师“幼态字体”走红,被家长建议停职:还不如我女儿写得好

女教师“幼态字体”走红,被家长建议停职:还不如我女儿写得好

观察鉴娱
2026-04-30 10:52:07
200亿!重庆小县城,捧出一个超级赛道

200亿!重庆小县城,捧出一个超级赛道

渝鲁大道
2026-04-30 22:18:21
中国团队一休假就停摆!苹果iPhone印度扩产遭遇重大挫折

中国团队一休假就停摆!苹果iPhone印度扩产遭遇重大挫折

TechWeb
2026-04-29 16:13:29
2026-05-01 08:11:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1470文章数 149关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

高校招聘被质疑"萝卜岗":36人进体检近半疑为本校老师

头条要闻

高校招聘被质疑"萝卜岗":36人进体检近半疑为本校老师

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

旅游
本地
教育
公开课
军事航空

旅游要闻

从展到节,上海国际花卉节转型后发力,赏花流量转化为经济生活增量

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

我们只是平民教育,而平民教育难承家长渴望的贵族服务之重

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版