网易首页 > 网易号 > 正文 申请入驻

CUDA再见了!寒武纪亮出软件全家桶

0
分享至


新智元报道

编辑:定慧 好困

【新智元导读】在AI时代,竞争早已不止于芯片的纸面性能。真正的较量,正转向软件生态、易用性与全栈解决方案的综合实力。凭借硬核实力,寒武纪证明自己不仅仅是AI算力的参与者,而是在核心战场上占据了主导地位。

寒武纪成立的初衷是为「人工智能的大爆发」提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。

多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整体系,实现了计算架构、编译优化与算法调度的深度融合——

硬件为算法提供极致的并行性能与能效比,软件则通过编译优化、调度策略与模型适配,让每一份算力都被充分释放。

寒武纪基础软件平台Cambricon NeuWare,让用户与开发者能够跨越不同的寒武纪硬件和应用场景,降低上手难度,提升开发效率,快速迁移与部署AI应用。

经过多年投入与积累,寒武纪基础软件平台Cambricon NeuWare已经日趋成熟,全面兼容社区最新PyTorch版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移。

经过持续的全栈优化,Cambricon NeuWare基础软件平台在多项指标上都已达到业界领先水平,特别针对当前业界极具挑战的大规模集群运维实践,进一步丰富和完善了多项集群工具,为大规模训练推理业务在集群环境中的部署运维调试和调优提供了坚实的底座。

训推解决方案

已完成大规模技术和产品验证

大模型技术正成为智能经济的核心驱动力,深刻重塑人机交互的方式。

「搜广推」场景——即搜索、广告与推荐系统——成为大模型技术落地最具价值的前沿阵地之一。

大模型赋能的搜广推系统,不仅带来用户体验的显著提升,更重塑了流量分发的逻辑:让「找信息」、「看内容」、「买东西」从被动推荐走向主动理解,从关键词匹配迈向意图洞察。

大模型与「搜广推」的融合,不仅是一场技术革新,更是商业模式的再造。

寒武纪在大模型与搜广推的训练推理上,都已完成了大规模的技术和产品验证。

在搜广推训练方向,寒武纪稳步推进技术和产品验证。验证结果表明,解决方案可支撑多场景下的流式训练任务,可持续超数月稳定运行,精度与稳定性均满足要求。

持续性能优化方面,完成Layernorm/RMSNorm/L2Norm等多种图匹配融合,显著提升性能。在图融合基础上进一步优化XLA支持,并获得更显著的加速比结果。

在大模型训练方向,寒武纪重点支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE类模型训练,同时扩展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的训练支持。基于原生FP8的计算能力,新增Qwen/DeepSeek等系列网络FP8的训练支持,精度符合预期。

在大模型推理方向,寒武纪研究并实践W4A4以及MX-FP8/MX-FP4等新型数据类型,探索并支持多种高效注意力机制,包括Sparse Attention与Linear Attention。

寒武纪紧跟先进模型的演进,支持Qwen-Omni等多模态融合模型、Hunyuan3D等3D生成模型、CosyVoice等语音生成模型,以及DLM和VLM等新兴架构,确保技术栈的先进性与完备性。

值得一提的是,通过深度的生态合作,针对DeepSeek V3.2-Exp模型,寒武纪实现发布即适配的支持,并与合作伙伴同步开源适配代码。

与此同时,持续优化vLLM推理引擎,完善混合精度低比特量化推理机制,支持通算并行优化,支持PD分离部署,支持基于类IBGDA的极致低时延大规模专家并行,支持Torch.compile特性优化主机侧瓶颈,实现了大模型应用的全方位加速。

寒武纪持续开展对DeepSeek、Qwen、Wan、Hunyuan等系列最新开源模型的极致性能优化,并专项攻坚长序列与超低解码延时等场景的性能优化,持续保持性能领先优势。

寒武纪能够在大模型与「搜广推」训推方面取得快速突破,完成大规模技术和产品验证,源于寒武纪长期的技术深耕与软硬协同能力。

正是这种软硬一体、兼具性能领先与部署高效的核心竞争力,让寒武纪能够快速获得市场信任和认可。


寒武纪基础软件平台Cambricon NeuWare,图中仅列举部分组件,相关缩写词注释请见文末

驱动和运行时库

底层驱动的高稳定性是业务部署的重要前置条件,寒武纪的驱动支撑业务运行数月不停机。

同时,寒武纪的驱动在业务优化迭代中,大幅提升了吞吐能力,在极具挑战的搜广推和大模型推理场景中,最大限度地消除了主机侧瓶颈,为端到端达成领先的计算效率打下了坚实的基础。

寒武纪通过细粒度的并行技术,解耦数据依赖和调度依赖,极限压榨Kernel函数的吞吐能力,叠加多路DSA异步调度和协同优化,Kernel函数调度吞吐可达每秒几十万个任务,实现业界领先的Kernel吞吐能力。

全面支持Kernel graph的批量下发功能,可运行时汇聚多个算子单次下发,支持在设备侧驻留和下发,实现极低延迟的多Kernel下发,延时水平与国际竞品相当。

增加类IBGDA接口,为通信库进行极低时延的专家并行通信提供系统保障。

支持丰富的设备切分使用场景:

  • visible cluster:运行时可编程的弹性拆分,可用于快速部署;

  • sMLU:基于时分复用技术,可用于docker快速部署;

  • MIM:物理划分,全面对标国际竞品MIG技术。


编译器和调试调优工具

BANG C语言是寒武纪BANG异构并行编程模型的编程语言,在C/C++语言基础上针对MLU架构特点进行扩展,可以高效编写在MLU上运行的并行程序,充分利用MLU大规模并行架构来加速计算任务。

BANG C支持丰富的编译优化技术,包括链接时优化(LTO)、基于Profiling反馈优化(PGO)、基于函数调用关系的函数级片上空间复用、Device侧动态链接机制、编译器静态推导访存指令地址空间、任务内并行指令流自动同步算法、优化内存依赖分析、指令级并行的局部指令调度、全局指令调度以及符合MLU架构的高性能指令布局优化。

通过这一系列技术,最大限度的发挥芯片的全部潜力,如矩阵乘法等算子可达业界领先的效率。

持续快速迭代Triton算子开发语言,支持Triton 3.4所有特性,包括FP8/FP4的数据类型。引入fast libentry,优化Triton Kernel的主机端开销,在小Workload场景性能提升显著。

Triton编译器后端实现多种优化:

  • 优化软件流水的片上ram占用,优化软件流水的并发度,实现平衡软件流水性能和单指令性能的自动软件流水方案;

  • 实现指令并行、片上ram占用、指令延迟掩盖等多目标的指令调度优化;

  • 实现任务并行的自动调优和自动调度;

  • 实现自动循环合并;

  • 实现基于算子语义的访存和计算优化,如transpose穿透和合并、slice、broadcast穿透等;

  • 优化指令融合和指令选择的性能建模。

通过上述优化,提升了Triton Kernel性能泛化性,其中Matmul、FlashAttention类和HSTU类算子性能提升明显,部分热点算子已经与手写算子性能相当。

进一步完善系统和算子的调试调优工具:支持算子core dump,实现异常现场的核心转存,提供精准现场和调试信息对应关系,提供core dump文件解析工具,可快速分析定位算子出现异常的根因。

在主机侧与设备侧并行度调优方面,CNPerf可在极低跟踪开销的情况下实现全维度性能数据采集,可精准捕获主机侧与设备侧执行流、PMU性能指标、函数调用栈等关键信息,支持Kernel计算、内存拷贝、通信任务等多类型任务追踪,覆盖从底层硬件到上层应用的全栈性能数据。

CNPerf-GUI智能调优能力突出,内置专家建议系统可自动检测设备空泡、利用率不足、集合通信等待等问题,精准定位热点算子与性能瓶颈。此外CNPerf-GUI针对多机多卡场景,额外提供多日志自动对时与集群迭代分析等功能,进一步简化用户在复杂场景下的调优复杂度。

在单算子调优方面,CNPerf可支持GHz采样频率的硬件工作状态采样,精准记录MLU前后端工作状态。用户可基于该功能分析流间/核间同步、算子软件流水排布等问题,最大化利用硬件后端资源。

CNPerf-GUI适配Linux、macOS、Windows多平台,支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式,且支持超大日志文件(上亿函数记录)的快速加载及流畅操作。

新增程序正确性分析工具CNSantizer,使用运行时插桩技术自动完成多核间竞争访问检测、单核内多指令流竞争访问检测、Device侧内存越界访问检测、未定义程序行为检测、使用未初始化内存检测等。

新增程序性能分析和调优建议工具CNAdvisor,使用运行时插桩采集以及硬件性能计数器采集方式获取程序运行时状态,并根据性能调优经验库,自动分析程序性能问题并标记出对应源代码位置,进一步给出优化建议。

算子库

寒武纪计算库积极拥抱开源社区的技术演进,持续迭代打磨核心基础算子的功能、性能和稳定性,更快更好地支持在寒武纪智能芯片上高效、稳定地运行开源和私有模型。

计算库针对搜广推、大语言模型、文生图和文生视频等热点场景做了深入的功能扩展和性能优化:

  • 大规模Embedding Table稀疏访存和计算极致优化,性能与GPU竞品相当;

  • GEMM/BatchGEMM/GroupGEMM等矩阵乘类算子性能泛化得到显著增强,大规模矩阵乘HFU达到行业领先水平;

  • 矩阵乘类算子支持多种社区公开/私有定制的低精度量化功能;

  • 支持类CUTLASS GEMM模板库的扩展开发和AutoTuning;

  • Attention类算子在低精度加速等方向的探索和研发成果已成功完成验证,获得良好的加速效果;

  • 支持大语言模型使用的MTP技术,开发了用于优化MTP性能的Top-k和Top-p采样、随机采样等融合算子。

为支持计算库的持续快速迭代,保障计算库软件质量的同时做到精度性能不回退,寒武纪计算库团队还打造了可靠的维测平台,提供了丰富的维测工具,开发了高覆盖度的功能性能测例,并制定了科学的验收标准。

分布式通信库

通信库针对大规模场景进行专项优化:新增HDR/DBT等Allreduce通信算法,优先提升大规模条件下的通信带宽,对Alltoall操作进行深度优化,使其大规模扩展性达到与国际主流竞品相当的水平。

通信库同步加强可维可测相关的功能,支持在线打点、模块化日志、高可靠服务模块等,帮助用户能够快速分析通信下发错误,异常卡死等问题,提高集群通信可用性。

通信库通过在Kernel支持RoCE网卡的RDMA操作(类IBGDA)显著优化大规模专家并行场景下的ALL2ALL通信延迟,提升了MoE类模型推理任务的端到端吞吐。

集群工具

· CntrainKit-Accu(大规模集群精度定位工具)

为万卡分布式训练场景提供端到端精度定位,提供精度指标在线监控,并针对精度问题进行自动化分级、采集信息、智能分析并提供对应解决方案。

CntrainKit-Accu工具还全面支持NaN/Inf异常检测与快速定位,实现异常点级别的秒级溯源,大大提升大模型和搜广推等场景的大规模训练精度问题排查效率,让每一次精度问题都能被精准捕获。

· CntrainKit-Monitor(大规模集群监控调优工具)

实现对万卡级集群训练任务的实时通信与算子性能画像,具备毫秒级任务健康可视化能力,支持算子粒度的性能剖析,识别AI作业中的性能瓶颈。

具备万卡规模训练任务的「可观、可查、可优」能力,真正实现大规模集群的「问题自感知」。

· CNCE(集群监管平台)

构建覆盖计算、网络、存储的数据中心全景监控体系,实现对十万卡级算力集群的秒级状态采集与拓扑可视化。

平台具备自动发现、智能诊断、自动处理的闭环故障管理能力,支持万卡级任务的多维异常诊断与根因定位,让用户专注于算法创新与模型训练,无需再为底层硬件波动分心。

CNCE的上线使集群运维从「人工巡检」迈向「智能自治」,显著提升大规模AI训练的可用性与稳定性。

· CNAnalyzeInsight(故障分析工具)

CNAnalyzeInsight是智能日志分析与根因诊断引擎,支持对GB级日志的秒级检索与多维聚合分析。

具备在线实时诊断告警与离线快速分析双模式,能够实现「异常发现、问题定位、原因归纳、修复建议生成」的故障诊断闭环,显著提升训练任务的稳定性与问题处理效率。

开源与框架

寒武纪快速跟进社区PyTorch的进展,支持 PyTorch 2.1到PyTorch 2.8的全部社区版本。

适配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列关键功能。

Torch compile性能整体上追平GPU compile加速比,高效支撑了产品在多个训练和推理场景下的成功验证。

寒武纪还提供GPU Migration一键迁移工具,帮助用户近乎零成本将模型从GPU迁移到MLU。同时配备TorchDump精度调试工具和Torch Profiler性能调试工具,助力用户高效定位和解决精度和性能问题。

此外,寒武纪还支持PyTorch Lightning、TorchTitan、TorchRec等社区生态,并建立快速跟进社区版本的长效机制,可在社区版本发布后2周内实现MLU适配版本的发布。

通过近十年的持续打磨迭代,寒武纪已构建出一套高效、易用、稳定、成熟且具备高可扩展性的软硬一体化产品体系。

凭借领先的芯片技术与完善的基础软件平台,寒武纪产品已经在大模型、搜广推、图片与视频生成和各类多模态的训练与推理场景中成功完成验证,赢得广泛认可。

在此过程中,寒武纪产品不断接受更多大规模场景高强度检验,推动软件平台与芯片体系持续进化,形成了「应用促进优化、优化推动更强应用」的良性循环。

通过为用户提供更高效、更稳定、更广覆盖的支持,寒武纪加速赋能产业智能化转型,推动AI能力真正走进千行百业。

「让机器更好地理解和服务人类」,寒武纪的愿景正在一步一步成为现实。

附录

寒武纪基础软件平台Cambricon NeuWare图中标注的缩写词全称:

1. Cambricon HLO:机器学习模型高级操作集(HLO)的寒武纪后端;

2. CNNL:Cambricon Network Library,寒武纪人工智能计算库;

3. CNNL-Extra:Cambricon CNNL Extra,寒武纪人工智能计算库的扩展库;

4. CNCV: Cambricon Computer Vision Library,寒武纪计算机视觉库;

5. CNCL:Cambricon Communications Library,寒武纪高性能通信库;

6. CNFFmpeg:Cambricon FFmpeg,基于开源FFmpeg开发的硬件加速库;

7. CNCC:Cambricon Compiler Collection,寒武纪BANG C语言编译器;

8. CNAS:Cambricon Assembler,寒武纪汇编器组件;

9. CNGDB:Cambricon GNU Debugger,寒武纪BANG C语言调试工具;

10. CNSanitizer:Cambricon Sanitizer,寒武纪代码检测工具;

11. CNPAPI:Cambricon Profiling API,寒武纪性能分析接口库;

12. CNPerf:Cambricon Performance,寒武纪性能分析工具;

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武纪性能剖析图形化工具;

14. CNMon:Cambricon Monitor,寒武纪设备监控与管理命令行工具;

15. CNVS:Cambricon Validation Suite,寒武纪设备验证工具集;

16. CNFieldiag:Cambricon Field Diagnostic,寒武纪现场诊断工具;

17. CNAnalyzeInsight:寒武纪故障分析工具;

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武纪通信库性能基准测试工具;

19 Cambricon Device Plugin:寒武纪设备插件;

20. CCOMP:Cambricon Cluster Operation Management Platform,寒武纪智算运管平台。

更多信息可关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沈伯洋“头香”不好受!随时都有被抓的可能,剩下11人瑟瑟发抖

沈伯洋“头香”不好受!随时都有被抓的可能,剩下11人瑟瑟发抖

冰点历史
2025-11-04 09:57:27
郑丽文公布第4波任命,马英九、洪秀柱系获重用,连胜文离职感言

郑丽文公布第4波任命,马英九、洪秀柱系获重用,连胜文离职感言

健身狂人
2025-11-04 07:56:42
许绍雄出殡时间已定,家属呼吁:别送花篮直接给钱,原因让人泪目

许绍雄出殡时间已定,家属呼吁:别送花篮直接给钱,原因让人泪目

柠檬有娱乐
2025-11-01 13:48:49
97年未婚妻特招入伍要求解除婚约,我升任参谋长,15年与她再次相遇

97年未婚妻特招入伍要求解除婚约,我升任参谋长,15年与她再次相遇

温情邮局
2025-10-27 14:45:28
安帅:世界杯名单基本已定17-18人;世界杯集训只会带26人

安帅:世界杯名单基本已定17-18人;世界杯集训只会带26人

懂球帝
2025-11-04 05:09:27
体坛:夏窗不少意向球员在了解亚泰队资金状况后都选择了观望

体坛:夏窗不少意向球员在了解亚泰队资金状况后都选择了观望

懂球帝
2025-11-03 19:55:08
国家烟草专卖局原党组成员、副局长张天峰被提起公诉

国家烟草专卖局原党组成员、副局长张天峰被提起公诉

新京报
2025-11-04 10:03:46
中央定调未来5年,明确调整农村基础养老金,2026年能涨到200元吗

中央定调未来5年,明确调整农村基础养老金,2026年能涨到200元吗

社保小达人
2025-11-04 09:40:03
李新翔绝杀,上海U20击败福建,全运会小组赛两连胜!

李新翔绝杀,上海U20击败福建,全运会小组赛两连胜!

五星体育
2025-11-03 22:03:01
印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

趣笔谈
2025-09-29 16:51:57
辽宁15岁巨婴:早餐300块,月消费10万,鞋穿3次就扔,喜欢和母亲对打、威胁老师,如今过得怎样了?

辽宁15岁巨婴:早餐300块,月消费10万,鞋穿3次就扔,喜欢和母亲对打、威胁老师,如今过得怎样了?

明德阅读
2025-08-27 21:12:50
刘强东带章泽天见特朗普,她拿56万爱马仕包,看到特朗普笑得很甜

刘强东带章泽天见特朗普,她拿56万爱马仕包,看到特朗普笑得很甜

做一个合格的吃瓜群众
2025-11-02 04:30:46
深圳晚宴,佟丽娅皮包骨,杨采钰真空,谭松韵肿,刘雨昕像座山雕

深圳晚宴,佟丽娅皮包骨,杨采钰真空,谭松韵肿,刘雨昕像座山雕

胡一舸南游y
2025-11-03 14:13:40
炸!北大学霸竟成国际毒枭? 美全球通缉, 被捕后挖洞越狱! 如今…

炸!北大学霸竟成国际毒枭? 美全球通缉, 被捕后挖洞越狱! 如今…

北国向锡安
2025-11-03 09:22:52
749局人员自述:人死后不会消失,灵魂会从三维世界进入四维世界

749局人员自述:人死后不会消失,灵魂会从三维世界进入四维世界

神奇的锤子
2024-08-27 13:15:19
印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

福建平子
2025-11-03 10:21:52
总价3.65亿元,单价57万元,全国最贵法拍住宅诞生!

总价3.65亿元,单价57万元,全国最贵法拍住宅诞生!

大象新闻
2025-11-03 22:12:03
上海夫妇高调寻子,得知亲儿子是残疾人后又拒相认,全员恶人谁最可悲?

上海夫妇高调寻子,得知亲儿子是残疾人后又拒相认,全员恶人谁最可悲?

谭老师地理工作室
2025-11-03 16:36:44
白莲花是内娱“公交车”!女海王X需求大涨!

白莲花是内娱“公交车”!女海王X需求大涨!

八卦疯叔
2025-11-03 11:41:26
赵樱子自曝00后一线男友姓张,坦言“他经纪人又来找我了”

赵樱子自曝00后一线男友姓张,坦言“他经纪人又来找我了”

韩小娱
2025-11-04 07:58:45
2025-11-04 10:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13779文章数 66236关注度
往期回顾 全部

科技要闻

OpenAI“杀”疯了!又一笔380亿大单

头条要闻

阿里员工离职创业 把DeepSeek"装"进毛绒玩具年入过亿

头条要闻

阿里员工离职创业 把DeepSeek"装"进毛绒玩具年入过亿

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

《繁花》录音事件完整版长达43分钟

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

上汽旗舰智己LS9首发评测 可能是最好开的9系SUV

态度原创

亲子
教育
时尚
本地
军事航空

亲子要闻

你家那个不听话的孩子其实才是一个宝

教育要闻

英文版傲慢与偏见语音课02

无论女人多大年纪,秋天都要准备几件“针织衫”,温柔舒适

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版