在华为昇腾950 PR芯片一季度实现商用化之后,很快就传出消息,DeepSeek-V4也即将推出。
V4的推理将运行在950 PR上,其异构计算架构CANN Next将兼容CUDA。不过,V4的训练仍然使用英伟达先进的GPU。
去年底,我们对2026年的AI做出了十个展望,第一条就是:在中国的算力基础设施上,训练出中国的下一代前沿模型。
2026年是中国走向自主算力的元年,海外AI芯片在中国市场上份额显著下降,自主设计、制造和封装的AI芯片将占据市场主流,国产万卡乃至十万卡集群出现。芯片算力系统与中国本土的前沿大模型协同设计,形成中国的AI生态,最重要的标志,是用中国本土基础设施,训练出前沿模型。 未尽研究,公众号:未尽研究
这个使命由谁来完成,应该是不言而喻的。华为去年也公布了昇腾芯片的路线图,预计年底推出可媲美H200的、面向训练与深度学习场景的昇腾950 DT。
![]()
过年前后,人们千呼万唤,DeepSeek-V4没有发布。它在想什么?它在干一件更大的事情,比发布一个模型更厉害:
只想做模型而不做应用的DeepSeek,最重要的可能还真不是就简单发布DeepSeek-4。单个模型而言,在中国也无摆脱商品化,关键是它在中国的AI计算与应用生态中发挥的作用。 DeepSeek主动适配国产芯片,就等于在给整条国产算力供应链做背书和激活。每一个基于DeepSeek开源版本做应用的中国开发者,都会把算力需求导向国产硬件。这对华为昇腾、海光、寒武纪、摩尔线程、燧原等公司的价值不可估量。 DeepSeek-4,的确要花点时间。 未尽研究,公众号:未尽研究
去年初DeepSeek-R1推出后,主要部署在H20系统上,今年AI智能体应用的爆发,在GPU出现短缺和服务涨价的市场上,即使算上H200,也给中国本土的算力供应商打开了空前的机会窗口。
DeepSeek之前与英伟达密切协同,每年都派代表在GTC大会上发言,但是,今年DeepSeek拒绝了英伟达提前获取V4内核的权限。在GTC上发言的,是月之暗面创始人杨植麟。
业内猜测DeepSeek-V4发布的日期,又延伸到了4月份。正如上表显示,V4与PR的发布看起来是合拍的。
科技媒体Information,称其找到了5位消息人士,证实了四月中旬可能是V4发布的时间窗口,并且运行在昇腾950 PR上。
消息还称:“为迎接V4的发布,包括阿里巴巴集团、字节跳动和腾讯控股在内的中国科技巨头已向华为订购了数十万颗即将上市的芯片。他们计划通过云服务销售DeepSeek的新模型,并将其集成到自身的人工智能应用中。”
昇腾950 PR的使命,是超过H20。在华为中国合作伙伴大会期间,3月20日,昇腾计算业务总裁张迪煊透露了PR的一些性能信息:单卡算力可达业界(H20)的2.8倍以上,是目前国内唯一支mxFP4低精格式的推理产品。片上内存最大提升至112GB,达业界1.1倍以上。
950 PR搭载了华为首款自研高带宽内存HiBL 1.0,容量达112 GB,带宽 1.4 TB/s,摆脱了对外部供应链的依赖,也打破了产能瓶颈,为大规模交付提供了保障。
有关CANN Next兼容CUDA的情况,新增SIMT编程模型,可直接适配英伟达代码环境,降低迁移门槛。CANN Next将CUDA视作编程标准,同时结合昇腾芯片的特性做了专项优化,相当于打造了一个近乎直接替代CUDA接口的方案,实现了软硬件协同设计的可扩展性。
目前中国以昇腾950 PR为代表的中国AI训练及推理芯片,水平在H100与H200之间,主要的瓶颈在产能。950 PR仍然是偏推理场景,预计今年底发布的950 DT,将面向训练和深度学习场景。
如果DeepSeek在一两年内做到推理和训练都在昇腾上跑 ,编译器、算子、通信库、分布式训练、推理框架都稳定,那么它的核心模型生产流程,就可以基本脱离 CUDA。
参考:
https://mp.weixin.qq.com/s/AdfsVY1W7wAIAbXKxglWCw
https://www.theinformation.com/articles/deepseeks-new-ai-model-will-victory-huawei?rc=je0cpk
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.