比DeepSeek更快?这句话放在2026年的5月来看,分量不轻。就在4月29日的业绩说明会上,科大讯飞研究院院长刘聪抛出了一个颇为大胆的说法:国内只有讯飞一家,真正在全国产算力上跑通了全栈模型训练。这话不是客套,而是直接把矛头对准了眼下风头正劲的DeepSeek,甚至整个国内大模型行业。
要理解这句话的含金量,得先看看背景。过去几年,美国对华高端AI芯片的出口管制一步步收紧,从A100、H100全面禁售,到特供版H20加限许可,再到2026年4月事实上的全面封堵。英伟达的CUDA生态统治了全球AI训练市场超过十年,绝大多数模型公司从第一行代码开始就长在英伟达的土壤上。突然把地基抽走,整栋楼怎么办?这就是中国AI行业面对的核心焦虑。
![]()
DeepSeek-V4的技术报告里确实写了,它在英伟达GPU和华为昇腾NPU两套体系上都做了专家并行方案的验证。但仔细看会发现,DeepSeek的做法更像是"双轨并行",核心训练还是离不开英伟达的生态,昇腾那边更多是推理侧的适配和优化。这不是贬低DeepSeek,它的模型能力确实已经逼近国际一线水平,可如果从"完全脱离英伟达独立完成训练"这件事来考量,它的国产化走得还没那么彻底。
科大讯飞说的"更快",指的是在算力国产化的进程上。具体来说,刘聪提到DSA稀疏注意力和MTP多token预测这两项关键技术的结合训练,目前只有讯飞能在国产算力上做到。这不是比谁模型跑分更高,而是比谁能不依赖英伟达把模型从头训到尾。在这个维度上,讯飞确实抢了先手。
当然这个先手不是天上掉下来的。早在2023年,科大讯飞就和华为联手发布了"飞星一号"平台,试图搭建从底层芯片到大模型到应用开发的完整国产链条。那时候华为的昇腾910B和英伟达A100之间的差距还非常明显,讯飞几乎是硬着头皮上的。当年讯飞内部承认过,如果换成英伟达平台,星火3.0的发布效果会更好,但国产化这步棋必须走。
从具体数字看,讯飞当时仅靠一万张910B就完成了深度思考推理模型星火X1的训练。一万张卡放在英伟达体系里不算多,但在国产平台上要跑通同等规模的训练,背后的算子适配、通信调度、精度对齐工作量是几何级增长的。每一次国际上出了新算法,在英伟达上可能三天就能跑起来,搬到国产卡上却得额外花三到六个月做底层适配。这就是时间成本,也是绝大多数公司不愿意碰国产算力训练的根本原因。
![]()
这个时间差在商业竞争中要命。你多花半年做适配,对手已经迭代了两个版本。所以国内绝大多数大模型公司选择了一条更务实的路:训练用英伟达,推理用国产芯片,以此压低Token成本。从IDC的数据看,2025年中国AI加速卡出货大约400万块,英伟达依然占了55%左右的份额,国产厂商加起来大约41%。训练侧对英伟达的依赖短期内还远没有被打破。
但科大讯飞偏偏选了最难走的那条路。长期在国产平台上摸爬滚打的过程中,讯飞踩过无数坑,修了大量底层bug,这些经验本身已经变成了一道竞争壁垒。在央国企的招投标市场,自主可控不是加分项而是硬门槛,讯飞星火在这个赛道上吃到了很大的红利。从业绩数据看,讯飞2025年全年营收271亿,同比增长超过16%,归母净利润同比涨了近50%。虽然2026年一季度仍有亏损,但趋势在收窄。
更值得注意的是,讯飞不是唯一一个在国产算力上发力的玩家了。就在4月24日,美团的LongCat-2.0-Preview开放测试,这个万亿参数级的大模型全程在国产算力集群上完成训练,动用了五万到六万张国产算力卡,是迄今为止国产算力上规模最大的训练任务。同一天,DeepSeek V4也正式亮相。两个万亿级模型在同一天落地,而且都把"适配国产算力"写进了核心叙事里,这不是巧合,是趋势。
![]()
硬件侧的变化同样在加速。2026年3月,华为正式发布了昇腾950PR芯片,单卡算力较英伟达特供版H20提升了约2.87倍。虽然和英伟达的高端型号H200乃至更新一代仍有差距,但差距在缩小。按照华为的路线图,2026年四季度还将推出Atlas 950 SuperPoD超节点,单集群8192卡。再往后看,2027年有昇腾960,2028年有昇腾970,每年算力翻一番的节奏非常激进。
950系列对模型厂商意味着什么?讯飞已经在和华为团队针对950芯片做深度对接,联合攻坚高效模型结构和智能体强化学习等技术。因为950相较于910在显存和带宽上都有大幅提升,讯飞预计现有算法迁移过去后训练速度会显著加快。按讯飞方面的说法,今年1024开发者节上有望基于昇腾950发布对标国际先进水平的旗舰模型。
我的判断是,"比DeepSeek更快"这个提法虽然有营销成分,但背后的逻辑是成立的。DeepSeek走的是先做强模型、再逐步适配国产算力的路径,它的技术上限更高,但国产化深度暂时不如讯飞。讯飞走的是先扎根国产平台、用适配经验换商业空间的路径,短期内在模型绝对性能上可能不如DeepSeek,但在"安全可控"这个维度上确实跑在了前面。
从地缘博弈的角度看,这件事的意义远不止两家公司的竞争。美国的出口管制正在加速中国AI供应链的国产化替代,某种程度上为中国本土企业创造了一个"封闭市场窗口期",国外高端产品被排斥后,国产方案获得了更多试错的空间。清华大学的研究团队把这种现象称为"硅幕"——一道以半导体为界的技术铁幕,正在中美之间加速落下。
美国商务部甚至专门发了指南,声称在全球任何地方使用华为昇腾芯片都违反美国出口管制政策。这种说法在法律上站不站得住脚另说,但传递出的信号非常明确:华盛顿已经把国产AI算力视为需要全面遏制的目标。在这种环境下,谁能率先在国产算力上跑通完整的训练流程,谁就不只是在做商业布局,而是在填补一条战略级的安全漏洞。
![]()
当然,不能光看好的。国产算力目前面临的挑战依然严峻。英伟达CUDA经过二十年积累,拥有超过四百万开发者和一整套成熟的库。国产软件栈的算子覆盖度、调试工具和社区支持都还有很大的差距。万卡级集群一旦运行起来,任何微小的计算误差和通信延迟都会被指数级放大。这些都是真实存在的工程难题,不是喊几句口号就能解决的。
但趋势是清晰的。2026年的中国大模型战场上,"能不能在国产算力上训练"已经从一道附加题变成了一道必答题。讯飞因为下手早、投入深,在这道题上确实交出了比同行更完整的答卷。DeepSeek、美团以及更多公司正在快速跟进。IDC把全球大模型市场划分为两大阵营——以OpenAI和谷歌为代表的闭源高端加海外算力阵营,以及以DeepSeek为代表的开源普惠加中国算力阵营。后者的底座能否真正自主可控,将直接决定中国AI产业在下一个十年的命运。
比DeepSeek更快?如果比的是模型跑分和用户规模,讯飞暂时追不上DeepSeek。但如果比的是"谁先在国产算力上完成模型训练"这条更底层的赛道,科大讯飞研究院院长说的话确实有据可查。在芯片管制愈演愈烈的2026年,这种"更快"也许比跑分更重要。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.