比DeepSeek快?科大讯飞研究院院长:我们在国产算力上完成模型训练|英伟达|知名企业|算力基础设施|deepseek

比DeepSeek快?科大讯飞研究院院长:我们在国产算力上完成模型训练

分享至

比DeepSeek更快？这句话放在2026年的5月来看，分量不轻。就在4月29日的业绩说明会上，科大讯飞研究院院长刘聪抛出了一个颇为大胆的说法：国内只有讯飞一家，真正在全国产算力上跑通了全栈模型训练。这话不是客套，而是直接把矛头对准了眼下风头正劲的DeepSeek，甚至整个国内大模型行业。

要理解这句话的含金量，得先看看背景。过去几年，美国对华高端AI芯片的出口管制一步步收紧，从A100、H100全面禁售，到特供版H20加限许可，再到2026年4月事实上的全面封堵。英伟达的CUDA生态统治了全球AI训练市场超过十年，绝大多数模型公司从第一行代码开始就长在英伟达的土壤上。突然把地基抽走，整栋楼怎么办？这就是中国AI行业面对的核心焦虑。

DeepSeek-V4的技术报告里确实写了，它在英伟达GPU和华为昇腾NPU两套体系上都做了专家并行方案的验证。但仔细看会发现，DeepSeek的做法更像是＂双轨并行＂，核心训练还是离不开英伟达的生态，昇腾那边更多是推理侧的适配和优化。这不是贬低DeepSeek，它的模型能力确实已经逼近国际一线水平，可如果从＂完全脱离英伟达独立完成训练＂这件事来考量，它的国产化走得还没那么彻底。

科大讯飞说的＂更快＂，指的是在算力国产化的进程上。具体来说，刘聪提到DSA稀疏注意力和MTP多token预测这两项关键技术的结合训练，目前只有讯飞能在国产算力上做到。这不是比谁模型跑分更高，而是比谁能不依赖英伟达把模型从头训到尾。在这个维度上，讯飞确实抢了先手。

当然这个先手不是天上掉下来的。早在2023年，科大讯飞就和华为联手发布了＂飞星一号＂平台，试图搭建从底层芯片到大模型到应用开发的完整国产链条。那时候华为的昇腾910B和英伟达A100之间的差距还非常明显，讯飞几乎是硬着头皮上的。当年讯飞内部承认过，如果换成英伟达平台，星火3.0的发布效果会更好，但国产化这步棋必须走。

从具体数字看，讯飞当时仅靠一万张910B就完成了深度思考推理模型星火X1的训练。一万张卡放在英伟达体系里不算多，但在国产平台上要跑通同等规模的训练，背后的算子适配、通信调度、精度对齐工作量是几何级增长的。每一次国际上出了新算法，在英伟达上可能三天就能跑起来，搬到国产卡上却得额外花三到六个月做底层适配。这就是时间成本，也是绝大多数公司不愿意碰国产算力训练的根本原因。

这个时间差在商业竞争中要命。你多花半年做适配，对手已经迭代了两个版本。所以国内绝大多数大模型公司选择了一条更务实的路：训练用英伟达，推理用国产芯片，以此压低Token成本。从IDC的数据看，2025年中国AI加速卡出货大约400万块，英伟达依然占了55%左右的份额，国产厂商加起来大约41%。训练侧对英伟达的依赖短期内还远没有被打破。

但科大讯飞偏偏选了最难走的那条路。长期在国产平台上摸爬滚打的过程中，讯飞踩过无数坑，修了大量底层bug，这些经验本身已经变成了一道竞争壁垒。在央国企的招投标市场，自主可控不是加分项而是硬门槛，讯飞星火在这个赛道上吃到了很大的红利。从业绩数据看，讯飞2025年全年营收271亿，同比增长超过16%，归母净利润同比涨了近50%。虽然2026年一季度仍有亏损，但趋势在收窄。

更值得注意的是，讯飞不是唯一一个在国产算力上发力的玩家了。就在4月24日，美团的LongCat-2.0-Preview开放测试，这个万亿参数级的大模型全程在国产算力集群上完成训练，动用了五万到六万张国产算力卡，是迄今为止国产算力上规模最大的训练任务。同一天，DeepSeek V4也正式亮相。两个万亿级模型在同一天落地，而且都把＂适配国产算力＂写进了核心叙事里，这不是巧合，是趋势。

硬件侧的变化同样在加速。2026年3月，华为正式发布了昇腾950PR芯片，单卡算力较英伟达特供版H20提升了约2.87倍。虽然和英伟达的高端型号H200乃至更新一代仍有差距，但差距在缩小。按照华为的路线图，2026年四季度还将推出Atlas 950 SuperPoD超节点，单集群8192卡。再往后看，2027年有昇腾960，2028年有昇腾970，每年算力翻一番的节奏非常激进。

950系列对模型厂商意味着什么？讯飞已经在和华为团队针对950芯片做深度对接，联合攻坚高效模型结构和智能体强化学习等技术。因为950相较于910在显存和带宽上都有大幅提升，讯飞预计现有算法迁移过去后训练速度会显著加快。按讯飞方面的说法，今年1024开发者节上有望基于昇腾950发布对标国际先进水平的旗舰模型。

我的判断是，＂比DeepSeek更快＂这个提法虽然有营销成分，但背后的逻辑是成立的。DeepSeek走的是先做强模型、再逐步适配国产算力的路径，它的技术上限更高，但国产化深度暂时不如讯飞。讯飞走的是先扎根国产平台、用适配经验换商业空间的路径，短期内在模型绝对性能上可能不如DeepSeek，但在＂安全可控＂这个维度上确实跑在了前面。

从地缘博弈的角度看，这件事的意义远不止两家公司的竞争。美国的出口管制正在加速中国AI供应链的国产化替代，某种程度上为中国本土企业创造了一个＂封闭市场窗口期＂，国外高端产品被排斥后，国产方案获得了更多试错的空间。清华大学的研究团队把这种现象称为＂硅幕＂——一道以半导体为界的技术铁幕，正在中美之间加速落下。

美国商务部甚至专门发了指南，声称在全球任何地方使用华为昇腾芯片都违反美国出口管制政策。这种说法在法律上站不站得住脚另说，但传递出的信号非常明确：华盛顿已经把国产AI算力视为需要全面遏制的目标。在这种环境下，谁能率先在国产算力上跑通完整的训练流程，谁就不只是在做商业布局，而是在填补一条战略级的安全漏洞。

当然，不能光看好的。国产算力目前面临的挑战依然严峻。英伟达CUDA经过二十年积累，拥有超过四百万开发者和一整套成熟的库。国产软件栈的算子覆盖度、调试工具和社区支持都还有很大的差距。万卡级集群一旦运行起来，任何微小的计算误差和通信延迟都会被指数级放大。这些都是真实存在的工程难题，不是喊几句口号就能解决的。

但趋势是清晰的。2026年的中国大模型战场上，＂能不能在国产算力上训练＂已经从一道附加题变成了一道必答题。讯飞因为下手早、投入深，在这道题上确实交出了比同行更完整的答卷。DeepSeek、美团以及更多公司正在快速跟进。IDC把全球大模型市场划分为两大阵营——以OpenAI和谷歌为代表的闭源高端加海外算力阵营，以及以DeepSeek为代表的开源普惠加中国算力阵营。后者的底座能否真正自主可控，将直接决定中国AI产业在下一个十年的命运。

比DeepSeek更快？如果比的是模型跑分和用户规模，讯飞暂时追不上DeepSeek。但如果比的是＂谁先在国产算力上完成模型训练＂这条更底层的赛道，科大讯飞研究院院长说的话确实有据可查。在芯片管制愈演愈烈的2026年，这种＂更快＂也许比跑分更重要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.