国产芯片，能否解决智谱和MiniMax的算力荒问题|英伟达|gpu|黄仁勋|知名企业

国产芯片，能否解决智谱和MiniMax的算力荒问题

2026-04-26 09:23:47　来源: 白鲸实验室one

北京举报

分享至

4月24日，DeepSeek正式发布新模型V4，以开源、低价、高性能给市场带来冲击，智谱与MiniMax双双跳水，市值一度跌超10%和12%。有网友戏称，DeepSeek果然是国产大模型最严厉的父亲。

无论是新模型V4，还是近期DeepSeek的融资消息，无疑都会给智谱和MiniMax的股价带来较大波动。4月23日，我们独家报道DeepSeek最新估值达到3000亿元，目前这个数字已经得到一位DeepSeek内部人士的确认。

当前真正卡住智谱和MiniMax的不是别的，而是年初龙虾火爆后带来的算力荒。

一位头部大厂算法人员算了一笔账，在同一个项目里改几行代码，不搭skills，AI先得读完整套系统的上下文，工程文件、依赖声明和类定义统统加载，单次任务几十万Token可能一下就烧完了。去年底同样花10块钱能跑完的任务，今年账单上变成了近20块。

“真到了需要复杂推理还原问题的时候，真不如自己手写，AI的性价比不如大学生，好用还便宜。”今年以来，智谱API价格连涨三次，4月发布GLM-5.1后Token价格再度上调10%，外版Coding Plan月付价格几乎翻倍，算下来，第一季度智谱的API定价累计上调约83%。MiniMax则将之前的Coding Plan全面升级为Token Plan，新增免费额度减少。

做出同样动作的还有阿里和腾讯，他们都将Coding Plan下架换成Token Plan。4月，阿里云四天内连发三条产品涨价公告，部分项目涨幅最高达34%。更早的3月，腾讯云部分模型价格涨幅高达463%。这意味着，哪怕成为高阶会员，Token量大管饱的日子也已经一去不复返了。

智谱CEO张鹏上个月在内部会议表示，“未来12个月最大问题是算力，不是需求。”而为了在有限的资源下求生存，MiniMax创始人闫俊杰表示，虽然公司同期收入增长了158.9%，但公司内部已经不再盲目追求用户量的绝对值，并宣布，截至2月，M2系列模型的百万Token推理成本已较2025年12月下降了超50%。

摩根大通最近将智谱与MiniMax同列为“中国AI采用周期的结构性受益者”，面对同样的算力挤兑，智谱和MiniMax交出了截然不同的答卷。

算力成了大模型厂商的生死线

春节以来，开发者社区的投诉帖几乎没有停过。Kimi自2月起高峰期常现算力不足，智谱更是一连遭遇了多轮危机，2月GLM-5上线后调用量暴增，API排队蔓延，部分开发者的长链代码生成任务直接中断。

智谱不得不公开致歉，承认“规则透明度不够、GLM-5灰度节奏太慢、老用户升级机制设计粗糙”，甚至开启全额退款通道。

4月12日，MiniMax正式开源M2.7模型，首日完成华为昇腾、摩尔线程、沐曦等多款国产GPU的Day-0适配，宣布通过MoE架构优化显著降低了推理成本。但即便如此，用户们吐槽MiniMax服务器繁忙、连续掉线、限流的帖子也不在少数。

这种算力短缺的根源在两端的同时失控。需求端，OpenClaw等智能体应用将Token消耗量推高了不止一个数量级。传统对话场景一篇文章消耗几千Token，一个典型的Openclaw自动化任务，其Token消耗量是传统对话场景的3至5倍，在文件整理、代码生成、多轮工具调用等环节，单次任务的上下文携带量成倍增长。

根据智谱发布的2025年度财报，公司全年实现营业收入7.24亿元，同比增长131.9%。但营收增速背后是更惊人的亏损扩大，年内亏损达到47.18亿元，同比扩大59.5%，经调整净亏损31.82亿元，同比扩大29.1%。研发开支高达31.80亿元，其中支付给第三方算力供应商的计算服务费用占据大头。

张鹏在一次AI开源前沿论坛上说：“所有的技术，包括智能体框架，在很多场景下可以带来十倍级的效率提升，但前提是算力充足。”在2026中关村论坛上，他再次强调：“大模型未来12个月面临的最大问题可能是算力。”

这种“增收巨亏”的局面并非智谱独有。闫俊杰也不止一次公开表示，用户量的增长和模型厂商收入的增长间并不存在正相关。这恰好解释了当下大模型公司“增收不增利”的窘境来源。

供给端则被死死卡住。2025年5月，美国商务部升级芯片出口限制，英伟达H20被纳入禁售名单。虽然后续H20有望重返中国市场，但配额大幅缩减。据SemiAnalysis数据，H100一年期租赁价格从2025年10月的约1.70美元/小时/GPU涨至2026年3月的约2.35美元/小时，涨幅近40%。

我们独家获悉，某头部大厂更是拿出数百亿的预算从年初就开始求卡，但仍然买卡无门。

据中国信通院数据，2025年英伟达在中国数据中心市场的份额已从2022年的95%下滑至50%，而国产AI芯片份额从12%增长至25%。华为昇腾以约81.2万块的出货量位居国产第一，市场份额约49.2%，但与英伟达剩余份额相加仍难以满足爆发式增长的算力需求。

这种供给失衡，让Token市场出现了K型分化。低成本“闲聊型”Token价格一降再降，阿里通义千问一度压至0.0005元/千Tokens，字节豆包0.0008元/千Tokens。这些面向基础场景的Token，成了黄仁勋口中类似“水电煤”的基础设施。

而另一端的“黄金型”Token——长链推理、复杂代码生成、企业私有化部署，价格却一路走高。智谱的API定价去年以来已累计提价83%，而市场需求非但没有减弱，API调用量反而增长了400%。算力这把达摩克利斯之剑，落在了所有厂商的脖子上。

智谱选保毛利，MiniMax选保份额

算力短缺如同一道共同的紧箍咒，但智谱和MiniMax选择了两种截然不同的解脱路径。智谱的打算很清楚，涨价，筛选，保利润。

张鹏在3月的一次活动中表示，低价竞争不利于行业发展，上调API价格是成本变化的结果。而从今年2月至4月，智谱用连续三次上调API价格来回应了这个判断：Coding Plan套餐涨30%，旗舰API服务涨20%，GLM-5上线后涨10%，GLM-5.1再涨10%。

Anthropic在海外已经划出了一条清晰的参考线。最近，Anthropic调整了企业版Claude Enterprise的定价模式，从每月最高200美元的固定费用，改为每月20美元基础费加按实际算力消耗收费。而在涨价的同时，Anthropic年化收入从2025年1月的约10亿美元，一年后，AnthropicARR突破300亿美元，超过OpenAI同期约250亿美元的规模。

如今，Anthropic估值已突破1万亿美元，超过了OpenAI（同期约8800亿美元）。

智谱选择跟上。通过连续涨价筛选出高付费意愿的客户，将有限的算力集中在Vibe Coding（氛围编程）向Agentic Engineering（智能体工程）演进的高价值场景。

2026年一季度，智谱API定价累计上调83%，同期调用量却暴增400%，云端API业务毛利率从3.3%升至18.9%。在刚结束的2025年财报电话会上，张鹏将智谱定位为 “中国的Anthropic”，并提出：“大模型公司商业价值取决于Token消耗的规模，而定价权完全取决于模型的智能上界。”

在张鹏看来，能高效处理长链复杂推理任务的高端Token永远是稀缺品，而谁掌握了高端Token的定价权，谁就能在下一代竞争中占住入口。这正是智谱在毛利率从56.3%降至41%的背景下，仍坚持聚焦高价值场景的逻辑所在。

MiniMax则走了一条完全相反的路线，开源、优化、抢规模。2025年10月以来，MiniMax在不到半年的时间内完成了M2、M2.1、M2.5和M2.7四代模型迭代。2026年4月12日，M2.7在全球开源。这款2300亿参数的MoE模型在推理时仅激活100亿参数，激活率约4.3%，极大降低了推理成本。

为了降本，MiniMax与华为昇腾、摩尔线程、沐曦、昆仑芯等海内外芯片厂商在开源首日完成了Day-0适配。摩尔线程基于MUSA架构实现了深度调优，在MTT S5000上完成高性能推理部署。沐曦曦云C系列GPU依托全栈自研的MXMACA软件栈实现了“模型发布即算力就绪”。

MiniMax已经拿到了成果。模型调用量爆发，M2系列文本模型单日Token消耗量在2026年前两个月较2025年12月激增6倍以上，2月ARR已突破1.5亿美元。经调整净亏损约2.5亿美元，亏损率显著收窄。

但这也是一场危险的赌注。MiniMaxAPI客单价明显低于智谱，单位算力的盈利空间被极度压缩。MiniMax打的是“以规模换生态”的算盘，闫俊杰的策略是先让Token足够便宜，让开发者习惯它的生态，再通过增值服务完成商业闭环。可如果开源生态变现的进度赶不上研发投入的增长，这条路就可能被高成本堵死。

而低价策略能否支撑Minimax在下一代模型研发上与智谱、阿里等巨头竞争，仍是未知数。

破局关键在“国产芯片”和时间窗口

2025年度智谱研发开支为31.8亿元，算力成本占研发总开支的七成以上，但仍无法满足需求。GLM-5单次推理的算力消耗是前代GLM-4.7的3倍，而国产GPU的适配优化尚在推进中。

尽管智谱已完成与华为昇腾、寒武纪等7大国产芯片的深度优化，长序列部署成本下降50%，整体算力缺口依然巨大。

海外巨头同样承受着巨大算力紧缺的重压。OpenAI放弃Sora视频生成应用，将算力集中到核心模型开发中。Anthropic用锁定AWS旗下Trainium芯片高达5吉瓦的算力资源来换取客户稳定性，不只是传统的风险投资。

算力的“绞索”正在勒紧每一位玩家的脖颈。而在算力的“绞索”被解除之前，智谱和MiniMax各自的探索都只是权宜之计，真正的变数是国产芯片的时间窗口。

2025年，英伟达在中国市场的AI加速卡占有率从2022年的约95%大幅下滑到约55%。国产AI加速卡总出货量约165万张，市占率约41%。华为昇腾以约81.2万张的出货量断层领跑，占国产份额约49.2%。阿里平头哥、百度昆仑芯、寒武纪、海光信息紧随其后。

在智谱发布的GLM-5中，华为昇腾、摩尔线程、寒武纪等国产芯片平台已完成深度推理适配与算子级优化。

更关键的一步可能在2026年到来。2026年3月，华为在合作伙伴大会上正式发布了搭载全新昇腾950PR的AI训练推理加速卡Atlas 350。这款芯片性能据估计可达英伟达H20的近三倍，并且对CUDA体系的兼容性已大幅提升，字节跳动、阿里巴巴等大厂都计划采用。

这意味着通往国产GPU的高质量替代之路已不是纸上谈兵。这次DeepSeek V4跳过英伟达CUDA生态，适配的是华为昇腾平台，可能动摇英伟达在AI算力市场的主导地位，打破其软件生态垄断。这也正是黄仁勋最近预言的“灾难”。

不过当前DeepSeek自身也卡算力。V4发布时官方明确坦言，V4-Pro当前高端算力吞吐有限，自身都受高端芯片供给约束，无法向外大规模输出富余算力。

未来的锚点在于，昇腾950PR能否在实际部署中兑现百万级高吞吐与低延迟的承诺，国产芯片是否能在2026年实现大规模、稳定的ToB商用。假设国产芯片能做到大规模稳定商用，让算力成本骤降，届时低价、规模化的路径无疑将占据上风。

留给国内大模型厂商的问题已然清晰，那就是能否在国产算力芯片全面成熟之前，抢先跑通一条脱离英伟达依赖独立发展的路径。

撰写｜马文佩、马舒叶

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.