![]()
4月24日,DeepSeek正式发布新模型V4,以开源、低价、高性能给市场带来冲击,智谱与MiniMax双双跳水,市值一度跌超10%和12%。有网友戏称,DeepSeek果然是国产大模型最严厉的父亲。
无论是新模型V4,还是近期DeepSeek的融资消息,无疑都会给智谱和MiniMax的股价带来较大波动。4月23日,我们独家报道DeepSeek最新估值达到3000亿元,目前这个数字已经得到一位DeepSeek内部人士的确认。
当前真正卡住智谱和MiniMax的不是别的,而是年初龙虾火爆后带来的算力荒。
一位头部大厂算法人员算了一笔账,在同一个项目里改几行代码,不搭skills,AI先得读完整套系统的上下文,工程文件、依赖声明和类定义统统加载,单次任务几十万Token可能一下就烧完了。去年底同样花10块钱能跑完的任务,今年账单上变成了近20块。
“真到了需要复杂推理还原问题的时候,真不如自己手写,AI的性价比不如大学生,好用还便宜。”今年以来,智谱API价格连涨三次,4月发布GLM-5.1后Token价格再度上调10%,外版Coding Plan月付价格几乎翻倍,算下来,第一季度智谱的API定价累计上调约83%。MiniMax则将之前的Coding Plan全面升级为Token Plan,新增免费额度减少。
做出同样动作的还有阿里和腾讯,他们都将Coding Plan下架换成Token Plan。4月,阿里云四天内连发三条产品涨价公告,部分项目涨幅最高达34%。更早的3月,腾讯云部分模型价格涨幅高达463%。这意味着,哪怕成为高阶会员,Token量大管饱的日子也已经一去不复返了。
智谱CEO张鹏上个月在内部会议表示,“未来12个月最大问题是算力,不是需求。”而为了在有限的资源下求生存,MiniMax创始人闫俊杰表示,虽然公司同期收入增长了158.9%,但公司内部已经不再盲目追求用户量的绝对值,并宣布,截至2月,M2系列模型的百万Token推理成本已较2025年12月下降了超50%。
摩根大通最近将智谱与MiniMax同列为“中国AI采用周期的结构性受益者”,面对同样的算力挤兑,智谱和MiniMax交出了截然不同的答卷。
01
算力成了大模型厂商的生死线
春节以来,开发者社区的投诉帖几乎没有停过。Kimi自2月起高峰期常现算力不足,智谱更是一连遭遇了多轮危机,2月GLM-5上线后调用量暴增,API排队蔓延,部分开发者的长链代码生成任务直接中断。
智谱不得不公开致歉,承认“规则透明度不够、GLM-5灰度节奏太慢、老用户升级机制设计粗糙”,甚至开启全额退款通道。
4月12日,MiniMax正式开源M2.7模型,首日完成华为昇腾、摩尔线程、沐曦等多款国产GPU的Day-0适配,宣布通过MoE架构优化显著降低了推理成本。但即便如此,用户们吐槽MiniMax服务器繁忙、连续掉线、限流的帖子也不在少数。
这种算力短缺的根源在两端的同时失控。需求端,OpenClaw等智能体应用将Token消耗量推高了不止一个数量级。传统对话场景一篇文章消耗几千Token,一个典型的Openclaw自动化任务,其Token消耗量是传统对话场景的3至5倍,在文件整理、代码生成、多轮工具调用等环节,单次任务的上下文携带量成倍增长。
根据智谱发布的2025年度财报,公司全年实现营业收入7.24亿元,同比增长131.9%。但营收增速背后是更惊人的亏损扩大,年内亏损达到47.18亿元,同比扩大59.5%,经调整净亏损31.82亿元,同比扩大29.1%。研发开支高达31.80亿元,其中支付给第三方算力供应商的计算服务费用占据大头。
张鹏在一次AI开源前沿论坛上说:“所有的技术,包括智能体框架,在很多场景下可以带来十倍级的效率提升,但前提是算力充足。”在2026中关村论坛上,他再次强调:“大模型未来12个月面临的最大问题可能是算力。”
这种“增收巨亏”的局面并非智谱独有。闫俊杰也不止一次公开表示,用户量的增长和模型厂商收入的增长间并不存在正相关。这恰好解释了当下大模型公司“增收不增利”的窘境来源。
供给端则被死死卡住。2025年5月,美国商务部升级芯片出口限制,英伟达H20被纳入禁售名单。虽然后续H20有望重返中国市场,但配额大幅缩减。据SemiAnalysis数据,H100一年期租赁价格从2025年10月的约1.70美元/小时/GPU涨至2026年3月的约2.35美元/小时,涨幅近40%。
我们独家获悉,某头部大厂更是拿出数百亿的预算从年初就开始求卡,但仍然买卡无门。
据中国信通院数据,2025年英伟达在中国数据中心市场的份额已从2022年的95%下滑至50%,而国产AI芯片份额从12%增长至25%。华为昇腾以约81.2万块的出货量位居国产第一,市场份额约49.2%,但与英伟达剩余份额相加仍难以满足爆发式增长的算力需求。
这种供给失衡,让Token市场出现了K型分化。低成本“闲聊型”Token价格一降再降,阿里通义千问一度压至0.0005元/千Tokens,字节豆包0.0008元/千Tokens。这些面向基础场景的Token,成了黄仁勋口中类似“水电煤”的基础设施。
而另一端的“黄金型”Token——长链推理、复杂代码生成、企业私有化部署,价格却一路走高。智谱的API定价去年以来已累计提价83%,而市场需求非但没有减弱,API调用量反而增长了400%。算力这把达摩克利斯之剑,落在了所有厂商的脖子上。
02
智谱选保毛利,MiniMax选保份额
算力短缺如同一道共同的紧箍咒,但智谱和MiniMax选择了两种截然不同的解脱路径。智谱的打算很清楚,涨价,筛选,保利润。
张鹏在3月的一次活动中表示,低价竞争不利于行业发展,上调API价格是成本变化的结果。而从今年2月至4月,智谱用连续三次上调API价格来回应了这个判断:Coding Plan套餐涨30%,旗舰API服务涨20%,GLM-5上线后涨10%,GLM-5.1再涨10%。
Anthropic在海外已经划出了一条清晰的参考线。最近,Anthropic调整了企业版Claude Enterprise的定价模式,从每月最高200美元的固定费用,改为每月20美元基础费加按实际算力消耗收费。而在涨价的同时,Anthropic年化收入从2025年1月的约10亿美元,一年后,AnthropicARR突破300亿美元,超过OpenAI同期约250亿美元的规模。
如今,Anthropic估值已突破1万亿美元,超过了OpenAI(同期约8800亿美元)。
智谱选择跟上。通过连续涨价筛选出高付费意愿的客户,将有限的算力集中在Vibe Coding(氛围编程)向Agentic Engineering(智能体工程)演进的高价值场景。
2026年一季度,智谱API定价累计上调83%,同期调用量却暴增400%,云端API业务毛利率从3.3%升至18.9%。在刚结束的2025年财报电话会上,张鹏将智谱定位为 “中国的Anthropic”,并提出:“大模型公司商业价值取决于Token消耗的规模,而定价权完全取决于模型的智能上界。”
在张鹏看来,能高效处理长链复杂推理任务的高端Token永远是稀缺品,而谁掌握了高端Token的定价权,谁就能在下一代竞争中占住入口。这正是智谱在毛利率从56.3%降至41%的背景下,仍坚持聚焦高价值场景的逻辑所在。
MiniMax则走了一条完全相反的路线,开源、优化、抢规模。2025年10月以来,MiniMax在不到半年的时间内完成了M2、M2.1、M2.5和M2.7四代模型迭代。2026年4月12日,M2.7在全球开源。这款2300亿参数的MoE模型在推理时仅激活100亿参数,激活率约4.3%,极大降低了推理成本。
为了降本,MiniMax与华为昇腾、摩尔线程、沐曦、昆仑芯等海内外芯片厂商在开源首日完成了Day-0适配。摩尔线程基于MUSA架构实现了深度调优,在MTT S5000上完成高性能推理部署。沐曦曦云C系列GPU依托全栈自研的MXMACA软件栈实现了“模型发布即算力就绪”。
MiniMax已经拿到了成果。模型调用量爆发,M2系列文本模型单日Token消耗量在2026年前两个月较2025年12月激增6倍以上,2月ARR已突破1.5亿美元。经调整净亏损约2.5亿美元,亏损率显著收窄。
但这也是一场危险的赌注。MiniMaxAPI客单价明显低于智谱,单位算力的盈利空间被极度压缩。MiniMax打的是“以规模换生态”的算盘,闫俊杰的策略是先让Token足够便宜,让开发者习惯它的生态,再通过增值服务完成商业闭环。可如果开源生态变现的进度赶不上研发投入的增长,这条路就可能被高成本堵死。
而低价策略能否支撑Minimax在下一代模型研发上与智谱、阿里等巨头竞争,仍是未知数。
03
破局关键在“国产芯片”和时间窗口
2025年度智谱研发开支为31.8亿元,算力成本占研发总开支的七成以上,但仍无法满足需求。GLM-5单次推理的算力消耗是前代GLM-4.7的3倍,而国产GPU的适配优化尚在推进中。
尽管智谱已完成与华为昇腾、寒武纪等7大国产芯片的深度优化,长序列部署成本下降50%,整体算力缺口依然巨大。
海外巨头同样承受着巨大算力紧缺的重压。OpenAI放弃Sora视频生成应用,将算力集中到核心模型开发中。Anthropic用锁定AWS旗下Trainium芯片高达5吉瓦的算力资源来换取客户稳定性,不只是传统的风险投资。
算力的“绞索”正在勒紧每一位玩家的脖颈。而在算力的“绞索”被解除之前,智谱和MiniMax各自的探索都只是权宜之计,真正的变数是国产芯片的时间窗口。
2025年,英伟达在中国市场的AI加速卡占有率从2022年的约95%大幅下滑到约55%。国产AI加速卡总出货量约165万张,市占率约41%。华为昇腾以约81.2万张的出货量断层领跑,占国产份额约49.2%。阿里平头哥、百度昆仑芯、寒武纪、海光信息紧随其后。
在智谱发布的GLM-5中,华为昇腾、摩尔线程、寒武纪等国产芯片平台已完成深度推理适配与算子级优化。
更关键的一步可能在2026年到来。2026年3月,华为在合作伙伴大会上正式发布了搭载全新昇腾950PR的AI训练推理加速卡Atlas 350。这款芯片性能据估计可达英伟达H20的近三倍,并且对CUDA体系的兼容性已大幅提升,字节跳动、阿里巴巴等大厂都计划采用。
这意味着通往国产GPU的高质量替代之路已不是纸上谈兵。这次DeepSeek V4跳过英伟达CUDA生态,适配的是华为昇腾平台,可能动摇英伟达在AI算力市场的主导地位,打破其软件生态垄断。这也正是黄仁勋最近预言的“灾难”。
不过当前DeepSeek自身也卡算力。V4发布时官方明确坦言,V4-Pro当前高端算力吞吐有限,自身都受高端芯片供给约束,无法向外大规模输出富余算力。
未来的锚点在于,昇腾950PR能否在实际部署中兑现百万级高吞吐与低延迟的承诺,国产芯片是否能在2026年实现大规模、稳定的ToB商用。假设国产芯片能做到大规模稳定商用,让算力成本骤降,届时低价、规模化的路径无疑将占据上风。
留给国内大模型厂商的问题已然清晰,那就是能否在国产算力芯片全面成熟之前,抢先跑通一条脱离英伟达依赖独立发展的路径。
撰写|马文佩、马舒叶
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.