4月13日下午,李然刷新阿里云官网时,手停在了鼠标上。DataWorks标准版的API免费额度从"不限量"变成10万次/月,他的AI客服SaaS工具每月15万次调用,意味着超8000元的新增成本。而上个月,这款产品的净利润刚破万。
这不是个案。从百度、腾讯到AWS、OpenAI,全球主流云厂商和AI公司正在密集调价。免费额度大幅缩水,按量付费成为常态,一场覆盖开发者和企业的成本重估已经启动。
![]()
从"用不完"到"不够用":一个开发者的18个月
李然的账本记录了这场剧变。2025年同期,调用1000万Token的成本是500元。如今同样的用量,叠加腾讯云混元、百度文心的单价上调,成本逼近万元。
"去年这时候,我们还在为免费调用量用不完发愁。"他对我们调侃道。18个月前,行业逻辑还是"补贴换用户"——云厂商用免费额度吸引开发者入驻,期待规模效应摊薄成本。
转折点出现在2026年春节。OpenClaw(龙虾)带动的智能体热潮,彻底改写了Token消耗规则。单任务的多轮递归、工具调用、反思验证,让Agent的Token消耗达到传统对话的50-100倍。一个活跃Agent月耗Token,可以是普通用户的千倍以上。
摩根大通的预测数据被频繁引用:中国AI推理Token消耗量将从2025年的约10千万亿,增长至2030年的约3900千万亿,五年370倍。
需求爆炸的同时,供给侧却在收紧。李然的公司现金流还能撑三个月,但他清楚,成本压力不会消失。
全球调价地图:没有一家缺席
国内厂商的调整路径清晰可辨。百度智能云最先行动:3月18日官宣,4月18日起AI算力产品涨价5%-30%,文心一言系列API单价上调12%-25%,"永久免费不限量"的低阶模型改为QPS限流+超额计费。
腾讯云紧随其后。3月调整混元模型API价格,4月9日发布公告,5月9日起AI算力、容器服务TKE-原生节点及弹性MapReduce(EMR)相关产品统一上调5%。
字节火山引擎的调整更隐蔽。Q1豆包大语言模型Token单价调整,文生视频API价格较内测期上涨,15秒视频成本约15元。无限免费调用取消,仅保留新用户500万Token/30天的短期额度。
智谱AI的调价最为激进。几乎每次模型发布都伴随价格上涨,4月8日GLM-5.1发布时,GLM系列API价格再涨10%。4月12日,智谱Coding Plan(海外版)月付价格几乎翻倍,已是今年第三次提价。
智谱CEO张鹏在3月31日业绩电话会上透露:2026年Q1,API调用定价提升83%,调用量反而增长400%。"市场呈现出供不应求的情况。"
海外厂商的动作同样密集。1月22日,亚马逊AWS打破20年"价格下行"惯例,EC2机器学习容量块涨价15%。2月15日,微软Azure调整GPT-4o、GPT-4 Turbo API价格,取消GPT-4o免费额度。
3月10日,Google Cloud官宣5月1日起AI计算实例价格调整,下架Gemini低价订阅套餐。OpenAI的调价覆盖多条产品线:GPT-4o/4 Turbo API涨价,ChatGPT Plus从20美元/月涨至30美元/月,每日消息限30条。
阿里云4月18日的全线涨价,最高涨幅34%,为这轮调整画上阶段性句号。
涨价的底气:从"可选工具"到"刚需生产资料"
价格上调并未抑制需求,反而印证了一个反直觉的事实:AI已从尝鲜工具变成企业的生产基础设施。
2026年Q1的数据极具说服力。国内日均Token调用量突破140万亿,较2024年初的1000亿增长超1400倍。字节豆包日均Token消耗超120万亿,多模态(视频/图像)Token占比超40%——而多模态成本是纯文本的10倍以上。百度千帆平台企业用户Token消耗Q1环比增长280%。
智谱的"涨价83%、调用量增长400%",揭示了当前市场的真实状态:低阶免费模型需求旺盛,高阶付费模型供不应求。当供给紧张遇上需求刚性,价格自然由供需关系重新定价。
这种刚性需求背后,是AI应用形态的根本转变。2026年,行业从单轮对话进入智能体时代。Agent的工作机制决定了Token消耗的指数级增长:任务分解、多轮递归、工具调用、结果验证,每一步都在燃烧Token。
以OpenClaw为例,完成一个复杂任务可能需要数十轮交互,调用多个外部工具,每次调用都产生新的Token消耗。传统对话模型的一次性响应,与Agent的持续状态维护相比,成本结构完全不同。
对企业用户而言,模型能力的重要性已超越价格敏感度。当AI成为业务流程的核心环节,停机或降质的代价远高于算力成本本身。这正是厂商敢于涨价的底层支撑。
成本传导链:英伟达的定价权
所有下游涨价的起点,指向产业链上游的绝对主导者。
英伟达占据全球85%的AI芯片市场份额,净利润率高达56%。它的定价,在很大程度上决定了整个行业的成本底线。
2026年的供给紧张是真实的:Blackwell系列GPU交付周期排至2027年,单卡采购成本同比上涨30%以上。HBM3E高带宽内存现货价较2025年底上涨超20%,全球产能缺口50%-60%。
更隐蔽的成本来自软件生态。全球90%的AI训练代码基于CUDA编写,500万开发者依赖这一生态。每颗H20芯片需搭配1.2万美元的CUDA授权费,隐性成本占比超30%。
硬件+软件的闭环,让英伟达掌握了从性能到成本的双重杠杆。阿里、腾讯、微软、谷歌等云厂商,只能被动接受成本上涨,再将压力传导至下游用户。
这不是简单的"逐利",而是产业链利润分配的结构性重构。当上游集中度如此之高,下游的议价空间被严重压缩。
商业逻辑的切换:从烧钱换规模到盈利优先
价格调整的背后,是整个AI产业商业逻辑的深层转变。
过去两年,行业信奉"补贴扩张":用免费额度吸引开发者,用亏损换用户规模,期待网络效应摊薄成本。这套互联网时代的经典打法,在AI领域遭遇了瓶颈。
瓶颈来自两个维度。一是算力成本的非线性增长——Token消耗增速远超硬件降本速度;二是商业模式的验证压力——资本耐心有限,盈利时间表被迫提前。
2026年,行业集体转向"盈利优先"和精细化运营。定价权从用户端回归厂商端,免费额度成为历史,按量付费成为常态。这不是某个厂商的个体选择,而是产业阶段的必然跃迁。
对开发者的影响是直接且分化的。高频调用者如李然,必须重新评估成本结构,在模型能力、调用频率、产品定价之间寻找新平衡。低频或尝鲜型用户,则可能被迫退出或降级。
更深远的影响在于创新门槛。当算力成本从"可忽略"变为"需精算",中小团队的试错空间被压缩,资源向头部集中。这与互联网早期的"低成本创业"叙事形成鲜明对照。
李然算的那笔账,正在无数开发者桌上重演。现金流还能撑三个月,但成本上涨是持续压力。他的选择有限:要么提高产品定价转移成本,要么优化架构减少调用,要么寻找替代方案——但替代方案的窗口也在收窄。
全球厂商的集体调价,硬是把AI产业从补贴扩张阶段拉回了价值定价的理性轨道。这不是终点,而是新阶段的起点:当算力不再"为爱发电",AI的商业化才真正开始接受市场检验。
至于那些还在期待"免费额度回归"的人,可能需要重新理解这个行业的运行规则——就像电力、带宽、云计算曾经走过的路一样,基础设施的价值,最终要靠真金白银来确认。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.