同样一台MiMo-V2.5-Pro,调用一次最低0.025元,最高却要9元,差距360倍。这不是bug,是小米刚上线的新定价机制。5月27日凌晨,小米大模型全系永久降价,最高降幅99%。而就在一个月前,负责MiMo的罗福莉还公开反对token价格战。她为什么会推翻自己?
先看这次降价到底有多狠。MiMo-V2.5-Pro命中缓存时,每百万token输入只要0.025元。没命中?价格跳到3元。输出更贵,6元。换句话说,99%降幅是有条件的:你的请求必须大量命中缓存。Token Plan也玩了同样的逻辑——月费不变,四档额度从原来的0.6亿、2亿、7亿、16亿Credits,一口气涨到41亿、110亿、380亿、820亿。但换算一下,Pro命中缓存只需2.5 Credits/token,没命中要300,输出600。便宜是真便宜,门槛也是真门槛。
![]()
这和DeepSeek上周的套路如出一辙。V4-Pro永久降至原价四分之一,输入缓存命中价格从0.1元砸到0.025元。两家现在焊死在同一条基准线上。为什么都在押注缓存命中这个场景?答案藏在Agent里。聊天场景一问一答,成本好算。但Agent任务背后是长上下文、多轮推理、代码生成、工具调用,用户只看到最终输出,后台可能已经跑了十几次请求。系统提示词、项目代码、API文档这些重复内容,每次重新计算成本会爆,能缓存就只按命中计费。价格越低,高频、多轮、长上下文的真实工作场景越愿意用你的模型。
到这里,罗福莉的立场就值得玩味了。一个多月前她公开反对低价token+开放第三方Agent框架,理由很具体:第三方Agent上下文管理粗放,单次查询可能触发多轮低价值工具调用,每次携带超过10万token的超长上下文。如果平台约束不住这种浪费,真实API成本可能是订阅价格的几十倍。她还判断全球算力供给已经跟不上Agent带来的需求增长,大模型公司在没厘清成本结构前打价格战,会导致限流、降配、稳定性下降。现在小米降价,她推翻自己了吗?没有。
她之前反对的是没有成本结构支撑的低价。这次小米亮出的牌,恰好是一套自认为能撑住低价的推理工程方案。技术团队基于SGLang HiCache完整支持滑动窗口注意力(SWA),把KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量,压到优化前的近七分之一,可缓存token数量提到近五倍。同时优化专家并行方案和输入长度分桶策略,提升集群输入吞吐。没有这层Infra底子,低价就是不可持续的补贴。有了,才可能转化成长期优势。
而且小米和纯模型公司不一样。手机、汽车、IoT、消费电子这些主业,给它提供了更长的投入周期和更大的战略耐心。大模型服务可以看作AI生态入口,不用只盯着短期API收入斤斤计较。但中小玩家就没有这份从容了。没有主业输血,没有过硬的Infra能力,调用规模摊不薄成本,注定没法长期跟。DeepSeek的低价已经威胁到不少国产模型的市场定位,小米跟进后,更多有体量的厂商会被迫调价或重新定义产品价值,更小的服务商可能被推向更窄的垂直场景。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.