小米Token降价99%，罗福莉为何打破自己立的规矩？|调用|上下文|开源模型|知名企业|token|agent

小米Token降价99%，罗福莉为何打破自己立的规矩？

2026-05-28 06:33:12　来源: 码上闲叙

北京举报

分享至

同样一台MiMo-V2.5-Pro，调用一次最低0.025元，最高却要9元，差距360倍。这不是bug，是小米刚上线的新定价机制。5月27日凌晨，小米大模型全系永久降价，最高降幅99%。而就在一个月前，负责MiMo的罗福莉还公开反对token价格战。她为什么会推翻自己？

先看这次降价到底有多狠。MiMo-V2.5-Pro命中缓存时，每百万token输入只要0.025元。没命中？价格跳到3元。输出更贵，6元。换句话说，99%降幅是有条件的：你的请求必须大量命中缓存。Token Plan也玩了同样的逻辑——月费不变，四档额度从原来的0.6亿、2亿、7亿、16亿Credits，一口气涨到41亿、110亿、380亿、820亿。但换算一下，Pro命中缓存只需2.5 Credits/token，没命中要300，输出600。便宜是真便宜，门槛也是真门槛。

这和DeepSeek上周的套路如出一辙。V4-Pro永久降至原价四分之一，输入缓存命中价格从0.1元砸到0.025元。两家现在焊死在同一条基准线上。为什么都在押注缓存命中这个场景？答案藏在Agent里。聊天场景一问一答，成本好算。但Agent任务背后是长上下文、多轮推理、代码生成、工具调用，用户只看到最终输出，后台可能已经跑了十几次请求。系统提示词、项目代码、API文档这些重复内容，每次重新计算成本会爆，能缓存就只按命中计费。价格越低，高频、多轮、长上下文的真实工作场景越愿意用你的模型。

到这里，罗福莉的立场就值得玩味了。一个多月前她公开反对低价token+开放第三方Agent框架，理由很具体：第三方Agent上下文管理粗放，单次查询可能触发多轮低价值工具调用，每次携带超过10万token的超长上下文。如果平台约束不住这种浪费，真实API成本可能是订阅价格的几十倍。她还判断全球算力供给已经跟不上Agent带来的需求增长，大模型公司在没厘清成本结构前打价格战，会导致限流、降配、稳定性下降。现在小米降价，她推翻自己了吗？没有。

她之前反对的是没有成本结构支撑的低价。这次小米亮出的牌，恰好是一套自认为能撑住低价的推理工程方案。技术团队基于SGLang HiCache完整支持滑动窗口注意力（SWA），把KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量，压到优化前的近七分之一，可缓存token数量提到近五倍。同时优化专家并行方案和输入长度分桶策略，提升集群输入吞吐。没有这层Infra底子，低价就是不可持续的补贴。有了，才可能转化成长期优势。

而且小米和纯模型公司不一样。手机、汽车、IoT、消费电子这些主业，给它提供了更长的投入周期和更大的战略耐心。大模型服务可以看作AI生态入口，不用只盯着短期API收入斤斤计较。但中小玩家就没有这份从容了。没有主业输血，没有过硬的Infra能力，调用规模摊不薄成本，注定没法长期跟。DeepSeek的低价已经威胁到不少国产模型的市场定位，小米跟进后，更多有体量的厂商会被迫调价或重新定义产品价值，更小的服务商可能被推向更窄的垂直场景。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.