来源:市场资讯
(来源:AI信息Gap)
被小米 MiMo 刷屏了!
100 万 token 的缓存输入,只要 2.5 分钱。
这是小米 MiMo-V2.5-Pro 模型刚刚生效的新价格。
降价幅度 99%,太狠了。和 DeepSeek-V4-Pro 几天前刚定下来的永久价格,一模一样。
![]()
北京时间 5 月 27 日零点,MiMo-V2.5 全系列模型永久降价,不再按上下文长度分段计价。
MiMo-V2.5-Pro 的缓存命中输入从 2.80 元降到了 0.025 元/百万 token。没命中 3 元,输出 6 元。
MiMo-V2.5 更便宜。缓存命中 0.02 元,没命中 1 元,输出 2 元。
小米 TTS 语音合成模型继续限时免费。V2 系列即将下线,官方建议尽快迁移。
雷总当天转发微博,「最高降幅达到 99%,不再区分上下文窗口。欢迎更多开发者接入 Xiaomi MiMo 大模型。」
![]()
小米集团总裁卢伟冰也转发表态,「这背后是我们在模型推理系统上的持续优化。」
小米今年在 AI 领域至少投入 160 亿元,未来三年预算 600 亿。
降价之前,小米刚送完一波白花花的 token。
MiMo Orbit「百万亿 Token 创造者激励计划」4 月 28 日上线,计划 30 天免费发放 100 万亿 token。结果提前 2 天就全部发完,5 月 26 日下午 4 点 08 分收官。
54.87 万人申请,24.19 万份 Token Plan 获批,通过率 43.74%。等值人民币 6583 万元。
用户来自科研、制造、内容创作、电商、金融等多个行业。Apache 软件基金会的专属福利长期有效,不受影响。
![]()
撒完 6600 万,转头 API 就降价 99%。
所有仍在有效期内的 Token Plan,不管当前消耗了多少,Credits 额度全部重置,有效期不变。24 万人刚领到的免费额度,一夜之间又满了。
官方邮件最后还提了一句,已过期的 Token Plan 用户也有好礼,未来一周内宣布。
这波降价,背后是推理系统的优化。
小米技术团队基于 SGLang HiCache 完整支持了 SWA(滑动窗口注意力机制)。KV Cache 在 GPU 显存、CPU 内存、SSD 之间的数据搬运量,降到了优化前的 1/7。可缓存的 token 数量提升到了 5 倍。
专家并行和输入分桶策略也做了优化,集群处理速度进一步提升。
有开发者分析,这套方案跟 DeepSeek-V4 公开技术文档中的多级缓存架构思路接近,用 SSD 扩展显存,大幅降低百万上下文的显存成本。
「这个价格,仍然有钱赚。」
值得一提的是,在新的 Credits 计费规则下,Token Plan 的额度数字变大了好几倍,但每次调用扣除的 Credit 数也按比例增加。
换算下来,如果你的应用缓存命中率不高,实际省下来的幅度没有 99% 那么夸张。
缓存命中率越高,实际成本越低。小米在用价格杠杆推动开发者优化提示词,把缓存利用起来。
但不管怎样,降价是实打实的优惠。
一个月。小米 MiMo 开源了 V2.5 模型,送了 6600 万,全系降价 99%。
Token 刺客的时代,过去了。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.