降价99%依然收支平衡，小米披露全链路推理技术优化细节|mimo|小米集团|知名企业|token

降价99%依然收支平衡，小米披露全链路推理技术优化细节

2026-05-31 19:06:02　来源: 贝壳财经

北京举报

分享至

新京报贝壳财经讯（记者陈维城）5月27日，小米宣布旗下MiMo-V2.5系列大模型API永久降价，最高降幅达99%，引发业界广泛关注。讨论焦点集中在一个问题上：降幅最高达99%，技术上如何实现？

5月30日，小米MiMo大模型团队在官方技术博客首次完整公开降价背后的技术路径。MiMo-V2.5-Pro是一个万亿参数MoE模型，采用Hybrid SWA架构：70层中60层仅计算局部窗口注意力，10层保留全局视野。理论上，这种设计能将KVCache存储和计算量压至Full Attention的1/7。

“理论上的架构优势，并不会天然转化为真实线上系统的效率优势。”MiMo团队在技术博客中指出，在生产环境中，分布式缓存状态不一致、前缀匹配语义失效、多级存储搬运延迟等工程挑战，会将理论收益大幅削减。

五项突破分别作用于推理链路的不同环节，存储、缓存、调度、解码、多模态。KVCache双池释放的显存空间，被GCache用于扩大缓存容量；更大的缓存容量提高了命中率；更高的命中率减少了Prefill重算量；Prefill加速又为Decode腾出了更多调度余量。

MiMo团队介绍，整条推理链路的成本结构被系统性地改变，这也是降价99%依然能维持收支平衡的技术底气。

MiMo-V2.5系列模型降价消息发布后，全球开发者社区迅速被点燃。在海外技术论坛和社交平台上，围绕“降价99%为什么还不亏”的讨论热度持续攀升，大量开发者自发分析 MiMo的推理架构和成本结构。

不少开发者惊叹“优质模型的成本正在以惊人的速度下降，智能的发展速度快得真正无法衡量”。同时还有大量开发者点赞以MiMo为代表的中国模型性能强大、速度快，“中国AI模型比美国AI泡沫模型便宜90%到95%，不仅价格低廉、速度快，并且对于大多数现实世界用例来说足够实用，AI泡沫未来可能被成本曲线崩塌所扼杀。”

在全球知名API调用平台OpenRouter上，Xiaomi MiMo-V2.5系列大模型调用量在迅速攀升，截至5月30日，MiMo-V2.5跻身日榜第三、周榜第十，MiMo-V2.5-Pro跻身日榜第七、周榜第八。

此次技术博客的发布，也是小米MiMo对近期外界质疑的一次正面回应，不仅将一整套模型推理系统全链路优化所节省的成本通过API降价回馈给用户，同时已将这次优化的技术细节以 PR 形式回馈 SGLang 开源社区，希望尽早让工程优化不再成为门槛，使这类兼具强度与效率的复合架构得到更广泛的探索与应用。

除了降价和开源，MiMo对开发者生态的投入还在持续加码。4月28日推出的“百万亿Token创造者激励计划”已圆满收官：总申请人数超过54万人，覆盖科研学术、制造工业等行业，累计发放100万亿免费Token，折合人民币超6500万元。

同期启动的“Agent生态共建计划”面向Agent框架团队提供Token扶持，首批13家合作伙伴名单已公布，小米为这些框架和合作方提供了限免Token支持。“开源的价值不止于权重公开，更在于生态共建。”小米MiMo团队表示。

编辑罗亦丹

校对付春愔

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.