新京报贝壳财经讯(记者 陈维城)5月27日,小米宣布旗下MiMo-V2.5系列大模型API永久降价,最高降幅达99%,引发业界广泛关注。讨论焦点集中在一个问题上:降幅最高达99%,技术上如何实现?
5月30日,小米MiMo大模型团队在官方技术博客首次完整公开降价背后的技术路径。MiMo-V2.5-Pro是一个万亿参数MoE模型,采用Hybrid SWA架构:70层中60层仅计算局部窗口注意力,10层保留全局视野。理论上,这种设计能将KVCache存储和计算量压至Full Attention的1/7。
“理论上的架构优势,并不会天然转化为真实线上系统的效率优势。”MiMo团队在技术博客中指出,在生产环境中,分布式缓存状态不一致、前缀匹配语义失效、多级存储搬运延迟等工程挑战,会将理论收益大幅削减。
五项突破分别作用于推理链路的不同环节,存储、缓存、调度、解码、多模态。KVCache双池释放的显存空间,被GCache用于扩大缓存容量;更大的缓存容量提高了命中率;更高的命中率减少了Prefill重算量;Prefill加速又为Decode腾出了更多调度余量。
MiMo团队介绍,整条推理链路的成本结构被系统性地改变,这也是降价99%依然能维持收支平衡的技术底气。
MiMo-V2.5系列模型降价消息发布后,全球开发者社区迅速被点燃。在海外技术论坛和社交平台上,围绕“降价99%为什么还不亏”的讨论热度持续攀升,大量开发者自发分析 MiMo的推理架构和成本结构。
不少开发者惊叹“优质模型的成本正在以惊人的速度下降,智能的发展速度快得真正无法衡量”。同时还有大量开发者点赞以MiMo为代表的中国模型性能强大、速度快,“中国AI模型比美国AI泡沫模型便宜90%到95%,不仅价格低廉、速度快,并且对于大多数现实世界用例来说足够实用,AI泡沫未来可能被成本曲线崩塌所扼杀。”
在全球知名API调用平台OpenRouter上,Xiaomi MiMo-V2.5系列大模型调用量在迅速攀升,截至5月30日,MiMo-V2.5跻身日榜第三、周榜第十,MiMo-V2.5-Pro跻身日榜第七、周榜第八。
此次技术博客的发布,也是小米MiMo对近期外界质疑的一次正面回应,不仅将一整套模型推理系统全链路优化所节省的成本通过API降价回馈给用户,同时已将这次优化的技术细节以 PR 形式回馈 SGLang 开源社区,希望尽早让工程优化不再成为门槛,使这类兼具强度与效率的复合架构得到更广泛的探索与应用。
除了降价和开源,MiMo对开发者生态的投入还在持续加码。4月28日推出的“百万亿Token创造者激励计划”已圆满收官:总申请人数超过54万人,覆盖科研学术、制造工业等行业,累计发放100万亿免费Token,折合人民币超6500万元。
同期启动的“Agent生态共建计划”面向Agent框架团队提供Token扶持,首批13家合作伙伴名单已公布,小米为这些框架和合作方提供了限免Token支持。“开源的价值不止于权重公开,更在于生态共建。”小米MiMo团队表示。
编辑 罗亦丹
校对 付春愔
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.