网易首页 > 网易号 > 正文 申请入驻

罗福莉划重点,小米大模型降价99%的秘籍公开

0
分享至


智东西
作者 程茜
编辑 李水青

智东西6月1日报道,5月30日,小米首次公开MiMo-V2.5系列API永久降价99%的技术秘籍,其博客提到,这也是业内首篇全面覆盖Hybrid SWA+MoE+多模态组合架构的大规模工程落地方案。

其降价的核心技术基础是,小米MiMo大模型团队围绕Hybrid SWA+MoE+多模态的复合架构,系统性重构从KV Cache管理、分级缓存、前缀缓存到调度策略与Prefill/Decode链路的完整推理栈,KV Cache存储压缩至同级方案的约1/7,在长序列场景下推理成本大幅下降。


5月30日,小米MiMo大模型负责人‌罗福莉在X发帖介绍了这篇技术论文,并提到,经实际生产流量验证,这些优化措施使有效KV Cache容量提升了近5倍,主流测试框架下的服务器端缓存命中率平均达到93%~95%,结合MoE配置调优和多模态推理优化,这些措施能够实现更高效的长上下文推理,也是近期小米MiMo API降价的部分原因。


小米发布题为《MiMo-V2.5系列推理全链路优化:将Hybrid SWA效率推向极致》的技术博客是对其上周MiMo-V2.5系列API永久降价、TokenPlan计费体系优化等一系列举措的最新回应。

5月27日,小米官宣MiMo-V2.5系列API永久降价,TokenPlan计费体系优化后其用量提升至原来的5~8倍。小米MiMo几乎直接对标DeepSeek API价格。更新价格后,MiMo-V2.5输入缓存命中价格降至0.02元/百万tokens,未命中输入为1元/百万tokens,输出价格为2元/百万tokens;MiMo-V2.5-Pro则分别为0.025元、3元和6元。


▲DeepSeek与小米MiMo API价格对比表(智东西制表)

同日,罗福莉在社交平台X上就预告了技术报告即将发布,并提前划了重点。她提到输入(缓存命中)部分降幅高达99%,根本原因是其推理框架现在支持SWA的KVCache优化;输入(缓存未命中)和输出价格降低60%-80%是因为Hybrid SWA架构中SWA层占比为6/7,其计算量约为Full Attention的1/7。此外,在API大幅降价的同时,小米仍能基本实现收支平衡。

技术博客:https://mimo.xiaomi.com/zh/blog/mimo-v2-5-inference

一、MiMo-V2.5核心架构,计算量仅为全注意力机制1/7

小米在技术博客中提到,MiMo-V2.5系列模型的推理效率是多维度协同优化的结果。

其核心架构是Hybrid SWA+MoE+多模态架构,并系统性重构了KV Cache管理、分级缓存、前缀缓存树,优化调度策略及Prefill/Decode链路,最终将其理论效率优势真正兑现到生产环境。

小米研究人员选择Hybrid SWA+MoE+多模态架构的原因是,MiMo-V2.5设计之初的目标就是,训练出一个在长文推理场景下既足够强、又足够高效的模型。

传统全局注意力(Full Attention)架构无法兼顾,Hybrid SWA的核心思想是在局部窗口注意力(SWA)与全局注意力之间进行分层混合:绝大多数层仅计算局部窗口内的注意力,只有少量关键层保留全局视野。理论上,这种结构能够将Attention的计算复杂度压低到接近线性,同时依然维持对长程依赖关系的建模能力。

但想要充分发挥Hybrid SWA架构的推理效率优势还需要调度策略、Prefill/Decode执行链路、多模态、MoE架构的全链路优化。

先以MiMo-V2.5-Pro为例,具体看下Hybrid SWA架构的推理效率优势。

MiMo-V2.5-Pro模型共70层,其中10层为Full Attention、60层为SWA,SWA的滑动窗口大小是128。

与Full Attention相比,Hybrid SWA架构中SWA层占比为6/7,因此其计算量约为Full Attention的1/7。


此外,由于SWA层仅需保留滑动窗口内KV,无需存储全序列,因此KVCache占用同样下降至接近1/7。在长序列下,KV Cache的体积可能远超模型参数,因此KV Cache存储的减少几乎直接等价于长序列场景下decode成本的降低。

其技术博客提到,不同模型架构KV Cache存储、访存模式都存在差异,其故估算了多个国产模型的KV Cache大小,MiMo-V2.5-Pro和MiMo-V2.5在KV Cache上位列国产模型第二,仅次于DeepSeek-V4-Pro和Flash。


因为存在与序列长度无关的固定计算与访存开销,所以实际成本差异并不严格等价于KV Cache规模比例。但在长上下文场景下,整体趋势一致:短文性价比接近,序列越长推理成本优势越大。

二、罗福莉提前发帖划重点,即使API价格下调也能收支平衡

5月27日,小米官宣降价时,罗福莉就在社交平台X上发帖,为MiMo API的降价原因划了重点。

MiMo-V2.5降价幅度最大的是输入(缓存命中)部分,降幅高达99%,根本原因是其推理框架现在支持SWA的分层键值缓存优化。生产环境推理引擎测试表明,此优化可将缓存token容量提升5倍,相当于缓存成本降低80%。结合混合模型中多个全注意力模块之间的缓存读取重叠,实际成本进一步降低。

输入(缓存未命中)和输出价格降低60%-80%是因为SWA稀疏度比,70层MiMo-V2.5-Pro的预填充计算量大致相当于10层GQA模型。这使其最初的推理成本远低于行业平均水平,带来2~3倍定价利润。

她还提到,在API价格大幅下调的情况下,小米的生产推理引擎几乎满负荷运转,基本能够实现收支平衡。他们之前曾建议大模型公司不要“盲目降价”,因为极少有模型架构和推理优化方案能够保证API成本不亏损。如果未来出现更多能够节省计算资源和KV Cache的架构,以及能够进一步降低API成本的更完善推理基础设施,这将在行业内形成一个良性循环。

此外,经济实惠且高性能的模型API将推动真正、持续且大规模的推理需求。这种上游需求将带动整个AI基础设施链发展。


三、KV Cache系统重构:提升模型实际命中率

为了让SWA更加可用,研究人员围绕KV Cache进行了系统性重构,此前其选择的临时方案都无法让推理系统真正“理解”Hybrid SWA的存储特性。

Hybrid SWA带来的核心存储矛盾是,Full Attention层需要保留全序列KV(O(N)),而SWA层仅需维护滑动窗口内KV(O(W))。在传统单一KV pool设计下,系统必须按O(N)为所有层统一分配显存,使SWA的窗口稀疏性无法被利用,实际存储效率退化为Full KV Cache的近似实现。

在此基础上,其采用了双池分治、前缀缓存树重构、GCache三级缓存综合优化。

分池优化是将KV Cache拆分为Full Attention与SWA两个独立池,并在系统层进行统一抽象,这使得SWA KV Cache在系统层面实现严格O(W)存储约束,使整体KV Cache容量效率提升约7倍,主流推理框架也都采用了类似的实现方案。

SWA-aware前缀缓存树优化包括匹配规则升级为“窗口安全长度”、淘汰路径与请求生命周期绑定、节点同时承载两套索引。

SWA把KV体积压到1/7是容量层面的收益,命中率是复用层面的收益,两者乘起来是prefill阶段实际计算成本的曲线。引入“窗口安全长度”匹配规则后,同样token容量的KV Cache命中率理论上是小幅度下降的,但同样存储容量下的token数量达到数倍,实际命中率大幅度提升。


GCache是小米存储团队开发的高性能通用缓存,它是构建存储“训推一体”体系重要的一环,同时支持GPU显存、CPU内存和NVMe SSD的高性能分布式缓存系统。存储成本方面,GCache优先采用在GPU机器上混布的方式,接管了Prefill和Decode节点的部分内存,和机器自带的数块NVMe SSD,额外的存储成本为0。


得益于这些优化,小米研究人员观测到,在优质harness框架下,服务端KV Cache命中率平均可达93%;对于高强度、长周期使用的个人用户,该指标可达95%乃至更高。

四、调度优化:L2缓存命中率提升25%,单机输入吞吐提升30%

在调度优化方面,小米希望通过匹配调度和计算链路,让省出来的显存空间和算力余量真正发挥作用。

在此基础上,小米开发了可动态扩展的无状态调度器LLM-Router,通过使用Redis作为中心化存储,避免单服务故障后的KV Cache调度回退现象,稳定保证缓存命中率。

首先是KV Cache与负载亲和调度,由于HiCache对于L2的命中率非常敏感,如果L2没有命中,就需要去L3查找并拉取KV Cache,等待拉取结束后才能对该请求进行推理。Router中通过将分发过的请求维护在Radix前缀树中,实现了KV Cache亲和调度。在多个Prefill实例间优先选择已经缓存当前请求前缀的节点,并同时兼顾负载均衡来避免热点倾斜。

该策略上线后,将L2的缓存命中率提升了约25%,单机输入吞吐提升了约30%。同时其引入计算量感知优先调度,优先处理真实计算token数更少的请求,辅以等待时间惩罚机制避免饥饿,TTFT P90降低30%。


其次是关于Prefill链路本身的计算效率,早期SWA KV Cache需保存所有token的KV Cache,导致EP被迫偏大;优化后仅需保存SWA部分token,研究人员将EP缩减至原先的1/2,端到端性能提升约40%。

为缓解负载不均衡问题,研究人员还采用三级长度分桶策略(0–64K/64K–256K/256K–1M),将负载特征相近的请求聚合至同一桶内做计算,提升了线上prefill的平均吞吐。


MiMo-V2.5系列模型均采用MoE架构,还需要考虑prefill阶段的专家负载均衡问题。由于该模型在预训练阶段引入了负载均衡的训练目标、且训练较为稳定,模型在训练时已学习到较为均匀的专家分配策略。

推理阶段,在未启用任何专家负载均衡策略的条件下,各层平均专家负载度(一层中所有rank的平均token数与该层rank最大token数之比)约为0.85,处于较优分布水平。


五、Decode优化:显存+MTP双管齐下,KVCache有效容量提升近5倍

Decode阶段的核心瓶颈是显存被KV Cache占满导致batch size无法扩展,GPU算力打不满。因此其进行了显存优化和MTP优化。

显存优化包括Decode KV Cache完整支持SWA,使得KV Cache有效容量提升近5倍;PD分离中KV Cache预分配优化,将尚未启动的请求的prealloc过程从GPU显存迁移至CPU内存,decode实际启动时才搬入显存,消除资源预占造成的浪费;CUDA Graph显存调优,能优化CUDA Graph参数减少空间浪费,使可用显存提升。

MiMo-V2.5系列模型原生支持3层MTP加速decode输出,其还在prefill阶段引入MTP支持并对HiCache L2/L3进行专项适配和优化,这使得decode前期MTP加速效果提升:第0–128 token加速比达2.3倍,第128–256 token加速比达1.5倍,降低了智能体场景下的真实decode成本。

六、多模态推理优化:Encoder吞吐提升至2倍

最后是多模态推理优化。MiMo-V2.5系列支持视觉、音频、视频跨模态理解。

基于SGLang社区v0.5.7 EPD方案,小米研究人员围绕MiMo-V2.5做了大量EPD分离方面的工程优化与稳定性修复,在延时保持不变的情况下,将Encoder吞吐提升至2倍。


具体的优化包括Encoder支持跨请求组Batch,多个请求的image/audio融合为一次Forward再按请求切分返回;图片预处理迁移至GPU消除大图场景下CPU瓶颈;视频解码切分为多chunk多线程并行处理,1小时视频端到端延时从156秒降至23秒;通过一致性哈希和机内共享内存实现Embedding缓存共享,整体Encoder吞吐提升至2倍。

结语:全链路技术优化或驱动大模型API降价潮

小米MiMo-V2.5系列API最高降幅99%,核心依托Hybrid SWA+MoE复合架构与全链路推理栈优化,首次实现了系统性的推理链路优化。此次,DeepSeek先将V4-Pro永久降价75%,小米五天后跟进MiMo-V2.5最高降99%,直接全面对齐。

这一轮价格战或倒逼全行业重构定价体系,API服务转向普惠算力基础设施,为AI大规模产业化扫清成本障碍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年着急卖房的人,多半三个月后要拍大腿!看懂高层定调再决定

2026年着急卖房的人,多半三个月后要拍大腿!看懂高层定调再决定

芳姐侃社会
2026-04-29 18:59:13
巴黎点杀阿森纳卫冕欧冠,世俱杯参赛版图初现

巴黎点杀阿森纳卫冕欧冠,世俱杯参赛版图初现

星河漫山野
2026-06-02 01:37:57
时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

快科技
2026-05-31 22:28:11
父亲是张艺谋又如何?张末连嫁两任老外遭家暴,差点走上肖华老路

父亲是张艺谋又如何?张末连嫁两任老外遭家暴,差点走上肖华老路

悦君兮君不知
2026-05-31 05:02:27
“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

妍妍教育日记
2026-05-29 07:55:13
普速列车能否全面禁烟?新探健康发展研究中心、中国控烟协会等16家组织发布倡议书

普速列车能否全面禁烟?新探健康发展研究中心、中国控烟协会等16家组织发布倡议书

红星新闻
2026-06-01 17:13:56
皮蓬儿子心碎自白:妈妈的恋情害我被取笑

皮蓬儿子心碎自白:妈妈的恋情害我被取笑

自愈小日子
2026-06-02 00:18:50
摘牌!温州喜来登退出

摘牌!温州喜来登退出

温百君
2026-06-01 19:00:30
释永信被判24年,为啥不是无期?盘点他的钱色人生

释永信被判24年,为啥不是无期?盘点他的钱色人生

大江看潮
2026-05-30 10:48:52
伊朗战略欺骗:美伊谈判竟是幌子,黎巴嫩真主党正在被以色列血洗

伊朗战略欺骗:美伊谈判竟是幌子,黎巴嫩真主党正在被以色列血洗

民间胡扯老哥
2026-05-31 19:06:59
小米粥再次被关注!提醒:糖尿病患者喝小米粥时,务必重视这6点

小米粥再次被关注!提醒:糖尿病患者喝小米粥时,务必重视这6点

芹姐说生活
2026-05-25 22:56:54
彭昱畅恋上经纪人曾幸!相守7年官宣4年,堪称娱乐圈职场恋天花板

彭昱畅恋上经纪人曾幸!相守7年官宣4年,堪称娱乐圈职场恋天花板

星娱叨叨社
2026-05-30 14:21:46
时长超三小时的6部史诗级电影,全程无尿点,看完直接封神

时长超三小时的6部史诗级电影,全程无尿点,看完直接封神

小微看电影
2026-04-21 14:15:03
1943年,泰国趁中国抗战之际集结三万大军入侵云南,遭远征军痛击

1943年,泰国趁中国抗战之际集结三万大军入侵云南,遭远征军痛击

饭小妹说历史
2026-03-16 09:46:06
拒绝胡歌与霍建华示爱,最后只用15天就嫁给别人,她真的幸福吗?

拒绝胡歌与霍建华示爱,最后只用15天就嫁给别人,她真的幸福吗?

傲傲讲历史
2026-05-30 04:04:22
徐志胜被狗仔拍到携恋爱五年的圈外女友与父母在北京聚餐亲密互动

徐志胜被狗仔拍到携恋爱五年的圈外女友与父母在北京聚餐亲密互动

枫尘余往逝
2026-06-01 14:43:59
在岸人民币兑美元收盘报6.7650

在岸人民币兑美元收盘报6.7650

每日经济新闻
2026-06-01 16:40:10
乌推无人机军功积分换装备引争议,俄研发反制无人机新武器

乌推无人机军功积分换装备引争议,俄研发反制无人机新武器

红星新闻
2026-06-01 18:58:13
2.72万亿现金,不买一股!巴菲特指标飙到200%,你还在追高?

2.72万亿现金,不买一股!巴菲特指标飙到200%,你还在追高?

次元君情感
2026-06-01 03:20:56
中年女人动情后,才会有下面的反应,别不信

中年女人动情后,才会有下面的反应,别不信

莲子说情感
2026-05-08 10:39:16
2026-06-02 02:28:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11946文章数 117089关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

特朗普:是时候查金库了

头条要闻

特朗普:是时候查金库了

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

家居
教育
亲子
艺术
游戏

家居要闻

自信舒展 高背座椅

教育要闻

高考志愿填报时间公布!部分考点公布!

亲子要闻

向太坦言给孙女买衣服从不超100块:真的豪门从不靠名牌养娃

艺术要闻

吴镇写竹,清清爽爽

又一款经典RPG神作启动重制!不止高清 期待拉满

无障碍浏览 进入关怀版