网易首页 > 网易号 > 正文 申请入驻

小米突发新模型,主打“极致性价比”,罗福莉:“这只是我们AGI图线路上的第二步”

0
分享至

11个小时前,小米深夜“突袭式”发布并开源了其最新的专家混合架构(MoE)大语言模型MiMo-V2-Flash。该模型总参数量达3090亿,活跃参数为150亿,采用对开发者友好的MIT开源协议,基础版权重也已经在Hugging Face上发布。


小米MiMo团队负责人罗福莉(Fuli Luo)在社交平台上明确表示:“MiMo-V2-Flash已经上线。这只是我们AGI路线图上的第二步。”这一表态凸显了小米在AI领域的长远规划和技术雄心。


从市场影响来看,MiMo-V2-Flash的入局可能搅动现有开源AI模型的竞争格局。其官方公布的每百万输入token 0.1美元、输出token 0.3美元的极低成本,结合高达150 tokens/秒的推理速度,为开发者和企业提供了极具吸引力的选择,或将加速高性能AI技术在更广泛场景的应用和普及,尤其是对其庞大的“手机 x AIoT”生态系统形成强大赋能。


性能媲美DeepSeek-V3.2,并且“极具性价比”

MiMo-V2-Flash在多个权威基准测试中展现了强大的实力,其性能表现足以和部分顶尖的开源及闭源模型同台竞技。

根据小米官方公布的数据,在衡量编程能力的SWE-bench Verified测试中,MiMo-V2-Flash取得了73.4%的得分,超越了所有已知的开源模型,并接近顶级闭源模型的水平。

在AIME 2025数学竞赛和GPQA-Diamond科学知识测试等考验推理能力的项目中,该模型也位列开源模型前两名。摩根士丹利的研报图表亦显示,MiMo-V2-Flash在综合性能上与DeepSeek-V3.2等主流大模型相比具有竞争力。



在愈发重要的智能体(Agent)任务上,MiMo-V2-Flash同样表现出色。数据显示,其在τ²-Bench分类得分中,通信、零售、航空等多个类别均获得高分,证明其具备理解复杂任务逻辑和执行多轮交互的能力。

小米方面表态现实,该模型的高性能与150 tokens/秒的推理速度,加上极低的运营成本,使其成为现有最高性价比的高性能模型之一。目前,该模型已在API平台限时免费开放,并以MIT开源协议在Hugging Face上发布了基础版权重。


“极致性价比”背后的技术创新:解锁效率与长文本能力

MiMo-V2-Flash之所以能在保持高性能的同时实现低成本和高效率,得益于其在模型架构和训练方法上的多项关键技术创新。

首先,是“混合滑动窗口注意力机制”(Hybrid Sliding Window Attention)。小米采用了一种5:1的混合比例,即每5层滑动窗口注意力(SWA)搭配1层全局注意力,将KV缓存(一种用于存储中间结果的内存)的存储量减少了近6倍,同时依然支持高达256k的超长上下文窗口。

罗福莉(Fuli Luo)在其X帖子中分享了工程细节:“我们最终选择了混合SWA。它简单、优雅,并且在我们的内部基准测试中,其长上下文推理能力优于其他线性注意力变体。”她特别指出一个反直觉的发现,即128个token的窗口大小是“最佳选择”,盲目扩大到512反而会导致性能下降,并强调“sink values是不可或缺的”。


其次,是轻量级多Token预测(Lightweight Multi-Token Prediction, MTP)。该技术使模型能一次并行预测多个token,而非传统的逐字生成,从而将推理速度提升2至2.6倍。

罗福莉透露:“通过3层MTP,我们观察到平均接受token数超过3个,编码任务速度提升约2.5倍。”她补充说,这项技术有效解决了GPU的空闲时间问题,尽管因项目周期紧张此次未能完全整合进强化学习(RL)循环,但小米已将3层MTP开源,供开发者使用。

今年11月,曾效力DeepSeek的罗福莉在X上高调宣布正式加入小米,出任MiMo团队负责人。小米MiMo是小米推进大模型研发的核心招牌,随着罗福莉的官宣,小米MiMo也被一并明确,剑指最前沿——空间智能。


训练“黑科技”:1/50算力实现性能对齐

在训练阶段,小米采用了业界领先的技术以最大化效率。模型在预训练阶段使用了FP8混合精度技术,在27万亿token的数据上完成训练。

更具突破性的是在后训练阶段引入的多教师在线策略蒸馏(Multi-teacher Online Policy Distillation, MOPD)框架。据小米介绍,该方法借鉴了Thinking Machine的On-Policy Distillation思路,让学生模型在训练时能从多个专家教师模型处获得密集的奖励信号。其最显著的优势在于效率,仅需传统SFT(监督微调)与强化学习相结合方法的1/50算力,就能让学生模型达到教师模型的性能峰值。


罗福莉指出,这一框架为构建一个“自我强化循环系统”奠定了基础,即今天的学生模型在进化后可以成为明天更强的教师模型,从而实现模型的持续、高效迭代。

小米的AI版图:从手机到AGI

MiMo-V2-Flash的发布,并非一次孤立的技术展示,而是小米AI战略的重要组成部分。正如罗福莉所言,这只是其AGI路线图的“第二步”,暗示了后续将有更深入的布局。

此举清晰地表明了小米正全力将AI打造为其核心竞争力之一。据摩根士丹利发布的研报观点称,此举“展示了小米对AI研发的承诺”,并预计该公司未来将在云端AI和边缘AI两方面取得更多实质性进展。而强大的自研AI底层能力,将为其手机、IoT设备乃至新能源汽车等硬件产品带来独特的智能化体验,构筑更深的生态护城河。

摩根士丹利认为,MiMo-V2-Flash的推出,不仅可能重塑开源AI模型市场格局,更揭示了小米意图通过自研AI技术深度赋能其“人车家”全生态的战略野心。

十四年前,小米手机以1999元的价格重新定义了旗舰智能手机市场。如今,小米似乎希望通过MiMo-V2-Flash,以其卓越的性能和颠覆性的成本,为开源AI领域带来一个新的“小米时刻”。


体验模型可戳:https://aistudio.xiaomimimo.com/#/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名连锁店宣布退市!巅峰时突破2万家门店,广州街头随处可见

知名连锁店宣布退市!巅峰时突破2万家门店,广州街头随处可见

白浅娱乐聊
2026-03-26 09:26:54
FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

赛博兰博
2026-03-25 14:31:11
她是冯巩御用老婆,连登五年春晚后精神失常,现在53岁怎样了?

她是冯巩御用老婆,连登五年春晚后精神失常,现在53岁怎样了?

王鶔吃吃喝喝
2026-03-26 18:31:49
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

来科点谱
2026-02-18 07:08:08
陈云带烈士遗孤就餐,毛主席撞见后预测:这娃了不得,后官至总理

陈云带烈士遗孤就餐,毛主席撞见后预测:这娃了不得,后官至总理

浩渺青史
2026-03-26 13:45:31
美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

红星新闻
2026-03-26 15:46:22
巴法大战最大看点:安帅排四前锋如何锁死姆巴佩?

巴法大战最大看点:安帅排四前锋如何锁死姆巴佩?

体坛周报
2026-03-26 14:49:15
美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

每日经济新闻
2026-03-26 16:14:04
一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

洞读君
2026-03-16 10:36:55
不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:33:07
盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

吃瓜党二号头目
2026-03-26 14:55:08
59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

小椰的奶奶
2026-03-26 13:59:56
宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

三农雷哥
2026-03-25 17:58:07
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
NBA扩军天价劝退詹姆斯?你不买有的是人买! | 体育赛事

NBA扩军天价劝退詹姆斯?你不买有的是人买! | 体育赛事

体坛经济观察
2026-03-25 17:24:50
邵佳一:国足无友谊赛,结果最重要

邵佳一:国足无友谊赛,结果最重要

北青网-北京青年报
2026-03-26 17:59:02
广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

柏铭锐谈
2026-03-25 10:50:46
正式官宣:3月29日,第二代腾势D9即将预售!

正式官宣:3月29日,第二代腾势D9即将预售!

阿喵汽车
2026-03-26 10:28:39
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

路医生健康科普
2026-03-26 11:10:03
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
2026-03-26 19:19:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143563文章数 2653026关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
游戏
亲子
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版