网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

小米发了个 310B：性能不一定最强，但路线很现实

2025-12-18 07:49:14　来源: 平凡AI

海外举报

0

分享至

今天我有一个考试，考试前的半个小时刷twitter，看到了小米发布的模型，但是没顾得上仔细看，晚上再看的时候。

觉得这貌似是前DeepSeek的核心参与者Fuli Luo，到新公司小米之后正式发布的第一条twitter，所以从含金量上来说肯定是拉满了。

当然事实上也的确是，从小米的huggingface上可以看到，MiMo-V2-Flash是一个单独的系列，相比起其他系列，这个系列最大的特点就是大，足足有310B，而其他的都只有8B。

很明显的，8B的模型唯一的优势就是速度快，但是要谈到能用的程序，还远远不够。

而310B这个量级，基本上可以说是够用了。

为什么说是够用呢，因为小米这种公司本身就不是搞AI的，所以把AI刷到世界第一既不可能，也没有太大的必要。

最重要的是够用和好用，最好是能跟小米的整个硬件生态关联上。

有些人可能会提到这不就是刷Benchmark吗？这话怎么说的。没有新出的大模型不刷Benchmark的，因为如果没有在benchmark上达到sota，那就根本没有发布的意义。

其实刷benchmark也是有策略的，大多数情况就是小米这样，拿通用的benchmark跑一遍，跑到大多数达到sota即可。

而有些公司，比如OpenAI，他们是发现普通的benchmark都被刷烂了，再刷也很难体现他们的断崖式领先了，所以他们会有动力搞新的benchmark，这就是所谓的规则制定者。

所以，刷榜正常也非常的必要。

至于真实的使用性能，我觉得对于小米的模型来说，能够实现deepseek级别的理解能力，其余的都应该放到efficient上。

而实际上小米的整个模型也是这么干的。

01

小米模型的技术策略

第一，架构设计

5层Sliding Window Attenion（SWA）+1层Global Attention（GA），然后重复8次，可以大多数的层都很省，只有1/9的层在做大批量运算。

但SWA的窗口很小，所以出现attention sink，看起来MiMO专门在这个地方打了补丁。

第二，Lightweight Multi-Token Prediction（MTP）：轻量多 token 预测

传统的大模型一个token一个token的吐，慢和贵，一次性吐好几个肯定快，但是稳定性就很难说了。

它这里提到的Speculative Decoding（投机解码），就是用一个小模型先“草拟一串 token”，大模型再验证/修正。

看起来MiMO模型原生的集成了这个模块，让大模型自己在一步里“预测多个未来 token”，而不是传统的另外训练一个“草稿模型”。

基本上就是用hybrid attention（SWA +GA） + MTP这俩工具把“长上下文 + 推理速度”这两大痛点压下去（省显存、省算力、输出更快），打造出了这一款最新的国产大模型。

速度肯定是快，因为很多巧思都用在了速度和效率上。

但是天下没有免费的午餐。

性能肯定不会拔尖，但是我觉得对于小米来说关系不大，快和能用比较重要。

02

小米模型的性能优化

在性能上，看起来小米干了三件事：

Multi-Teacher On-Policy Distillation (MOPD)

第一个很有意思，最近看了一个帖子，说是的2025年最流行的Policy Optimization algorithms，看起来小米自己也做了一个MOPD，不过好不好用现在还很难说，过几个月看有多少人用就知道了。

PPO (Proximal Policy Optimization)

GRPO (Group Relative)

GSPO (Group Sequence)

DAPO (Decoupled Clip and Dynamic sAmpling)

BAPO (BAlanced)

ARPO (Agentic Reinforced)

Scaling Agentic RL

第二个，Scaling Agentic RL

我觉得这应该是小米的强项，因为它的小米生态里面有太多的任务可以拿来测试了，甚至这应该是小米未来最强的点。

就跟Nano Banana之于Google一样，人家的强项就是数据，OpenAI的图像生成你再怎么搞也不可能老大。

而小米的优势就是硬件生态，甚至说能搞出豆包AI手机一样的东西也不是不可能。

Advanced RL Infrastructure

第三个，Advanced RL Infrastructure

讲的是大规模训练时候的细节问题，本质上就是“你论文里写一句话，工程上要填一万个坑”的那种东西：MoE 的路由一致性、rollout 和训练对齐、前缀缓存、多轮工具调用的资源调度、长尾任务拖慢 GPU 利用率，都是这种体系一旦做大就绕不开的脏活累活。

这部分一般不太容易刷出一个“新算法名字”，但反而最能体现一个团队到底有没有真把系统跑起来。

所以我对 MiMo-V2-Flash 的整体判断很简单：它不是那种要拿第一名的模型，而是那种“为了能落地、能跑得快、能接得上产品”而做出来的模型。

如果小米接下来能把它真正放进自己的硬件生态里，让它变成一个稳定可用的能力层（而不是停留在论文和榜单里），那它的意义会比单纯刷几个分大得多。

至于它最后能走多远，其实就看两件事：

第一，有多少开发者愿意用它、围绕它做应用。

第二，小米能不能把“模型”变成“系统能力”，从手机到家电到车机，真正连成一条链。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

南部空军：从今以后绝不允许有人对我大声说话

环球时报 2026-01-22 01:30:54
36521 跟贴 36521
刚刚 | 德云社严正声明！

天津广播 2026-01-21 20:23:38
6436 跟贴 6436

取消临停，银川一小区千余车位被“包销”，车主回家拥堵6小时；住建部门介入

大风新闻 2026-01-21 16:11:07
8773 跟贴 8773

为支付安置项目工程款，13户村民“被贷款”；当地回应：情况较复杂，正设法解决

大风新闻 2026-01-21 20:46:04
2744 跟贴 2744
中方重申：日本根本没有资格要求“入常”

海外网 2026-01-22 07:06:04
12619 跟贴 12619

下周一开通！广州站⇋清远站，30分钟直达！

鲁中晨报 2026-01-22 10:11:03
23 跟贴 23

有中国公民被“上海浦西分局的警官”骗了！中领馆紧急提醒：上海并无浦西区

上观新闻 2026-01-22 11:27:18
250 跟贴 250
深圳官方明确：中小学期末不统考！

南方都市报 2026-01-21 19:21:23
887 跟贴 887

新成立的应急管理大学，首任书记、校长亮相

新京报 2026-01-22 11:34:11
0 跟贴 0
“黑白颠周媛”线下课程最高收费8万8，浮夸的“性商课”到底取悦了谁？

极目新闻 2026-01-22 11:34:49
21 跟贴 21
高架桥上帮助近20辆车脱困，武汉“拖车侠”詹时美：以后大家有需要我还会这么做

极目新闻 2026-01-21 22:21:50
547 跟贴 547
索尼宣布将剥离电视机业务，与中国TCL成立合资公司，TCL持股51%

鲁中晨报 2026-01-20 21:47:04
3873 跟贴 3873
网友呼吁为贺娇龙立塑像，新疆日报发文回应

新京报 2026-01-21 15:24:22
1814 跟贴 1814
“投资铜条”火爆销售！有金属加工厂称“通宵加工，一晚出货几吨”，专家直言娱乐意义更大

每日经济新闻 2026-01-22 00:21:05
14 跟贴 14
预亏21亿元永辉超市“胖改”成本账

红星新闻 2026-01-22 07:35:21
357 跟贴 357
特变电工：黄金年产量约2.5-3吨

财联社 2026-01-21 15:47:08
656 跟贴 656
又一北欧养老基金抛售美国国债！

财联社 2026-01-22 10:22:07
27 跟贴 27
臂力惊人的妈妈提着玩累的孩子，孩子像被抠掉电池的玩具。网友：一家都是强者。（来源：南海融媒）

学申论的谈妹 2026-01-21 17:10:13
222 跟贴 222
柬埔寨提高获取公民身份投资门槛：从30万美元涨至100万美元

红星新闻 2026-01-22 13:15:18
1 跟贴 1
中国驻沙领馆：U23亚洲杯决赛中国护照免门票不实，票价最低28元

封面新闻 2026-01-22 07:37:03
13 跟贴 13
《愤怒的小鸟》突然官宣回归！曾陪伴无数人度过快乐时光，网友：我的青春回来了！

环球网资讯 2026-01-21 20:57:16
325 跟贴 325
今年高考全国统考将于6月7日、8日举行

央视新闻客户端 2026-01-22 10:01:56
514 跟贴 514
互联网，绝不能成为对立的宣泄场

澎湃新闻 2026-01-22 11:40:05
20 跟贴 20
北极寒流冲击北半球美国天然气两天暴涨60%

第一财经资讯 2026-01-22 07:24:09
385 跟贴 385
北京朝阳区卫健委已介入嫣然天使儿童医院欠租纠纷，房东代理律师：考虑向法院申请将网友捐款偿还房租

新民晚报 2026-01-22 14:38:49
0 跟贴 0

福建省委书记项南建厦门机场遇阻，怒：这么多年，我们还怕金门吗

福建省委书记项南建厦门机场遇阻，怒：这么多年，我们还怕金门吗

兴趣知识

2026-01-21 03:32:38

1.98m的布朗为全明星美国队首发最高，和世界队首发最矮的SGA一样高

1.98m的布朗为全明星美国队首发最高，和世界队首发最矮的SGA一样高

懂球帝

2026-01-21 21:26:17

果断拒美邀约？郑丽文藏得很深，佩服国台办迟迟未发出的邀请函

果断拒美邀约？郑丽文藏得很深，佩服国台办迟迟未发出的邀请函

兰妮搞笑分享

2026-01-22 13:36:53

斯琴高娃庆祝76岁大寿！脸色惨白一头大波浪，抹大红唇险些认不出

斯琴高娃庆祝76岁大寿！脸色惨白一头大波浪，抹大红唇险些认不出

娱说瑜悦

2026-01-22 14:15:45

Here we go！罗马诺：沙尔克就签下39岁前锋哲科达成协议

Here we go！罗马诺：沙尔克就签下39岁前锋哲科达成协议

懂球帝

2026-01-21 23:56:46

短短11天 2乌克兰女将发声抵制萨巴伦卡:我的家毁了她是危险分子

短短11天 2乌克兰女将发声抵制萨巴伦卡:我的家毁了她是危险分子

风过乡

2026-01-22 10:11:42

不查不知道一查吓一跳，坐拥北京60亩马场的于谦，私下到底有多壕

不查不知道一查吓一跳，坐拥北京60亩马场的于谦，私下到底有多壕

小熊侃史

2026-01-20 07:40:05

罗永浩所持锤子科技713万元股权被冻结

罗永浩所持锤子科技713万元股权被冻结

每日经济新闻

2026-01-22 10:11:11

我国为什么要取消2元的人民币？原因很简单，看完您就知道了

我国为什么要取消2元的人民币？原因很简单，看完您就知道了

通文知史

2026-01-20 17:20:03

留学圈近几日传出个新词儿叫“带球回国”，这是什么意思

留学圈近几日传出个新词儿叫“带球回国”，这是什么意思

西楼知趣杂谈

2026-01-21 15:01:44

某涉密单位办公室搬迁，两台打印机被拉到废品回收站，文印室管理员工、实习生等被严肃处理

某涉密单位办公室搬迁，两台打印机被拉到废品回收站，文印室管理员工、实习生等被严肃处理

都市快报橙柿互动

2026-01-21 07:55:22

火箭队看上鹈鹕老六！曾与阿门激烈抱摔 3大特质完美契合乌度卡

火箭队看上鹈鹕老六！曾与阿门激烈抱摔 3大特质完美契合乌度卡

锅子篮球

2026-01-22 13:41:27

特朗普达沃斯演讲当众“点名”加州州长纽森，镜头捕捉到后者表情……

特朗普达沃斯演讲当众“点名”加州州长纽森，镜头捕捉到后者表情……

环球网资讯

2026-01-22 12:05:26

46岁张柏芝这是怎么了!满脸享受不断尖叫,表情销魂,让人血脉偾张

46岁张柏芝这是怎么了!满脸享受不断尖叫,表情销魂,让人血脉偾张

八星人

2026-01-22 09:35:15

董路：U23国足一定能赢日本最次也是点球怼董方卓：传控足球没赢

董路：U23国足一定能赢日本最次也是点球怼董方卓：传控足球没赢

林子说事

2026-01-22 13:18:52

陈皮加它一煮，沾床就睡着！疏肝解郁安神，这法子让我一觉到天亮

陈皮加它一煮，沾床就睡着！疏肝解郁安神，这法子让我一觉到天亮

江江食研社

2025-12-26 07:30:06

取消临停，银川一小区千余车位被“包销”，车主回家拥堵6小时；住建部门介入

取消临停，银川一小区千余车位被“包销”，车主回家拥堵6小时；住建部门介入

大风新闻

2026-01-21 16:11:07

谭秦东之后，老罗会害怕吗？

芳华青年

2026-01-21 21:33:02

中国网球名将退役！曾4夺大满贯冠军，最高排名双打世界第一

中国网球名将退役！曾4夺大满贯冠军，最高排名双打世界第一

全景体育V

2026-01-21 14:45:38

10国签字，加入特朗普版联合国，特意给中俄留的位置，现在还空着

10国签字，加入特朗普版联合国，特意给中俄留的位置，现在还空着

井普椿的独白

2026-01-22 13:48:22

高校AI从业者

65文章数 24关注度

往期回顾全部

科技要闻

几千亿只是开胃菜，AI基建还得再砸几万亿

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费发票只开9千元

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费发票只开9千元

体育要闻

珍妮回应爆料：湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市旅行车的春天可能真要来了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

健康

数码

时尚

公开课

本地新闻

云游中国｜格尔木的四季朋友圈，张张值得你点赞

打工人年终总结！健康通关=赢麻了

数码要闻

大疆Osmo Pocket 4云台相机库存清单曝光，预估2026Q1发布

50+女性穿衣没头绪？教你3个显瘦还时髦的思路，照搬就好看

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版