网易首页 > 网易号 > 正文 申请入驻

小米发了个 310B:性能不一定最强,但路线很现实

0
分享至

今天我有一个考试,考试前的半个小时刷twitter,看到了小米发布的模型,但是没顾得上仔细看,晚上再看的时候。

觉得这貌似是前DeepSeek的核心参与者Fuli Luo,到新公司小米之后正式发布的第一条twitter,所以从含金量上来说肯定是拉满了。


当然事实上也的确是,从小米的huggingface上可以看到,MiMo-V2-Flash是一个单独的系列,相比起其他系列,这个系列最大的特点就是大,足足有310B,而其他的都只有8B。


很明显的,8B的模型唯一的优势就是速度快,但是要谈到能用的程序,还远远不够。

而310B这个量级,基本上可以说是够用了。

为什么说是够用呢,因为小米这种公司本身就不是搞AI的,所以把AI刷到世界第一既不可能,也没有太大的必要。

最重要的是够用和好用,最好是能跟小米的整个硬件生态关联上。

有些人可能会提到这不就是刷Benchmark吗?这话怎么说的。没有新出的大模型不刷Benchmark的,因为如果没有在benchmark上达到sota,那就根本没有发布的意义。


其实刷benchmark也是有策略的,大多数情况就是小米这样,拿通用的benchmark跑一遍,跑到大多数达到sota即可。

而有些公司,比如OpenAI,他们是发现普通的benchmark都被刷烂了,再刷也很难体现他们的断崖式领先了,所以他们会有动力搞新的benchmark,这就是所谓的规则制定者。

所以,刷榜正常也非常的必要。

至于真实的使用性能,我觉得对于小米的模型来说,能够实现deepseek级别的理解能力,其余的都应该放到efficient上。

而实际上小米的整个模型也是这么干的。

01

小米模型的技术策略

第一,架构设计

5层Sliding Window Attenion(SWA)+1层Global Attention(GA),然后重复8次,可以大多数的层都很省,只有1/9的层在做大批量运算。



但SWA的窗口很小,所以出现attention sink,看起来MiMO专门在这个地方打了补丁。

第二,Lightweight Multi-Token Prediction(MTP):轻量多 token 预测

传统的大模型一个token一个token的吐,慢和贵,一次性吐好几个肯定快,但是稳定性就很难说了。

它这里提到的Speculative Decoding(投机解码),就是用一个小模型先“草拟一串 token”,大模型再验证/修正。

看起来MiMO模型原生的集成了这个模块,让大模型自己在一步里“预测多个未来 token”,而不是传统的另外训练一个“草稿模型”。

基本上就是用hybrid attention(SWA +GA) + MTP这俩工具把“长上下文 + 推理速度”这两大痛点压下去(省显存、省算力、输出更快),打造出了这一款最新的国产大模型。

速度肯定是快,因为很多巧思都用在了速度和效率上。

但是天下没有免费的午餐。

性能肯定不会拔尖,但是我觉得对于小米来说关系不大,快和能用比较重要。

02

小米模型的性能优化

在性能上,看起来小米干了三件事:

Multi-Teacher On-Policy Distillation (MOPD)

第一个很有意思,最近看了一个帖子,说是的2025年最流行的Policy Optimization algorithms,看起来小米自己也做了一个MOPD,不过好不好用现在还很难说,过几个月看有多少人用就知道了。

PPO (Proximal Policy Optimization)

GRPO (Group Relative)

GSPO (Group Sequence)

DAPO (Decoupled Clip and Dynamic sAmpling)

BAPO (BAlanced)

ARPO (Agentic Reinforced)

Scaling Agentic RL

第二个,Scaling Agentic RL

我觉得这应该是小米的强项,因为它的小米生态里面有太多的任务可以拿来测试了,甚至这应该是小米未来最强的点。

就跟Nano Banana之于Google一样,人家的强项就是数据,OpenAI的图像生成你再怎么搞也不可能老大。

而小米的优势就是硬件生态,甚至说能搞出豆包AI手机一样的东西也不是不可能。

Advanced RL Infrastructure

第三个,Advanced RL Infrastructure

讲的是大规模训练时候的细节问题,本质上就是“你论文里写一句话,工程上要填一万个坑”的那种东西:MoE 的路由一致性、rollout 和训练对齐、前缀缓存、多轮工具调用的资源调度、长尾任务拖慢 GPU 利用率,都是这种体系一旦做大就绕不开的脏活累活。

这部分一般不太容易刷出一个“新算法名字”,但反而最能体现一个团队到底有没有真把系统跑起来。

所以我对 MiMo-V2-Flash 的整体判断很简单:它不是那种要拿第一名的模型,而是那种“为了能落地、能跑得快、能接得上产品”而做出来的模型。

如果小米接下来能把它真正放进自己的硬件生态里,让它变成一个稳定可用的能力层(而不是停留在论文和榜单里),那它的意义会比单纯刷几个分大得多。

至于它最后能走多远,其实就看两件事:

第一,有多少开发者愿意用它、围绕它做应用。

第二,小米能不能把“模型”变成“系统能力”,从手机到家电到车机,真正连成一条链。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
福建省委书记项南建厦门机场遇阻,怒:这么多年,我们还怕金门吗

福建省委书记项南建厦门机场遇阻,怒:这么多年,我们还怕金门吗

兴趣知识
2026-01-21 03:32:38
1.98m的布朗为全明星美国队首发最高,和世界队首发最矮的SGA一样高

1.98m的布朗为全明星美国队首发最高,和世界队首发最矮的SGA一样高

懂球帝
2026-01-21 21:26:17
果断拒美邀约?郑丽文藏得很深,佩服国台办迟迟未发出的邀请函

果断拒美邀约?郑丽文藏得很深,佩服国台办迟迟未发出的邀请函

兰妮搞笑分享
2026-01-22 13:36:53
斯琴高娃庆祝76岁大寿!脸色惨白一头大波浪,抹大红唇险些认不出

斯琴高娃庆祝76岁大寿!脸色惨白一头大波浪,抹大红唇险些认不出

娱说瑜悦
2026-01-22 14:15:45
Here we go!罗马诺:沙尔克就签下39岁前锋哲科达成协议

Here we go!罗马诺:沙尔克就签下39岁前锋哲科达成协议

懂球帝
2026-01-21 23:56:46
短短11天 2乌克兰女将发声抵制萨巴伦卡:我的家毁了 她是危险分子

短短11天 2乌克兰女将发声抵制萨巴伦卡:我的家毁了 她是危险分子

风过乡
2026-01-22 10:11:42
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
罗永浩所持锤子科技713万元股权被冻结

罗永浩所持锤子科技713万元股权被冻结

每日经济新闻
2026-01-22 10:11:11
我国为什么要取消2元的人民币?原因很简单,看完您就知道了

我国为什么要取消2元的人民币?原因很简单,看完您就知道了

通文知史
2026-01-20 17:20:03
留学圈近几日传出个新词儿叫“带球回国”,这是什么意思

留学圈近几日传出个新词儿叫“带球回国”,这是什么意思

西楼知趣杂谈
2026-01-21 15:01:44
某涉密单位办公室搬迁,两台打印机被拉到废品回收站,文印室管理员工、实习生等被严肃处理

某涉密单位办公室搬迁,两台打印机被拉到废品回收站,文印室管理员工、实习生等被严肃处理

都市快报橙柿互动
2026-01-21 07:55:22
火箭队看上鹈鹕老六!曾与阿门激烈抱摔 3大特质完美契合乌度卡

火箭队看上鹈鹕老六!曾与阿门激烈抱摔 3大特质完美契合乌度卡

锅子篮球
2026-01-22 13:41:27
特朗普达沃斯演讲当众“点名”加州州长纽森,镜头捕捉到后者表情……

特朗普达沃斯演讲当众“点名”加州州长纽森,镜头捕捉到后者表情……

环球网资讯
2026-01-22 12:05:26
46岁张柏芝这是怎么了!满脸享受不断尖叫,表情销魂,让人血脉偾张

46岁张柏芝这是怎么了!满脸享受不断尖叫,表情销魂,让人血脉偾张

八星人
2026-01-22 09:35:15
董路:U23国足一定能赢日本 最次也是点球 怼董方卓:传控足球没赢

董路:U23国足一定能赢日本 最次也是点球 怼董方卓:传控足球没赢

林子说事
2026-01-22 13:18:52
陈皮加它一煮,沾床就睡着!疏肝解郁安神,这法子让我一觉到天亮

陈皮加它一煮,沾床就睡着!疏肝解郁安神,这法子让我一觉到天亮

江江食研社
2025-12-26 07:30:06
取消临停,银川一小区千余车位被“包销”,车主回家拥堵6小时;住建部门介入

取消临停,银川一小区千余车位被“包销”,车主回家拥堵6小时;住建部门介入

大风新闻
2026-01-21 16:11:07
谭秦东之后,老罗会害怕吗?

谭秦东之后,老罗会害怕吗?

芳华青年
2026-01-21 21:33:02
中国网球名将退役!曾4夺大满贯冠军,最高排名双打世界第一

中国网球名将退役!曾4夺大满贯冠军,最高排名双打世界第一

全景体育V
2026-01-21 14:45:38
10国签字,加入特朗普版联合国,特意给中俄留的位置,现在还空着

10国签字,加入特朗普版联合国,特意给中俄留的位置,现在还空着

井普椿的独白
2026-01-22 13:48:22
2026-01-22 14:52:49
平凡AI incentive-icons
平凡AI
高校AI从业者
65文章数 24关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

本地
健康
数码
时尚
公开课

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

打工人年终总结!健康通关=赢麻了

数码要闻

大疆Osmo Pocket 4云台相机库存清单曝光,预估2026Q1发布

50+女性穿衣没头绪?教你3个显瘦还时髦的思路,照搬就好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版