今天我有一个考试,考试前的半个小时刷twitter,看到了小米发布的模型,但是没顾得上仔细看,晚上再看的时候。
觉得这貌似是前DeepSeek的核心参与者Fuli Luo,到新公司小米之后正式发布的第一条twitter,所以从含金量上来说肯定是拉满了。
![]()
当然事实上也的确是,从小米的huggingface上可以看到,MiMo-V2-Flash是一个单独的系列,相比起其他系列,这个系列最大的特点就是大,足足有310B,而其他的都只有8B。
![]()
很明显的,8B的模型唯一的优势就是速度快,但是要谈到能用的程序,还远远不够。
而310B这个量级,基本上可以说是够用了。
为什么说是够用呢,因为小米这种公司本身就不是搞AI的,所以把AI刷到世界第一既不可能,也没有太大的必要。
最重要的是够用和好用,最好是能跟小米的整个硬件生态关联上。
有些人可能会提到这不就是刷Benchmark吗?这话怎么说的。没有新出的大模型不刷Benchmark的,因为如果没有在benchmark上达到sota,那就根本没有发布的意义。
![]()
其实刷benchmark也是有策略的,大多数情况就是小米这样,拿通用的benchmark跑一遍,跑到大多数达到sota即可。
而有些公司,比如OpenAI,他们是发现普通的benchmark都被刷烂了,再刷也很难体现他们的断崖式领先了,所以他们会有动力搞新的benchmark,这就是所谓的规则制定者。
所以,刷榜正常也非常的必要。
至于真实的使用性能,我觉得对于小米的模型来说,能够实现deepseek级别的理解能力,其余的都应该放到efficient上。
而实际上小米的整个模型也是这么干的。
01
小米模型的技术策略
第一,架构设计
5层Sliding Window Attenion(SWA)+1层Global Attention(GA),然后重复8次,可以大多数的层都很省,只有1/9的层在做大批量运算。
![]()
![]()
但SWA的窗口很小,所以出现attention sink,看起来MiMO专门在这个地方打了补丁。
第二,Lightweight Multi-Token Prediction(MTP):轻量多 token 预测
传统的大模型一个token一个token的吐,慢和贵,一次性吐好几个肯定快,但是稳定性就很难说了。
它这里提到的Speculative Decoding(投机解码),就是用一个小模型先“草拟一串 token”,大模型再验证/修正。
看起来MiMO模型原生的集成了这个模块,让大模型自己在一步里“预测多个未来 token”,而不是传统的另外训练一个“草稿模型”。
基本上就是用hybrid attention(SWA +GA) + MTP这俩工具把“长上下文 + 推理速度”这两大痛点压下去(省显存、省算力、输出更快),打造出了这一款最新的国产大模型。
速度肯定是快,因为很多巧思都用在了速度和效率上。
但是天下没有免费的午餐。
性能肯定不会拔尖,但是我觉得对于小米来说关系不大,快和能用比较重要。
02
小米模型的性能优化
在性能上,看起来小米干了三件事:
Multi-Teacher On-Policy Distillation (MOPD)
第一个很有意思,最近看了一个帖子,说是的2025年最流行的Policy Optimization algorithms,看起来小米自己也做了一个MOPD,不过好不好用现在还很难说,过几个月看有多少人用就知道了。
PPO (Proximal Policy Optimization)
GRPO (Group Relative)
GSPO (Group Sequence)
DAPO (Decoupled Clip and Dynamic sAmpling)
BAPO (BAlanced)
ARPO (Agentic Reinforced)
Scaling Agentic RL
第二个,Scaling Agentic RL
我觉得这应该是小米的强项,因为它的小米生态里面有太多的任务可以拿来测试了,甚至这应该是小米未来最强的点。
就跟Nano Banana之于Google一样,人家的强项就是数据,OpenAI的图像生成你再怎么搞也不可能老大。
而小米的优势就是硬件生态,甚至说能搞出豆包AI手机一样的东西也不是不可能。
Advanced RL Infrastructure
第三个,Advanced RL Infrastructure
讲的是大规模训练时候的细节问题,本质上就是“你论文里写一句话,工程上要填一万个坑”的那种东西:MoE 的路由一致性、rollout 和训练对齐、前缀缓存、多轮工具调用的资源调度、长尾任务拖慢 GPU 利用率,都是这种体系一旦做大就绕不开的脏活累活。
这部分一般不太容易刷出一个“新算法名字”,但反而最能体现一个团队到底有没有真把系统跑起来。
所以我对 MiMo-V2-Flash 的整体判断很简单:它不是那种要拿第一名的模型,而是那种“为了能落地、能跑得快、能接得上产品”而做出来的模型。
如果小米接下来能把它真正放进自己的硬件生态里,让它变成一个稳定可用的能力层(而不是停留在论文和榜单里),那它的意义会比单纯刷几个分大得多。
至于它最后能走多远,其实就看两件事:
第一,有多少开发者愿意用它、围绕它做应用。
第二,小米能不能把“模型”变成“系统能力”,从手机到家电到车机,真正连成一条链。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.