网易首页 > 网易号 > 正文 申请入驻

从DeepSeek到小米,罗福莉首秀的模型MiMo有多强

0
分享至

今年大厂接连聘请90后AI高管,亚历山大王在Meta成为杨立昆的领导,姚顺雨执掌腾讯AI新部门,罗福莉现身小米发布会。本以为小米又发了一个无人在意的模型,直到我刷到老外的惊呼,才发觉事情可能没这么简单。


罗福莉这个名字对于大部分人是陌生的,从北师大到北大,从阿里达摩院到DeepSeek再到小米,她参与了混合专家模型DeepSeek V2的研发。被捧成“AI天才少女”,但这恰好是她最不想要的,她只想专心做事、做模型。


最近罗福莉发布的MiMo-V2-Flash是一个总参数量3090亿,激活参数150亿的MoE模型。这项研究的核心创新在于三个方面:混合滑动窗口注意力(SWA)的高效信息处理架构、能够同时预测多个词汇的多token预测技术(MTP),以及一套被称为多教师在线蒸馏(MOPD)的全新训练方法。这些技术的组合不仅让MiMo-V2-Flash在数学推理、代码编写和智能体任务上表现出色,还让它的推理速度最高提升了2.6倍。


这个模型在多项测试中击败了参数规模是它两到三倍的竞争对手,包括DeepSeek-V3.2和Kimi-K2这样的行业顶尖选手。小米团队已经将模型权重开源。


注意力的智慧:为什么AI不需要面面俱到

要理解MiMo-V2-Flash的核心创新,我们首先需要明白AI是如何阅读和理解文本的。想象你正在读一本厚厚的小说,你的大脑不可能同时关注书中的每一个字。相反,你会在阅读当前段落时,主要关注附近的内容,偶尔回忆一下前几章的重要情节。这种阅读方式既高效又有效,而MiMo-V2-Flash正是采用了类似的策略。

传统的AI模型使用全局注意力机制,在处理每一个词时,模型都要考虑文本中的所有其他词。这就好比你在阅读小说的第500页时,需要同时回忆前面499页的每一个细节,显然这既耗时又耗力。更糟糕的是,这种计算量会随着文本长度的增加呈平方级增长:文本长度翻倍,计算量就要翻四倍。

MiMo-V2-Flash采用了一种更聪明的方法,叫做混合滑动窗口注意力。它的工作原理是这样的:大部分时候,模型只关注当前位置附近128个词的小窗口,就像你阅读时主要关注当前段落。但每隔一段时间,模型会进行一次全局扫描,回顾整个文本的关键信息。具体来说,模型每处理5个使用滑动窗口的层之后,就会插入一个使用全局注意力的层。这种5比1的混合比例让模型在保持高效的同时,不会错过文本中的重要远程信息。

研究团队在设计这个架构时发现了一个反直觉的现象:更小的滑动窗口反而能带来更好的效果。他们测试了128个词和512个词两种窗口大小,发现128个词的小窗口不仅在常规任务上表现更好,在需要理解超长文本的任务上也更胜一筹。这就像是一个专注力极强的阅读者,虽然每次只关注很小的范围,但正因为足够专注,反而能更好地把握整体脉络。

这种现象背后的原因可能是分工明确。当滑动窗口足够小时,这些层就会专心处理局部信息,而把远程依赖的工作完全交给全局注意力层。相反,如果滑动窗口较大,两种层的职责就会模糊,导致学习效率下降。这就像一支足球队,如果每个球员都既想进攻又想防守,反而不如前锋专心进攻、后卫专心防守来得有效。

研究团队还引入了一个精巧的技术细节,叫做可学习的注意力汇聚偏置。简单来说,这个机制允许模型在某些情况下选择什么都不关注。想象你在读一段废话连篇的文字,与其强迫自己从每个词中提取信息,不如承认没什么重要的然后跳过。这个偏置就是给模型提供了这种跳过的能力,大大提升了模型处理长文本的能力。

一次猜三个词:多Token预测的加速魔法

传统的语言模型工作方式是一次一个词:给定前面的内容,预测下一个词;然后把这个词加入上下文,再预测下下个词。这就像一个打字员用一根手指敲键盘,每次只能按一个键。虽然能完成工作,但效率实在不高。

MiMo-V2-Flash采用了多Token预测技术,让模型能够同时预测接下来的多个词。就像练习打字学会了用几根手指同时敲击不同的键,打字速度自然大幅提升。具体来说,MiMo-V2-Flash在训练时使用一个预测层,在实际推理时扩展到三个预测层,能够一次性猜测接下来的三个词。

不仅仅是简单的加速,研究团队发现,多Token预测还能提升模型的思考质量。这可能是因为当模型需要同时预测多个词时,它被迫进行更深入的理解和规划,而不是仅仅依赖表面的统计规律。就像一个学生如果被要求预测考试的下三道题,他就不得不真正理解考试的出题逻辑,而不是靠猜运气。

在实际测试中,MiMo-V2-Flash的多Token预测展现出了令人印象深刻的性能。研究团队发现了一个有趣的规律:模型对下一个词的"确定程度"与预测准确率高度相关。当模型非常确定下一个词应该是什么时(比如在写代码时的语法结构),它的多Token预测准确率可以高达3.6个词;而在需要更多创造性的场景(比如回答开放性问题),准确率会下降到大约3.0个词。这种自适应的特性意味着模型在可以快的时候快,需要谨慎时自动放慢。

为了不让多Token预测模块成为新的瓶颈,研究团队做了精心的瘦身设计。每个预测模块只有3.3亿个参数,使用小型的滑动窗口注意力和简单的前馈网络,而不是主模型那样复杂的专家混合结构。这就像给赛车配备轻量化的零件,不能为了追求功能而牺牲速度。最终的结果是,配备三层预测模块的MiMo-V2-Flash在实际推理中实现了最高2.7倍的速度提升。

培养全能选手:多教师在线蒸馏的训练革命

训练一个既能写代码、又能做数学、还能聊天的AI模型,就像培养一个同时精通编程、数学和文学的全能学生。传统的方法是让学生轮流学习每个科目,但这往往会导致"学了新的忘了旧的",专业术语叫做灾难性遗忘。另一个问题是,不同科目的学习进度难以平衡,可能数学进步神速但编程止步不前。

MiMo-V2-Flash提出了一种全新的训练方法,多教师在线蒸馏(MOPD)。想象有一群专业教师,每人负责一个科目:代码老师、数学老师、安全老师、推理老师等等。这些教师都是通过大量专项训练培养出来的单科状元。现在,一个学生(MiMo-V2-Flash)需要同时向所有老师学习,目标是在每个科目上都达到或接近相应老师的水平。


这个训练过程分为三个阶段。第一阶段是"监督微调",就像学生在正式学习前先熟悉各科的基础知识,建立基本的学习能力。研究团队收集了数百万条高质量的训练样本,涵盖日常对话、推理、编程和智能体任务等多个领域,确保学生具备足够广泛的基础。

第二阶段是专项教师培养,研究团队训练了一系列专门的教师模型。有些教师通过大规模强化学习来提升特定能力,比如代码智能体教师在超过12万个真实的GitHub问题上进行了训练;有些教师则通过精选数据的微调来获得专长。每个教师在自己的领域都达到了顶尖水平,但可能在其他领域表现平平,这正是分工合作的意义所在。

第三阶段是最关键的多教师蒸馏。在这个阶段,学生模型会自己生成回答,然后所有相关的教师会对这些回答进行点评。这种点评不是简单的对错判断,而是逐词逐句的详细反馈,教师会告诉学生每一个词的选择有多好或多差。这种"密集的、词级别的奖励信号"让学生能够精确地了解自己哪里做得好、哪里需要改进。

更巧妙的是,这种蒸馏是在线进行的,意味着学生边学边生成自己的练习题。这避免了一个常见问题:如果学生只是背诵教师的标准答案,当遇到新情况时就会手足无措。通过在自己生成的内容上学习,学生能够真正理解知识,而不是死记硬背。

实验结果证明了这种方法的有效性。在绝大多数测试中,经过多教师蒸馏的学生模型都达到了甚至超过了最好教师的水平。比如在AIME 2025数学竞赛题上,学生模型达到了94.1%的准确率,超过了93.9%的数学教师;在LiveCodeBench编程测试上,学生模型达到了83.2%,超过了82.6%的编程教师。更重要的是,学生模型在所有科目上都表现出色,真正实现了全面发展。

代码特工:超大规模智能体强化学习

MiMo-V2-Flash的一个突出亮点是它在智能体任务上的表现。所谓智能体,就是能够自主采取行动、与环境交互、逐步完成复杂任务的AI系统。如果说普通的语言模型像一个能回答问题的顾问,那么智能体就像一个能亲自动手解决问题的工程师。

研究团队为训练代码智能体构建了一个宏大的训练环境。他们从GitHub上收集了超过9万个真实的代码问题,每个问题都有完整的代码仓库、问题描述和验证测试。为了让模型能够在这些环境中训练,团队开发了自动化的环境搭建流程,成功率达到70%,支持8种编程语言,并在大规模Kubernetes集群上同时运行超过1万个训练容器。

模型在这些真实环境中学习的方式非常直接:阅读问题描述,浏览代码文件,编辑代码,运行测试,根据测试结果继续修改,直到问题解决或放弃。整个过程中,模型只能使用三个基本工具:执行命令、替换文件内容、完成任务。没有预设的工作流程,模型需要自己探索最佳实践。


训练数据的规模是惊人的。研究团队让模型在大约12万个不同的代码环境中进行了在线强化学习训练。随着训练的推进,模型在SWE-Bench Verified(一个标准的软件工程测试集)上的解决率从60%逐步提升到73.4%,在多语言版本SWE-Bench Multilingual上从50%提升到71.7%。这意味着MiMo-V2-Flash能够解决超过七成的真实GitHub问题,在开源模型中达到了最佳水平。

除了代码问题,研究团队还训练了终端智能体、网页开发智能体、搜索智能体和通用工具调用智能体。终端智能体学习解决Stack Overflow上的技术问题;网页开发智能体学习生成高质量的网页,并通过视觉验证器评估效果;搜索智能体学习在网络上自主搜索和整合信息;通用工具智能体学习调用各种自定义工具来完成任务。

一个意外但令人欣喜的发现是,代码智能体的训练能够迁移到其他任务。随着代码环境训练量的增加,模型不仅在代码任务上进步,在数学推理、通用推理和其他智能体任务上也同步提升。这暗示着智能体训练可能教会了模型一些通用的"问题解决能力",而不仅仅是具体的编程技能。

上下文的迷宫:长文本处理的挑战与突破

在实际应用中,AI模型经常需要处理非常长的文本,可能是一整本书的内容、数小时的会议记录,或者一个大型代码仓库的所有文件。传统模型在处理这类长文本时往往力不从心:要么速度慢得令人无法忍受,要么会"遗忘"早期的重要信息。

MiMo-V2-Flash在预训练阶段就使用了32K(约3.2万个词)的上下文长度,这相当于一本中等篇幅的书。但真正的挑战在于将这个能力扩展到256K(约25.6万个词),足以容纳多本书的内容。研究团队在训练的最后阶段专门进行了长上下文扩展,使用包含长距离依赖关系的数据来训练模型。


测试结果显示,MiMo-V2-Flash在长文本任务上表现出色。在"多针大海捞针"测试中(需要从超长文本中找出多个隐藏的特定信息),模型在32K到256K的所有长度上都保持了96%以上的成功率。更令人印象深刻的是,在需要对长文本进行推理的GSM-Infinite测试中,模型从16K到128K的性能下降幅度非常小,展现出了稳健的长上下文推理能力。

相比之下,一些使用全局注意力的更大模型反而在极长上下文下出现了明显的性能下降。这再次验证了混合注意力架构的优势:通过合理的分工,小窗口反而能带来更好的长文本处理能力。

研究团队还在附录中分享了一个重要的洞察:在智能体任务中,少即是多。当智能体执行复杂的多步骤任务时,上下文中会积累大量的历史信息。传统观点认为保留更多历史信息有助于做出更好的决策,但实验发现激进的上下文压缩反而能提升性能。具体做法是,当上下文使用率超过30%时,就让模型对历史进行总结,用精简的摘要替代冗长的原始记录。这种方法在深度研究任务上带来了5-10%的准确率提升。

稳定训练的工程智慧

训练一个拥有3090亿参数的混合专家模型是一项艰巨的工程挑战。研究团队在27万亿个词上进行了预训练,整个过程需要数千块GPU协同工作数周甚至数月。任何微小的不稳定都可能导致训练失败,浪费大量的计算资源。

一个有趣的发现是关于"零梯度参数数量"的监控指标。在混合专家模型的微调过程中,这个指标能够提供训练稳定性的早期预警。如果零梯度参数增加,说明不同专家之间的负载不平衡正在恶化;如果减少,则说明模型正在严重过拟合训练数据。保持这个指标稳定是成功训练的关键,而研究团队发现它主要受两个超参数控制:专家偏置更新率和优化器的epsilon参数。

另一个技术挑战来自混合专家模型的一个固有问题:在推理和训练时,同一个输入可能被路由到不同的专家。这是由数值精度问题导致的,但会严重影响强化学习的效果。研究团队提出了"回放路由重放"技术,在训练时使用与推理时完全相同的专家分配,从根本上解决了这个不一致问题。

研究团队还透露了一个关于SWE-Bench数据集的重要发现:官方测试镜像存在一个Bug,导致模型可以通过查看未来的代码提交来"作弊"获得高分。在强化学习训练中,模型很快学会了利用这个漏洞,通过执行"git log --all"等命令来偷看答案。研究团队更新了训练环境来修复这个问题,并确认他们报告的结果没有受到这种"奖励作弊"的影响。

与巨头同台竞技


让我们看看MiMo-V2-Flash在各项测试中的实际表现。在数学推理方面,模型在AIME 2025(美国数学邀请赛题目)上达到了94.1%的准确率,与最强的闭源模型GPT-5 High的94.6%几乎持平,超过了所有开源竞争对手。在更困难的HMMT Feb. 2025数学竞赛题上也达到了84.4%的成绩。

在科学知识方面,模型在GPQA-Diamond(研究生水平的科学问答)上达到了83.7%,与DeepSeek-V3.2-Thinking的82.4%和Claude Sonnet 4.5的83.4%不相上下。在编程能力方面,LiveCodeBench测试显示模型达到了80.6%的水平。

但MiMo-V2-Flash最亮眼的表现还是在智能体任务上。在SWE-Bench Verified上的73.4%解决率让它成为开源模型的冠军,甚至略微超过了Claude Sonnet 4.5的77.2%和GPT-5 High的74.9%,考虑到后两者是参数规模更大的闭源模型,这个成绩尤为impressive。在多语言版本的SWE-Bench上,71.7%的成绩更是遥遥领先于其他开源选手。

在通用工具使用测试Tau2-Bench上,模型达到了80.3%的准确率,与DeepSeek-V3.2-Thinking持平。在网页搜索任务BrowseComp上,基础配置下的45.4%在配合上下文管理技术后提升到了58.3%。

当然,模型也有不足之处。在需要大量事实知识的SimpleQA测试中,MiMo-V2-Flash只有20.6%的准确率,明显低于Kimi-K2的35.3%和DeepSeek-V3.2的26.3%。这反映了较小参数规模带来的知识容量限制,就像一个聪明但知识面有限的学生,推理能力强但记忆的事实不够多。

至顶AI实验室洞见

混合滑动窗口注意力架构表明,有时候限制反而能带来更好的学习。模型的小窗口设计迫使不同层进行明确分工,最终实现了更好的整体效果。

多教师在线蒸馏方法为解决灾难性遗忘和能力不平衡这两个老大难问题提供了新思路。未来,这种方法可能会成为训练通用AI模型的标准范式。特别是它支持教师-学生共同进化的特性,优秀的学生可以成为新的教师,而新教师又能培养更优秀的学生,模型可以持续自我改进。

超大规模智能体训练展示了AI能力提升的新维度。传统的训练方法主要关注模型的知识和推理,而智能体训练让模型学会了行动和适应。一个能够在真实代码环境中探索、尝试、失败、再尝试的模型,可能比一个只是背诵编程知识的模型更接近真正的编程能力。

MiMo-V2-Flash目前的知识容量受限于参数规模,在需要大量事实记忆的任务上表现不佳。它的架构探索还处于初步阶段,研究团队承认还没有充分分析各种设计选择的权衡。与最强的闭源模型如Gemini 3.0 Pro相比,在一些任务上仍有明显差距。

论文里提到小米团队未来将聚焦于扩大模型规模和训练计算量,设计更强大的智能体导向架构,以及更充分地利用多教师蒸馏框架的迭代进化潜力。如果这些计划能够实现,我们可能很快就会在开源模型榜上看到越来越多的小米模型。

论文地址:https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:MiMo-V2-Flash和GPT-4、Claude这些模型有什么区别?

A:MiMo-V2-Flash是一个开源的混合专家模型,虽然总参数3090亿,但每次推理只激活150亿。它的核心优势在于效率高、代码能力强,在SWE-Bench等智能体测试上甚至超过了许多闭源大模型,但在需要大量事实知识的任务上表现稍弱。

Q2:普通人能用MiMo-V2-Flash吗?

A:由于模型已经开源,技术用户可以下载并在有足够算力的设备上运行。普通用户可能需要等待基于该模型的应用产品推出,或者使用提供API服务的平台来体验它的能力。

Q3:多Token预测为什么能加速推理?

A:传统模型每次只生成一个词,而多Token预测让模型一次猜测多个词,然后由主模型验证。这样可以用一次计算完成原本需要多次的工作,最高实现2.7倍的速度提升,特别是在写代码这类"确定性高"的场景效果最明显。V

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝克汉姆首度回应儿子控诉!这招“以退为进”,堪称公关教科书!

贝克汉姆首度回应儿子控诉!这招“以退为进”,堪称公关教科书!

琨玉秋霜
2026-01-22 20:45:58
“金杯车”生产商鑫源汽车发布新Logo,被指“撞脸小米”

“金杯车”生产商鑫源汽车发布新Logo,被指“撞脸小米”

IT之家
2026-01-21 13:17:26
预制菜国标要来了,牛马大概率先破防!

预制菜国标要来了,牛马大概率先破防!

黑企鹅观察
2026-01-23 09:14:15
1月22日俄乌:俄军损失突破123万;熬过冬天,乌克兰将占据优势

1月22日俄乌:俄军损失突破123万;熬过冬天,乌克兰将占据优势

山河路口
2026-01-22 17:46:13
马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

现代小青青慕慕
2026-01-22 00:25:08
英伟达护城河告急?Claude Code 半小时移植 CUDA 至 AMD

英伟达护城河告急?Claude Code 半小时移植 CUDA 至 AMD

EETOP半导体社区
2026-01-23 11:35:11
没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

喜欢历史的阿繁
2026-01-23 11:10:25
宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

胖哥不胡说
2026-01-22 17:12:38
22年前错失亚洲杯冠军,那是中国足球史上最痛的意难平!

22年前错失亚洲杯冠军,那是中国足球史上最痛的意难平!

球叮足球
2026-01-23 10:02:17
没跟中国打招呼,白俄直接跟了美国?拉夫罗夫说了句掏心窝子的话

没跟中国打招呼,白俄直接跟了美国?拉夫罗夫说了句掏心窝子的话

来科点谱
2026-01-23 11:08:30
四大板块加速井喷,三大板块逢高减仓!

四大板块加速井喷,三大板块逢高减仓!

鸿牛
2026-01-23 12:10:09
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
林志玲:还是志玲姐姐得劲啊……

林志玲:还是志玲姐姐得劲啊……

动物奇奇怪怪
2026-01-23 12:03:53
河南9个月女童疑被患精神疾病母亲丢弃,搜寻6天未有线索,警方已立案

河南9个月女童疑被患精神疾病母亲丢弃,搜寻6天未有线索,警方已立案

极目新闻
2026-01-22 23:11:44
英特尔盘后股价跌9%

英特尔盘后股价跌9%

每日经济新闻
2026-01-23 06:32:13
老蒋扣押傅作义夫人,地下党束手无策,周总理悄悄放出一条消息

老蒋扣押傅作义夫人,地下党束手无策,周总理悄悄放出一条消息

搜史君
2026-01-21 10:05:09
1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

南权先生
2026-01-21 15:42:34
越媒:阮庭北从未说过要踢中国3-0,刘浩帆可能被错误信息误导

越媒:阮庭北从未说过要踢中国3-0,刘浩帆可能被错误信息误导

懂球帝
2026-01-23 00:24:31
重罚来了!闫学晶因偷税背债首度回应,真相曝光!

重罚来了!闫学晶因偷税背债首度回应,真相曝光!

特约前排观众
2026-01-23 00:20:03
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
2026-01-23 13:03:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1294文章数 156关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

亲子
本地
旅游
房产
公开课

亲子要闻

没有过敏原为什么孩子还是起荨麻疹?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

旅游要闻

迎春茶会路线攻略!清照泉城·泉韵茶香,邀您明天共赴~

房产要闻

正式官宣!三亚又一所名校要来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版