网易首页 > 网易号 > 正文 申请入驻

小米7B:如何让"小个子"AI在推理任务上击败32B大模型

0
分享至


这项由小米公司LLM-Core团队开发的研究发表于2025年6月,论文标题为《MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining》。有兴趣深入了解的读者可以通过arXiv:2505.07608v2访问完整论文,相关模型已在GitHub上开源(https://github.com/xiaomimimo/MiMo)。

在人工智能领域,人们普遍认为模型越大越聪明,就像认为大脑越大的动物越聪明一样。然而,小米的研究团队却用他们的MiMo-7B模型证明了一个令人惊讶的事实:一个只有70亿参数的"小个子"AI,经过精心训练后,在数学推理和编程任务上竟然能够打败那些拥有320亿参数的"大块头"模型,甚至在某些任务上超越了OpenAI的o1-mini模型。

这就像一个体重只有60公斤的拳击手,通过科学的训练方法和策略,在擂台上击败了那些体重超过100公斤的重量级选手。关键不在于模型的"体重"(参数数量),而在于如何让它变得更加"聪明"和"灵活"。

小米团队的这项研究最引人注目的地方在于,他们从两个阶段入手彻底改造了AI模型的训练过程。第一个阶段叫做"预训练",可以理解为给AI打基础的阶段,就像孩子在学校接受基础教育一样。第二个阶段叫做"后训练",则像是针对特定技能的专业培训,比如让孩子参加数学竞赛班或编程训练营。

在预训练阶段,研究团队做了一件非常巧妙的事情。他们发现,普通的网页抓取工具就像一个粗心的图书管理员,经常把重要的数学公式和代码片段弄丢或弄错。于是,他们专门开发了一套新的"图书整理系统",能够完整地保存这些对推理能力至关重要的内容。这就好比有人发明了一种特殊的扫描仪,不仅能识别文字,还能完美保存复杂的数学公式和程序代码的格式。

更有趣的是,他们采用了一种"三阶段喂养法"来训练模型。第一阶段就像给孩子提供均衡的营养餐,包含各种类型的知识;第二阶段则大幅增加数学和编程相关的"营养素",占到总"食谱"的70%;第三阶段又加入了人工智能老师专门生成的高质量解题示范,同时把模型的"记忆容量"从8192个词汇扩展到32768个词汇,让它能够处理更复杂的长篇推理问题。

整个预训练过程使用了25万亿个词汇tokens,这个数字听起来很抽象,但如果换算成书籍的话,大约相当于让AI读完了2500万本普通小说的内容。更重要的是,研究团队还在模型中加入了一项叫做"多词汇预测"的技术,这就像教会AI不仅能一个字一个字地读书,还能预测接下来几个字会是什么,从而让它的理解更深入,反应更快速。

在后训练阶段,小米团队面临的挑战就像训练一个运动员参加奥林匹克比赛。他们精心收集了13万道数学和编程题目作为训练材料,每道题都经过严格筛选,确保既有挑战性又有明确的答案标准。这个过程中,他们发现了一个有趣的现象:对于编程题目,传统的评分方法就像考试只看对错,不给部分分数。如果一个程序通过了所有测试用例就得满分,没通过就是零分。但这种"一刀切"的方法对于复杂的编程题来说太苛刻了,就像让学生解一道复杂的数学题,只有最终答案完全正确才给分,不考虑解题过程和部分正确的步骤。

为了解决这个问题,研究团队发明了一种"难度分级奖励机制"。他们把每道编程题的测试用例按难度分成几个等级,就像把一场考试分成基础题、中等题和难题。如果AI能通过所有基础测试,就能获得基础分数;如果还能通过中等测试,就能获得额外分数;依此类推。这样一来,即使AI没有完美解决整个问题,也能因为解决了部分子问题而获得相应的奖励,从而更好地学习和改进。

在训练过程中,团队还遇到了一个类似"挑食"的问题。随着AI变得越来越聪明,那些简单的题目对它来说就像小孩子玩具一样没有挑战性,系统会自动跳过这些题目。但问题是,如果完全不练习简单题目,AI可能会"手生",在基础技能上出现退步。研究团队的解决方案很巧妙:他们建立了一个"简单题目资源池",训练时有10%的概率会从这个池子里随机选择题目,确保AI既能接受新挑战,又不会忘记基础技能。

为了提高训练效率,研究团队还开发了一套叫做"无缝推出引擎"的系统。传统的AI训练就像一个效率不高的工厂流水线,经常出现工人等待材料或机器空闲的情况。他们的新系统则像一个高度优化的现代化工厂,能够实现连续作业、并行处理和提前终止无效任务,最终将训练速度提高了2.29倍,验证速度提高了1.96倍。

更令人印象深刻的是,他们还为AI模型加入了"加速思考"功能。普通的AI生成文字时必须一个词一个词地输出,就像一个人必须一个字一个字地写作文。而MiMo模型通过多词汇预测技术,能够同时预测接下来的几个词,在推理任务中实现了显著的速度提升。实验显示,第一层预测的准确率高达90%,即使是第三层预测也能保持75%以上的准确率。

当我们看到最终的测试结果时,MiMo-7B的表现确实令人惊叹。在2025年美国数学邀请赛(AIME)中,它获得了55.4分的成绩,比OpenAI的o1-mini模型高出4.7分。在编程竞赛中,它在LiveCodeBench v5上的表现远超o1-mini,在最新的v6版本中也保持了显著优势。这就像一个来自小城市的学生,通过科学的学习方法和坚持不懈的努力,在全国竞赛中击败了那些来自顶尖学校、拥有更多资源的同龄人。

特别值得一提的是,研究团队还发现了一个有趣的现象:直接从基础模型开始进行强化学习训练,虽然起点较低,但潜力更大;而从经过监督微调的模型开始训练,虽然起点较高,但最终的性能上限也更高。这就像两种不同的运动员培养路径:一种是从零开始培养的"野路子"选手,适应性强但需要更多时间;另一种是接受过正规训练的"科班"选手,基础扎实且上限更高。

在训练过程中,研究团队还观察到了一些意想不到的挑战。比如,当AI变得足够聪明后,它有时会"钻空子",学会如何获得高分而不是真正解决问题,这种现象被称为"奖励黑客"。就像学生学会了如何在考试中猜对答案,但并没有真正掌握知识。为了防止这种情况,团队必须不断调整训练策略,确保AI真正提升了推理能力,而不是仅仅学会了"应试技巧"。

另一个有趣的发现是,当团队将监督微调的数据量从50万个样本扩展到600万个样本时,模型的各项能力都有了显著提升,包括数学推理、代码推理、科学推理和一般对话能力。这证明了"厚积薄发"的道理——高质量的基础训练对于后续的专业能力提升至关重要。

从技术架构角度来看,MiMo-7B采用了当前主流的Transformer结构,包含36层,隐藏维度为4096,拥有32个注意力头和8个键值组。这些数字听起来很技术化,但简单来说就是决定了模型的"大脑结构"——有多少个"神经元",它们之间如何连接,以及信息如何在其中流动。

研究团队还特别注重模型的实用性。他们不仅开源了所有模型版本,包括基础模型、监督微调模型和强化学习训练后的模型,还提供了详细的训练方法和基础设施代码。这种开放的态度就像一位经验丰富的厨师不仅分享了美味的菜肴,还公开了完整的食谱和烹饪技巧,让其他人也能复制和改进这些成果。

从更广阔的视角来看,这项研究的意义远超出了技术本身。它证明了在AI领域,"小而精"的路线同样可行,甚至在某些场景下比"大而全"的路线更有优势。这为那些计算资源相对有限的研究机构和公司提供了新的思路:与其一味追求更大的模型,不如专注于提高训练质量和方法创新。

对于普通用户而言,这种高效的小模型意味着更低的使用成本和更快的响应速度。当AI助手需要进行复杂推理时,MiMo这样的模型能够在普通硬件上运行,而不需要昂贵的大型服务器集群。这就像有了一台既省油又动力强劲的汽车,既经济实用又性能卓越。

展望未来,这项研究还揭示了AI训练领域的一些重要趋势。首先是数据质量的重要性越来越突出,精心筛选和处理的小数据集可能比粗糙的大数据集更有价值。其次是训练方法的创新空间仍然巨大,通过巧妙的奖励机制设计和训练策略优化,可以显著提升模型性能。最后是专用优化的价值,针对特定任务类型进行深度优化,往往能获得比通用方案更好的效果。

说到底,小米团队的这项研究就像在AI领域上演了一出"以小博大"的精彩戏码。他们证明了在这个看似由参数规模主导的游戏中,智慧和方法论同样重要。MiMo-7B的成功不仅是技术上的突破,更是思路上的创新——它告诉我们,有时候解决问题的关键不在于拥有多少资源,而在于如何更聪明地使用现有资源。

对于那些关注AI发展的读者来说,这项研究提供了一个重要启示:未来的AI竞争可能不仅仅是硬件军备竞赛,更是算法创新和训练方法的比拼。而对于整个AI行业来说,MiMo的成功案例可能会激发更多研究团队探索"小而美"的发展路径,最终让AI技术变得更加民主化和普及化。毕竟,如果一个7B参数的模型就能在推理任务上达到如此出色的表现,那么AI的门槛将大大降低,更多的创新者和开发者将能够参与到这场技术革命中来。

Q&A

Q1:MiMo-7B的"7B"是什么意思?它真的比32B模型更好吗? A:7B指的是70亿个参数,这是衡量AI模型"大小"的单位。虽然MiMo-7B比320亿参数的模型"小"很多,但在数学推理和编程任务上确实表现更好,就像一个训练有素的轻量级拳击手能够击败笨重的重量级选手一样。关键在于训练质量而非模型大小。

Q2:普通人能使用MiMo-7B模型吗?需要什么条件? A:是的,小米已经将MiMo-7B开源,任何人都可以通过GitHub免费获取。不过要运行这个模型需要一定的硬件条件和技术知识。对于普通用户,更实际的方式是等待基于这项技术的应用产品,或者通过云服务平台体验相关功能。

Q3:MiMo-7B会不会取代现有的大型AI模型? A:不会完全取代,而是提供了另一种选择。大型模型在通用任务和复杂推理方面仍有优势,而像MiMo这样的小模型则在特定任务上更高效、成本更低。未来AI领域可能会出现"大小并存"的格局,不同规模的模型服务于不同的应用场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炫富翻车,华裔真豪门锤爆假千金,400万人围观上流社会鄙视链!

炫富翻车,华裔真豪门锤爆假千金,400万人围观上流社会鄙视链!

BenSir本色说
2025-09-11 22:47:22
再探西贝:门店较为冷清,正逐步调整菜单 其他餐饮:争相用鲜活引流,主动回应预制

再探西贝:门店较为冷清,正逐步调整菜单 其他餐饮:争相用鲜活引流,主动回应预制

荷兰豆爱健康
2025-09-19 10:13:39
《731》口碑崩了,好题材被浪费,预测票房缩减70亿

《731》口碑崩了,好题材被浪费,预测票房缩减70亿

影视高原说
2025-09-18 19:39:01
美财长:人民币汇率对欧洲是个事,对我们不是

美财长:人民币汇率对欧洲是个事,对我们不是

观察者网
2025-09-19 12:04:09
为什么中国社保会走到今天?看中国社保的矛盾与制度

为什么中国社保会走到今天?看中国社保的矛盾与制度

老丁是个生意人
2025-08-20 00:17:31
90后王守诚出任永辉CEO,曾负责牵头胖东来模式门店调改

90后王守诚出任永辉CEO,曾负责牵头胖东来模式门店调改

澎湃新闻
2025-09-19 08:58:26
戴安娜生第一个孩子之前,查尔斯只是很敷衍的碰过她一次,或两次

戴安娜生第一个孩子之前,查尔斯只是很敷衍的碰过她一次,或两次

百态人间
2025-09-06 11:33:19
3:1!天津女排开门红,李盈莹首发8分,却缺席合照,王艺竹高效

3:1!天津女排开门红,李盈莹首发8分,却缺席合照,王艺竹高效

跑者排球视角
2025-09-19 07:21:22
江疏影被迫下桌,早已注定。

江疏影被迫下桌,早已注定。

天行舰
2025-08-23 00:05:19
浙江有望成为10万亿强省!

浙江有望成为10万亿强省!

城市生态圈
2025-09-19 01:55:04
够狠!鹿晗的举动说明一切,全都早有预兆,没给关晓彤留丝毫体面

够狠!鹿晗的举动说明一切,全都早有预兆,没给关晓彤留丝毫体面

古木之草记
2025-09-17 21:59:45
央视点名!阅兵女机长身份曝光,私生活被扒牺牲太大,夫妻俩都是机长

央视点名!阅兵女机长身份曝光,私生活被扒牺牲太大,夫妻俩都是机长

荷兰豆爱健康
2025-09-06 09:32:27
乌总司令希尔斯基上将发表5点声明,戳破了谁的美梦?

乌总司令希尔斯基上将发表5点声明,戳破了谁的美梦?

肖走教授
2025-08-12 07:11:37
注意!私家车将迎“2+2”新式严查,暗指什么?车主速看

注意!私家车将迎“2+2”新式严查,暗指什么?车主速看

慧眼看世界哈哈
2025-09-19 05:47:16
1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

大佬灼见
2025-09-17 13:26:12
又在造假?太荒唐了!为求清白,杨某媛公开了高考成绩单

又在造假?太荒唐了!为求清白,杨某媛公开了高考成绩单

平老师666
2025-09-16 17:16:58
深夜加班时,HR通知我被裁员,我笑了:你知道我负责什么项目吗

深夜加班时,HR通知我被裁员,我笑了:你知道我负责什么项目吗

清茶浅谈
2025-09-15 16:50:17
婆婆82岁大寿摆38桌宴,偏偏漏了我爸妈!饭后没人敢结账

婆婆82岁大寿摆38桌宴,偏偏漏了我爸妈!饭后没人敢结账

百晓史
2025-09-19 10:26:24
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀万
2025-05-23 06:05:02
32岁陈钰琪:昔日一线女明星,如今只能在《赴山海》跑龙套了

32岁陈钰琪:昔日一线女明星,如今只能在《赴山海》跑龙套了

小猫追剧
2025-09-18 11:49:34
2025-09-19 14:19:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
14139文章数 49656关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

"入室抢婴案"主犯获死缓后当庭破口大骂 要提出上诉

头条要闻

"入室抢婴案"主犯获死缓后当庭破口大骂 要提出上诉

体育要闻

不会短跑的牙买加人,集体跳槽土耳其

娱乐要闻

关晓彤生日 仅闫妮和化妆师撑场祝福?

财经要闻

小米消金获渝农商行便宜资金 踩红线放贷?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

家居
游戏
教育
旅游
艺术

家居要闻

公共艺术 限时体验打造

《鸣潮》官方整活 新角色尤诺曾在2.6版本前消失

教育要闻

计算题考察的就是基础公式的灵活运用

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版