网易首页 > 网易号 > 正文 申请入驻

小米开源模型5小时写编译器,token消耗砍半

0
分享至

什么任务能让AI连续跑11小时不出错?小米刚放出的MiMo-V2.5-Pro给出了答案:写编译器、搭视频编辑器、设计电路,全程自主完成,token消耗比Claude Opus 4.6少40%到60%。

从学生几周到AI四小时


北京大学有一门编译器课程,学生通常需要数周才能完成的项目,MiMo-V2.5-Pro用了4.3小时。

整个过程拆解成672次工具调用。小米展示的demo里,模型先搭出完整流水线框架,再逐层推进。第一次编译就通过137项测试,总分233项。后续重构阶段引入回归问题,模型自己诊断并修复。

这个成绩背后是一套明确的工程策略:不追求单次生成完美,而是分层验证、自我纠错。

第二个demo更耗时长:桌面视频编辑器,约8000行代码,模型自主运行11.5小时,调用工具1870次。第三个demo接入了Claude Code的电路模拟器,设计电压调节器,一小时内六项技术指标全部达标,其中四项比初稿提升约一个数量级。

1.02万亿参数,每次只激活42亿

MiMo-V2.5-Pro采用混合专家架构(Mixture-of-Experts,MoE),总参数量1.02万亿,单次请求激活42亿。这种设计让大模型在保持能力的同时控制计算成本。

上下文窗口分两个版本:主版本支持100万token,基础版本未经重新训练支持25.6万token。这个规格放在当前市场属于第一梯队。

长上下文能力的提升在OpenAI的GraphWalks基准测试中最明显。前代MiMo-V2-Pro在100万token处得分归零,MiMo-V2.5-Pro的广度优先搜索仍得0.37,父节点查询得0.62。

token效率是核心卖点

小米把MiMo-V2.5-Pro的竞争力押在"性能/token比"上。自家ClawEval智能体基准测试中,模型以每任务约7万token的消耗达到64%得分。相比之下,Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4达到相近分数需要多耗40%到60%的token。

代码基准的具体数字:SWE-bench Verified 78.9分,SWE-Bench Pro 57.2分,Terminal-Bench 2.0 68.4分。小米内部MiMo Coding Bench 73.7分,接近Claude Opus 4.6的77.1分,领先Gemini 3.1 Pro的67.8分。

通用智能体任务:GDPVal-AA 1581 Elo分,tau3-bench 72.9分。

开源权重,瞄准长时自主任务

MiMo团队明确表示,这个版本专为"运行数小时、产生数千次工具调用"的任务设计。这不是聊天机器人的迭代,而是面向工程自动化的基础设施。

开源权重的策略也很清晰:降低试用门槛,让开发者验证真实场景下的长时稳定性。编译器demo的233/233满分、视频编辑器的11.5小时无中断,都是可复现的测试用例。

对科技从业者来说,这组数据的意义在于验证了一条技术路径:MoE架构+分层验证机制+超长上下文,可以让大模型在特定工程任务上接近甚至匹敌闭源顶尖模型,同时显著降低调用成本。如果你的工作流涉及代码生成、硬件设计或复杂系统搭建,这个开源选项值得纳入评估清单。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
FIFA彻底急了!原来除了央视,还有这么多国家不给世界杯买单了!

FIFA彻底急了!原来除了央视,还有这么多国家不给世界杯买单了!

小娱乐悠悠
2026-05-05 10:36:39
国际足联失算了!世界杯版权价钱砍半认怂,央视硬刚:一分不多加

国际足联失算了!世界杯版权价钱砍半认怂,央视硬刚:一分不多加

阿纂看事
2026-05-04 21:22:03
45分钟破万,1小时大定8000台!智己LS8凭什么引爆车市?

45分钟破万,1小时大定8000台!智己LS8凭什么引爆车市?

极客看车
2026-04-17 16:08:32
伊朗下“二选一”通牒 美国骑虎难下 海峡主导权争夺趋于激烈

伊朗下“二选一”通牒 美国骑虎难下 海峡主导权争夺趋于激烈

极目新闻
2026-05-05 17:24:43
兰州饭馆挂钱学森袁隆平照片,被投诉,老板反手报警:崇拜,不摘

兰州饭馆挂钱学森袁隆平照片,被投诉,老板反手报警:崇拜,不摘

观察鉴娱
2026-05-05 10:24:44
2026年退休人员的苦日子,可能真的要来了!这4大征兆已经凸显

2026年退休人员的苦日子,可能真的要来了!这4大征兆已经凸显

猫叔东山再起
2026-05-05 11:30:09
恒大集团许家印被爆出猛料

恒大集团许家印被爆出猛料

地产微资讯
2026-05-04 20:53:18
温州一网红景区!排队!排队!

温州一网红景区!排队!排队!

大永强
2026-05-05 11:18:20
美国人的历史课本,是怎样写中国的?仅有20页,记载了6个中国人

美国人的历史课本,是怎样写中国的?仅有20页,记载了6个中国人

抽象派大师
2026-05-03 00:24:53
刚刚,加息25个基点

刚刚,加息25个基点

中国基金报
2026-05-05 13:40:57
不是文班 不是福克斯!马刺爆冷输球揪出水货 33岁老将今夏恐退役

不是文班 不是福克斯!马刺爆冷输球揪出水货 33岁老将今夏恐退役

篮球圈里的那些事
2026-05-05 17:15:20
多邻国股价盘前下跌13.4%

多邻国股价盘前下跌13.4%

每日经济新闻
2026-05-05 16:15:05
美空军加油机飞越波斯湾时发出紧急代码7700,请求立即降落

美空军加油机飞越波斯湾时发出紧急代码7700,请求立即降落

上观新闻
2026-05-05 16:24:05
王健林债务缠身,王思聪洛杉矶落魄排队,老子还能为他兜底吗?

王健林债务缠身,王思聪洛杉矶落魄排队,老子还能为他兜底吗?

历史伟人录
2026-05-03 22:32:08
39分大胜!尼克斯痛宰76人1-0,布伦森35分唐斯17+6+6

39分大胜!尼克斯痛宰76人1-0,布伦森35分唐斯17+6+6

湖人崛起
2026-05-05 10:47:15
浏阳爆炸已致26人死亡,工厂的“防爆距离”,为什么没起效?

浏阳爆炸已致26人死亡,工厂的“防爆距离”,为什么没起效?

社会酱
2026-05-05 15:44:11
赖清德搭机返台,航线轨迹暴露1个问题,4架台空军F16V将护航伴飞

赖清德搭机返台,航线轨迹暴露1个问题,4架台空军F16V将护航伴飞

知法而形
2026-05-05 11:22:49
砸2600亿!武汉存储扩产计划曝光:长江存储产能翻番 剑指全球第三

砸2600亿!武汉存储扩产计划曝光:长江存储产能翻番 剑指全球第三

三言四拍
2026-05-04 16:16:39
研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

黯泉
2026-05-03 20:25:37
高市早苗在澳大利亚这一跪,跪出了日本最丑陋的一面!

高市早苗在澳大利亚这一跪,跪出了日本最丑陋的一面!

朋笔生辉
2026-05-05 15:10:25
2026-05-05 18:31:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2122文章数 26关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

四川一企业盗采河水作饮用水售卖十年 当地回应

头条要闻

四川一企业盗采河水作饮用水售卖十年 当地回应

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

手机
艺术
房产
旅游
游戏

手机要闻

十年来第一次!苹果讨论涨价:iPhone 18涨幅或超600元

艺术要闻

有多少人知道,它曾是亚洲第一高楼?

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

旅游要闻

清晨挑战浮云岭山路,在终点感受火红杜鹃的逆光之美,风景旧曾谙

“百万元”买不到国产大作的厕所!玩家:美少女不需要

无障碍浏览 进入关怀版