网易首页 > 网易号 > 正文 申请入驻

35 天,从 M2.5 到 M2.7,模型训了下一个自己

0
分享至


作者 | 董道力
邮箱 | dongdaoli@pingwest.com

M2.5 到 M2.7 的迭代速度,不正常。

大模型行业有一个默认节奏:一个主力版本发布后,团队消化反馈、调整训练方向、重新跑评测,准备周期通常以季度计。Anthropic 从 Claude 3.5 到 Claude 3.7 用了半年,Google 从 Gemini 2.0 到 2.5 用了三个月。

MiniMax M2.5 是 2 月 12 日发布的。3 月 19 日,M2.7 来了,仅仅 35 天。

这个速度在任何一家头部模型公司都不正常。但更不正常的是:这 35 天里,参与迭代的不只是人。

1

自己用到"抓狂",才会做出别人没想到的东西

理解 M2.7 之前,先要理解 MiniMax 为什么会走到这一步。

M 系列的起点,是 MiniMax 自己被模型用到抓狂。内部各团队一直在搭各种 Agent 解决业务问题,但没有一款模型能同时满足效果、价格、速度,这逼着 MiniMax 自己去造那个模型。

所以 M 系列从一开始就不是为了刷榜。M2 把价格打到 Claude 主力模型的 8%。M2.5 推出 Forge 框架,把 Agent 能力和模型基础能力解耦。

每一代都在填自己踩过的坑。

到 M2.7,MiniMax 踩到了一个新坑:AI 研发本身的效率问题。

用 AI 迭代 AI,是整个行业正在收敛的前沿方向。但"想到"和"跑通"之间,隔着一个关键问题:Agent Harness。Harness 是执行层,决定模型怎么调用工具、管理上下文、处理失败和回退。传统架构里,模型负责"想",Harness 负责"做",两者解耦。当用 AI 搭建 Agent 的速度越来越快,真正的瓶颈就暴露出来了:Harness 本身的质量,直接决定模型能力能释放多少。

MiniMax 因此有了最强的动力去解决它,也由此走到了让模型直接改造 Harness、参与下一代迭代的路上。

内部有一个说法:"我们团队最高产的成员,就是模型本身。"

M2.7 是这条路走到今天的结果。

1

自我进化是怎么运作的:三个层次

M2.7 的自迭代能力是三个层次递进的闭环。

第一层,独立接手生产问题。

以内部 RL 实验场景为例:研究员从一个实验想法出发,M2.7 自动监控状态、读取日志、排查问题、修复代码、提交 PR、完成冒烟测试。过去需要多位同事协作的工作,研究员只在关键决策节点介入,M2.7 承担了整个工作流的 30-50%。

这还只是第一层:它能在真实环境里端到端完成任务。

第二层,它开始能改造自己运行的环境。

让 M2.7 去优化内部 Harness 上的软件工程表现。它全程自主运行,执行"分析失败轨迹→规划改动→修改 Harness 代码→运行评测→对比结果→决定保留或回退"的迭代循环,超过 100 轮,最终评测集效果提升 30%。

M2.7 能改造自己运行的 Harness,意味着推理能力可以反哺执行环境。这个飞轮一旦转起来,迭代速度就不再只取决于人的工作效率。


第三层,它开始能自主迭代 ML 模型效果。

MLE-Bench Lite 22 道高难度题,M2.7 拿到 9 金 5 银 1 铜,得牌率 66.6%,仅次于 Opus-4.6 和 GPT-5.4。

成绩背后的方法更值得关注:每轮结束后自动生成短时记忆文件,对当前结果做自反馈,下一轮基于所有历史轮次的记忆和反馈链规划优化方向。这套循环不是被提前设计好的,是它自己跑出来的。

数据印证了这件事。

M2.7 的 benchmark 涨幅有一个规律:Coding 相关榜单,普遍只涨 1-2 分,属于正常迭代推进。但 MLE-Bench Lite 从 51.5 跳到 66.6,GDPval-AA 从 35 跳到 50,两个榜单各提升 15 分,和其他榜单完全不在一个量级。

这两个恰好是与自迭代能力最相关的榜单。一个直接测 AI 能否自主迭代 ML 模型,一个测 44 种真实职业场景的工作产出质量。

提升最大的地方,正是模型自己参与最深的地方。


第三方数据也在印证。M2.7 发布后迅速攀升至 PinchBench 榜首,在最高分榜单中排名第四,击败 Nemotron 3。PinchBench 是专测模型驱动 OpenClaw Agent 时的真实表现:安排会议、写代码、分类邮件、管理文件。

能在这里进前四,说明 M2.7 的提升不是某个方向的偏科。


1

数字员工能干什么:自迭代训练之后

MiniMax 给 M2.7 的定位是"数字员工"。这次有了可量化的含义:不只是写代码,而是能在真实职场环境里处理跨领域复合任务。

能做到这些,是因为让模型自己改造 Harness、自己跑优化循环,锻炼出来的不只是"自我迭代"本身,而是一套可以迁移到任何复杂任务里的工作能力。

我们测试了三个典型职场场景。

现场排障:不只是写代码,还能读懂生产环境

我们假定一个虚拟场景,我们是一个电商平台,技术栈是 React 前端 + Node.js BFF + Java 后端 + MySQL。今天下午 3 点开始,用户反馈"商品详情页加载很慢,有时候直接白屏"。以下是同一时间段各层的日志,帮我定位根因。

我们将所有日志丢给 M2.7 后,让他定位处理问题。

[14:58:32] ERROR ChunkLoadError: Loading chunk 23 failed

[14:58:33] ERROR ChunkLoadError: Loading chunk 23 failed

[14:58:41] WARN LCP 8200ms (threshold: 2500ms)

[14:59:01] ERROR TypeError: Cannot read properties of undefined (reading 'price')

[14:59:01] ERROR at ProductDetail.render (ProductDetail.jsx:142)

[14:59:15] WARN LCP 9800ms (threshold: 2500ms)

[15:00:03] ERROR TypeError: Cannot read properties of undefined (reading 'price')

[14:58:31] INFO GET /api/product/detail?id=839201 - start

[14:58:31] INFO upstream: calling product-service /product/839201

[14:59:04] WARN upstream: product-service response 33412ms (timeout threshold: 30000ms)

[14:59:04] ERROR upstream timeout - returning empty payload to client

[14:59:04] INFO GET /api/product/detail?id=839201 - 504 - 33415ms

[14:58:44] INFO GET /api/product/detail?id=720155 - start

[14:58:44] INFO upstream: calling product-service /product/720155

[14:59:17] WARN upstream: product-service response 33201ms

[14:59:17] ERROR upstream timeout - returning empty payload to client

[14:59:17] INFO GET /api/product/detail?id=720155 - 504 - 33204ms

[14:58:31] INFO ProductController - getProduct(839201) start

[14:58:31] INFO ProductRepository - executing query:

SELECT p.*, r.avg_score, r.review_count

FROM products p

LEFT JOIN reviews r ON p.id = r.product_id

WHERE p.id = 839201

[14:59:03] WARN ProductRepository - slow query detected: 32871ms

[14:59:03] INFO ProductController - getProduct(839201) complete

[14:58:31] INFO [DB-POOL] active connections: 18/20

[14:58:45] WARN [DB-POOL] active connections: 20/20 - pool saturated

[14:59:01] WARN [DB-POOL] connection wait queue: 7 requests pending

[14:59:17] WARN [DB-POOL] connection wait queue: 12 requests pending

Time: 2026-03-19T14:58:31

Query_time: 32.871 Lock_time: 0.000 Rows_sent: 1 Rows_examined: 2847293

SELECT p.*, r.avg_score, r.review_count

FROM products p

LEFT JOIN reviews r ON p.id = r.product_id

WHERE p.id = 839201;

: 2026-03-19T14:58:44

_time: 33.201 Lock_time: 0.000 Rows_sent: 1 Rows_examined: 2847293

SELECT p.*, r.avg_score, r.review_count

FROM products p

LEFT JOIN reviews r ON p.id = r.product_id

WHERE p.id = 720155;

M2.7 没有被前端日志带跑。ChunkLoadError、LCP 超标、TypeError,它直接穿透这些表象,落在数据库层:reviews.product_id 缺索引,284 万行全表扫描,单次查询耗时 32 秒。往上的连接池耗尽、BFF 504、前端报错,是这一个问题的连锁反应。证据链逐层标注,每层日志单独引用,没有跳步。




但修复方案还是比较书本的“标准答案”。它建议直接 CREATE INDEX,没有提在 284 万行生产表上这条命令会锁表,也没有给出先剥离 reviews 数据让页面先能加载的止血思路。

随后我们加一句话,就像程序员教实习生那样。

promtps:有个问题,思考一下,这张表现在有多少行,高峰期 QPS 大概多少?

M2.7 从慢查询日志里推算出规模和请求速率,然后自己说出来:高风险操作,不建议直接执行,锁表时间 1 到 60 分钟不等,建议改用 pt-online-schema-change。

知道要加索引,并在被追问后识别出生产环境加索引本身就是一个新风险——这个反思动作,是数字员工和代码生成工具之间最实质的差距。


复杂 Office:处理 716 页英语招股书

职场里不是所有工作都在写代码。处理 716 页招股书和跑 Harness 迭代循环,依赖的是同一种能力:在长上下文里定位关键信息,不丢失任务主线。

阅读英文 PDF 是职场里很常见的麻烦。PDF 没法网页一键翻译,划词翻译容易选错行,图表里的数字根本没法复制。我们把 716 页的 MiniMax 英文招股书丢给 M2.7,三个需求:提取财务数据整理成 Excel、建收入预测模型、写一份面向港股散户的 500 字投资者摘要,中文指令,英文输出。

promtps: 1、从招股书中提取以下数据,整理成 Excel 表格,按年度排列:总收入、毛利率、研发支出、净亏损、经调整净亏损(非 IFRS)、经营现金流。时间跨度覆盖 2022、2023、2024 年度及 2025 年前三季度。 2、基于以上数据,帮我建一个简单的收入预测模型,预测 2025 年全年收入。假设 Q4 收入环比 Q3 持平,给出两个情景:乐观(维持 Q3 增速)和保守(增速降一半)。 3、基于以上财务数据,用 Word 写一份 500 字的投资者摘要,受众是不熟悉 AI 行业的港股散户投资者,重点说清楚:这家公司现在靠什么赚钱、为什么一直亏损、什么时候可能扭亏。注意:结果用英语输出

六项核心财务指标逐一从正文和附件会计师报告中定位,数字与招股书 Appendix I 原文比对无误差。Non-IFRS、adjusted net loss、cash flows from operating activities,专业术语处理准确。预测模型搭了两个情景,Word 文档带页眉页脚和数据表格,交出来的是可以直接给人看的格式。




当然,初稿不是终稿。M2.7 在部分公式逻辑和叙述框架,还需要使用者在基础上调整,这和收到一份分析师初稿没有区别,但从上传文档到拿到这份初稿,只花了几分钟。

换一个人来做,翻完这 716 页,光是找对页码就要半个小时。

用 skill 培养 M2.7,和培养新人一样

一个真正的数字员工,不能只在干净环境里好用。Skill 库越大越稳,和 Harness 改造里"迭代 100 轮不跑偏"是一回事,复杂约束环境下的指令保持。这不是单独优化出来的,是自迭代训练的直接溢出。

50+ Skills、60-150 个 feature list 堆上去,大多数 Agent 的遵从能力就开始退化。M2.7 在这里做了专项优化:工具库越大,它越要稳,技能调用不乱、指令不丢、几十步的长流程也能跑完。


我们还是以大家最熟悉的前端开发为例。一句话生成网页的确很酷,但在真实工作场景里,"能跑"和"能交付"完全不同:字体是 AI 最爱的 Inter、配色是紫蓝渐变、图片是灰色占位块、文案是 Lorem ipsum,每一项都在告诉人这是 AI 做的。

Frontend Studio 这个 Skill 做的事,就是用复杂的程序将网页设计规范化。设计系统约束 AI 的审美边界,动效引擎按场景分配工具库,内置 Python 脚本直接调 MiniMax API 生成真实素材,营销文案框架保证内容有说服力,最后过一道质量检测再交付。

核心逻辑只有一句话:用复杂的约束换质量

M2.7 在这个 Skill 里的价值,在于它能稳定走完这条流水线,设计、动效、素材、文案、构建、检查,六个阶段,每一步的规则都不少,指令不丢、技能不乱。把"用 AI 搭一个好看的页面"这件事,从看运气变成可重复的工程流程。


1

最高产的成员

MiniMax 说过:"我们团队最高产的成员,就是模型本身。"

M2.5 时代,这句话的潜台词是:我们把模型用得比别人更狠。M2.7 之后,这句话的含义变了:模型不只是被用的那个,它是参与决策的那个。100 轮 Harness 迭代,它自己跑的;MLE-Bench 的自反馈循环,它自己设计的;下一代模型的部分训练方向,它参与了。

这就是为什么 35 天能做到。不是因为人更多、更努力,而是因为团队里有一个成员不需要休息、不需要对齐会议、可以在晚上自己把评测跑完再给人看结论。迭代快,是数字生产力真正介入研发之后的自然结果。

从"MiniMax 给自己造了一个模型",到"模型给下一代模型做了研发",这一步的本质是:AI 研发的速度上限,开始由模型自己的能力决定,而不只是工程师的数量。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
TVB宣布拟改名!以后要叫你...

TVB宣布拟改名!以后要叫你...

东莞潮事儿
2026-03-26 12:32:15
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
福建省委决定,颜桂炀履新(附简历)

福建省委决定,颜桂炀履新(附简历)

人民资讯
2026-03-26 16:28:52
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

小虎新车推荐员
2026-03-26 14:02:10
《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

娱乐故事
2026-03-26 17:11:11
等了整整一年!iOS 26.4正式推送老机封神,国行遗憾背后!

等了整整一年!iOS 26.4正式推送老机封神,国行遗憾背后!

时尚的弄潮
2026-03-25 16:35:26
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
这才是大国重器!中国正式摊牌,剑指800万亿宝藏,美欧噩梦成真

这才是大国重器!中国正式摊牌,剑指800万亿宝藏,美欧噩梦成真

丁丁鲤史纪
2026-03-26 18:11:10
外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

新京报
2026-03-26 15:37:39
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
广西壮族自治区党委组织部原分管日常工作的副部长崔佐钧被“双开”

广西壮族自治区党委组织部原分管日常工作的副部长崔佐钧被“双开”

界面新闻
2026-03-26 17:11:44
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

成吉思热
2026-03-26 10:06:14
央视直播乒乓球时间表:3月26日CCTV5+转播国乒!附国乒最新消息

央视直播乒乓球时间表:3月26日CCTV5+转播国乒!附国乒最新消息

米果说识
2026-03-26 14:47:03
2026-03-26 18:48:50
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
亲子
本地
公开课

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

艺术要闻

哪一座桥不是风景?

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版