网易首页 > 网易号 > 正文 申请入驻

实测 MiniMax M2.7:AI 狠起来,连自己都卷

0
分享至


龙虾爆火之后,全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题:驱动龙虾的那颗「大脑」,够不够聪明?

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型,清一色都是 Mini、Flash 款,官方潜台词几乎写在脸上:专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界,反而成了最不被讨论的话题。


一个真正适配龙虾的模型,除了 Token 要量大管饱还实惠,更多的是模型要足够聪明、动手能力和学习能力足够强。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」,既能处理代码工作、常见的 Office 任务,还能主动学习构建稳定的 Agent 系统。


具体来说,它能做好的工作比大多数模型要更宽。对于写代码,M2.7 能真正理解一个系统在运行时发生了什么,做到了 SRE(网站可靠性工程)级别的系统推理,看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%,几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改,M2.7 在这块有明显提升,金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士,但是真正进入工作流,作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。 这是 M2.7 专项打磨的能力,多角色场景下边界清晰,面对包含 50+ Skills 的复杂环境,依然能保持极高的指令遵循能力。

然后是这次更新的重点,它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型,不只是「辅助迭代」,是「深度参与迭代自己」。能够自我进化,M2.7 可以自主迭代 Agent Harness(智能体脚手架)来胜任大部分的工作流。

实战能力的提升,也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升,来到了最高分排行榜的第四名。


▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准,它测试的是大模型在 OpenClaw 真实业务场景下的表现,图中为任务成功率指标,MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真实的开发过程中遇到的 Bug、枯燥的金融数据,还有大量的长流程任务统统交给它。

两天的测试下来,我们发现不仅软件要为了 AI 重做,就连 AI 模型本身,除了要理解人类的用意和产出人类满意的结果,模型更需要懂得 AI 的工作方式和工作流,还得学会自己优化自己

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 时代工作流」应该是,AI 作为核心运转枢纽,去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前,我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型,还是说拿去跑个 benchmark 好看,实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据,然后按照比赛的要求,告诉 MiniMax M2.7 帮我实现对应的需求,即根据给定的数据,进行合适的数据处理和特征工程,为我生成一份可视化的分析报告。

整个数据集的内容相当庞大,有超过 3000 行的表格数据,整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后,我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。


要做好这份分析,需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型,最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务,MiniMax M2.7 充分利用了我已经安装的各种 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取,接着开始编写 Python 代码,自动安装 Pandas 库(常用来处理表格数据),一步一步进行。


最后,MiniMax M2.7 也交出了一份完整的可视化方案,它同时生成了多张图片用来展示收益率分布,不同特征的重要性和类别排名,以及综合仪表盘。


而在可视化的网页里,它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统,所有的信息都可以直接动态查看。


这种大型的项目任务,MiniMax 能够顺利完成,我们日常工作中的办公和编程任务,就更不用说了。

我们先是在手机上操作龙虾,让它帮我总结我放在电脑上的文件,然后要求 MiniMax M2.7 根据这份文件,帮我写一个研究计划 Word 文件,再整理一份相关论文的 Excel 文档,最后是一个用来组会做汇报的 PPT 文档,直接在手机上就能操作。


▲接入 MiniMax M2.7 的龙虾能快速回应需求


▲Office 三件套的处理如今是不在话下

在办公领域的优势,也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中,ELO 得分达到了 1495,国产模型最高。

前段时间,AI 工作助手的可视化面板很火,把龙虾放到了真实的二次元风格办公室里,用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家,但是如果我想要修改二次元房间布局,可以怎么做呢?交给 MiniMax。


在 OpenClaw 的可视化本地界面里,我们直接发送「我想修改这个小房子的风格该怎么做?」,MiniMax M2.7 会自动阅读项目的代码,然后告诉我们哪些地方是可以修改的,如何修改。


由于我输入的要求是科技编辑部办公室的风格,然后它就帮我修改成了有星球大战的海报,还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。


接着和它聊天,我们还能根据这个风格设计一个编辑部大亨的游戏,谁做的任务多,谁的办公室就大,就能升级。


如果是 MiniMax 官方的 MaxClaw,是直接支持多模态的生成,可以一步到位生成视频、音频、图片等,不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全,但是它不允许我们像操作本地电脑一样,任意安装不同的库文件。

最后在将视频转成 GIF 时,MaxClaw 提醒我,它没有足够的权限将 ffmpeg(一个开源的多媒体处理库)安装到云端服务器上。


▲在 MaxClaw 内可以直接使用 MiniMax M2.7,它会自动调用海螺等视频、音频和图片生成模型,为我们生成多媒体文件,而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能,我们就能看到所有安装在 MaxClaw 的 Skills 详情,并且点击「问问 MaxClaw」,它会自动编辑一条消息「告诉我 frontend-dev 能做什么,并告诉我如何使用它」,引导我们学习如何使用这项 Skill。


除了 GIF 生成这个 Skill,MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库,我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」,龙虾会自动获取 Skill 文档完成安装。


▲下载链接:https://github.com/MiniMax-AI/skills

AI 狠起来,连自己都卷

除了在日常工作和办公领域上表现出的完整工作流,以及实际的交付能力,MiniMax M2.7 最让我们感到特别的,还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向,把构建系统的任务交给模型,它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考,harness 负责把这个「会想」的东西,变成一个能稳定干活的系统。这个系统像是运行层,负责让 agent 在真实环境里稳定运行。


为了测试 M2.7 的极限,MiniMax 让它去优化某个内部脚手架的软件工程表现。结果,M2.7 全程零人工干预,硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹,自己规划改动,改完脚手架代码再去跑评测,最后对比结果决定是保留还是回退。在不停歇自我互搏中,它自己发现了最优解,最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证,MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。


22 道高难度竞赛题,M2.7 依靠内部的短时记忆文件和自反馈机制,每跑完一轮就给自己提优化建议。

24 小时内,它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌,得牌率 66.6%。

这个成绩,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份,仅用 1 人 4 天时间,零人工编码就搭出一套包含测试和代码审查的 Agent 系统时,AI 研发的齿轮,大概已经换上了自动挡。

在极其硬核的生产力之外,MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商,这让它在互动角色扮演(Roleplay)上,比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom,一个万物皆可互动的 Web GUI 空间,可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」,这件事比写好代码更重要

体验下来,MiniMax M2.7 真正让我们在意的,不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事:让 AI 真正理解工作流,并且参与到工作流的演化里

过去,软件是人写的、人用的。现在,AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下,自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮,某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」,我想很快就不再是一个问题——因为决定这一切的,不再是我们。

而是那个,开始学会自己工作的 AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
季后赛G1时间出炉,骑士凌晨打响揭幕战!

季后赛G1时间出炉,骑士凌晨打响揭幕战!

鸿锦篮球
2026-04-13 11:45:15
警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

周哥一影视
2026-04-08 12:20:15
建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

掠影后有感
2026-04-12 10:08:51
教育部通知!9月入学迎来颠覆性改革,孩子上学不用再拼家底了

教育部通知!9月入学迎来颠覆性改革,孩子上学不用再拼家底了

今朝牛马
2026-04-10 22:35:42
不服不行!孙俪基因杀疯了,儿子等等简直是她“等比例缩小版”

不服不行!孙俪基因杀疯了,儿子等等简直是她“等比例缩小版”

一窥究竟
2026-04-11 10:41:46
新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

眼光很亮
2026-04-11 20:22:50
非国家工作人员受贿行贿入罪门槛降低!5月1日将迎最严反腐新规

非国家工作人员受贿行贿入罪门槛降低!5月1日将迎最严反腐新规

新快报新闻
2026-04-13 20:40:09
两分钟内连震两次,中国地震台网:四川内江市资中县发生3.9地震

两分钟内连震两次,中国地震台网:四川内江市资中县发生3.9地震

环球网资讯
2026-04-13 17:20:19
为什么那么多酒店都倒闭了?网友:酒店很多需要被高铁替代了

为什么那么多酒店都倒闭了?网友:酒店很多需要被高铁替代了

另子维爱读史
2026-04-12 13:01:06
单程决死突击!伊朗飞行员壮烈牺牲,炸翻美司令部,换掉3架美机

单程决死突击!伊朗飞行员壮烈牺牲,炸翻美司令部,换掉3架美机

混沌录
2026-04-13 17:41:11
李逵母亲被老虎吃掉,宋江为何大笑?长大后才看透她母亲有多坏

李逵母亲被老虎吃掉,宋江为何大笑?长大后才看透她母亲有多坏

耳东文史
2026-04-12 00:01:27
曲乐恒现状:出行靠轮椅,父母照顾他的生活,49岁无人敢嫁给他

曲乐恒现状:出行靠轮椅,父母照顾他的生活,49岁无人敢嫁给他

TVB的四小花
2026-04-14 07:06:00
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
热闻|45年主场不败纪录告破!曼联1-2不敌利兹联

热闻|45年主场不败纪录告破!曼联1-2不敌利兹联

齐鲁壹点
2026-04-14 07:07:35
2011年,她全裸接受记者采访,并称:我敢看你们,你们敢看我吗?

2011年,她全裸接受记者采访,并称:我敢看你们,你们敢看我吗?

触摸史迹
2026-04-08 16:02:42
一句“我晕”别大意!上海九院专家:有些晕,会夺命

一句“我晕”别大意!上海九院专家:有些晕,会夺命

上观新闻
2026-04-12 14:40:13
长公主被家暴流产了

长公主被家暴流产了

毒舌扒姨太
2026-04-08 22:29:19
某些政权借战争之名大发战争财

某些政权借战争之名大发战争财

小眼睛小世界
2026-04-14 06:24:50
山东青岛胶州网约车司机为抢充电桩杀人?官方回应

山东青岛胶州网约车司机为抢充电桩杀人?官方回应

半岛官网
2026-04-13 17:09:18
施瓦辛格私生子首夺健美冠军!保姆所生,长得像爹,肌肉更是复刻

施瓦辛格私生子首夺健美冠军!保姆所生,长得像爹,肌肉更是复刻

照见古今
2026-04-12 19:26:48
2026-04-14 07:44:49
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38691文章数 2601471关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

特朗普:美军开始"封锁"伊朗 不允许其敲诈勒索全世界

头条要闻

特朗普:美军开始"封锁"伊朗 不允许其敲诈勒索全世界

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

时尚
本地
亲子
旅游
军事航空

今年春夏一定要拥有的4条裙子,这样穿减龄又好看!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

亲子要闻

孕妇买200元水果被丈夫骂后续:已去医院终止妊娠,坦言及时止损

旅游要闻

千年月街常赶常新,今年你最想玩啥?

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版