网易首页 > 网易号 > 正文 申请入驻

实测 MiniMax M2.7:AI 狠起来,连自己都卷

0
分享至

龙虾爆火之后,全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题:驱动龙虾的那颗「大脑」,够不够聪明?

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型,清一色都是 Mini、Flash 款,官方潜台词几乎写在脸上:专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界,反而成了最不被讨论的话题。


一个真正适配龙虾的模型,除了 Token 要量大管饱还实惠,更多的是模型要足够聪明、动手能力和学习能力足够强。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「 开启 AI 的自我进化 」和做「 最强的 Cowork Agent 模型 」,既能处理代码工作、常见的 Office 任务,还能主动学习构建稳定的 Agent 系统。


具体来说, 它能做好的工作比大多数模型要更宽 。对于写代码,M2.7 能真正理解一个系统在运行时发生了什么,做到了 SRE(网站可靠性工程)级别的系统推理,看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%,几乎追平 Opus 4.6。

办公场景里它已经够用了 。 Excel、Word、PPT 的复杂编辑和多轮修改,M2.7 在这块有明显提升,金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士,但是真正进入工作流,作为辅助完全可以。

它在多 Agent 协作里不会「断掉」 。 这是 M2.7 专项打磨的能力,多角色场景下边界清晰,面对包含 50+ Skills 的复杂环境,依然能保持极高的指令遵循能力。

然后是这次更新的重点, 它开始参与优化自己了 。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型,不只是「辅助迭代」,是「深度参与迭代自己」。能够自我进化,M2.7 可以自主迭代 Agent Harness(智能体脚手架)来胜任大部分的工作流。

实战能力的提升,也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升,来到了最高分排行榜的第四名。


PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准,它测试的是大模型在 OpenClaw 真实业务场景下的表现,图中为任务成功率指标,MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真实的开发过程中遇到的 Bug、枯燥的金融数据,还有大量的长流程任务统统交给它。

两天的测试下来,我们发现不仅软件要为了 AI 重做,就连 AI 模型本身,除了要理解人类的用意和产出人类满意的结果, 模型更需要懂得 AI 的工作方式和工作流,还得学会自己优化自己

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 时代工作流」应该是,AI 作为核心运转枢纽,去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前,我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型,还是说拿去跑个 benchmark 好看,实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据,然后按照比赛的要求,告诉 MiniMax M2.7 帮我实现对应的需求,即根据给定的数据,进行合适的数据处理和特征工程,为我生成一份可视化的分析报告。

整个数据集的内容相当庞大,有超过 3000 行的表格数据,整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后,我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。


要做好这份分析,需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型,最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务,MiniMax M2.7 充分利用了我已经安装的各种 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取,接着开始编写 Python 代码,自动安装 Pandas 库(常用来处理表格数据),一步一步进行。


最后,MiniMax M2.7 也交出了一份完整的可视化方案,它同时生成了多张图片用来展示收益率分布,不同特征的重要性和类别排名,以及综合仪表盘。


而在可视化的网页里,它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统,所有的信息都可以直接动态查看。


这种大型的项目任务,MiniMax 能够顺利完成,我们日常工作中的办公和编程任务,就更不用说了。

我们先是在手机上操作龙虾,让它帮我总结我放在电脑上的文件,然后要求 MiniMax M2.7 根据这份文件,帮我写一个研究计划 Word 文件,再整理一份相关论文的 Excel 文档,最后是一个用来组会做汇报的 PPT 文档,直接在手机上就能操作。


接入 MiniMax M2.7 的龙虾能快速回应需求


Office 三件套的处理如今是不在话下

在办公领域的优势,也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中,ELO 得分达到了 1495,国产模型最高。

前段时间,AI 工作助手的可视化面板很火,把龙虾放到了真实的二次元风格办公室里,用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家,但是如果我想要修改二次元房间布局,可以怎么做呢?交给 MiniMax。


在 OpenClaw 的可视化本地界面里,我们直接发送「我想修改这个小房子的风格该怎么做?」,MiniMax M2.7 会自动阅读项目的代码,然后告诉我们哪些地方是可以修改的,如何修改。


由于我输入的要求是科技编辑部办公室的风格,然后它就帮我修改成了有星球大战的海报,还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。


接着和它聊天,我们还能根据这个风格设计一个编辑部大亨的游戏,谁做的任务多,谁的办公室就大,就能升级。


如果是 MiniMax 官方的 MaxClaw,是直接支持多模态的生成,可以一步到位生成视频、音频、图片等,不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全,但是它不允许我们像操作本地电脑一样,任意安装不同的库文件。

最后在将视频转成 GIF 时,MaxClaw 提醒我,它没有足够的权限将 ffmpeg(一个开源的多媒体处理库)安装到云端服务器上。


在 MaxClaw 内可以直接使用 MiniMax M2.7,它会自动调用海螺等视频、音频和图片生成模型,为我们生成多媒体文件,而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能,我们就能看到所有安装在 MaxClaw 的 Skills 详情,并且点击「问问 MaxClaw」,它会自动编辑一条消息「告诉我 frontend-dev 能做什么,并告诉我如何使用它」,引导我们学习如何使用这项 Skill。


除了 GIF 生成这个 Skill,MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库,我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」,龙虾会自动获取 Skill 文档完成安装。


下载链接:https://github.com/MiniMax-AI/skills

AI 狠起来,连自己都卷

除了在日常工作和办公领域上表现出的完整工作流,以及实际的交付能力,MiniMax M2.7 最让我们感到特别的,还有它展现出的「 模型自迭代闭环 」。

MiniMax 曾提到人类研究员只需要把控大方向,把构建系统的任务交给模型,它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考,harness 负责把这个「会想」的东西,变成一个能稳定干活的系统。这个系统像是运行层,负责让 agent 在真实环境里稳定运行。


为了测试 M2.7 的极限,MiniMax 让它去优化某个内部脚手架的软件工程表现。结果,M2.7 全程零人工干预,硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹,自己规划改动,改完脚手架代码再去跑评测,最后对比结果决定是保留还是回退。在不停歇自我互搏中,它自己发现了最优解,最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证,MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。


22 道高难度竞赛题,M2.7 依靠内部的短时记忆文件和自反馈机制,每跑完一轮就给自己提优化建议。

24 小时内,它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌,得牌率 66.6%。

这个成绩,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份,仅用 1 人 4 天时间,零人工编码就搭出一套包含测试和代码审查的 Agent 系统时,AI 研发的齿轮,大概已经换上了自动挡。

在极其硬核的生产力之外,MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商,这让它在互动角色扮演(Roleplay)上,比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom ,一个万物皆可互动的 Web GUI 空间,可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」,这件事比写好代码更重要

体验下来,MiniMax M2.7 真正让我们在意的,不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事: 让 AI 真正理解工作流,并且参与到工作流的演化里

过去,软件是人写的、人用的。现在,AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下,自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮,某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」,我想很快就不再是一个问题——因为决定这一切的,不再是我们。

而是那个,开始学会自己工作的 AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
审慎起见,香港食安中心封存一批幼儿成长配方奶粉

审慎起见,香港食安中心封存一批幼儿成长配方奶粉

中新经纬
2026-06-03 11:15:41
宇树刚过会,英伟达就官宣合作,惹全网争议,把大脑交给美国?

宇树刚过会,英伟达就官宣合作,惹全网争议,把大脑交给美国?

大白聊IT
2026-06-04 00:04:53
继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

社会日日鲜
2026-05-21 09:22:29
NBA传闻:内部人士预测独行侠将交易欧文,但不会交易至森林狼

NBA传闻:内部人士预测独行侠将交易欧文,但不会交易至森林狼

好火子
2026-06-03 23:29:13
再见,杨瀚森,8换1或去雄鹿

再见,杨瀚森,8换1或去雄鹿

体育新角度
2026-06-02 19:59:18
拜登确诊晚期癌症,妻子感慨人生苦短,却仍对佩洛西逼宫耿耿于怀

拜登确诊晚期癌症,妻子感慨人生苦短,却仍对佩洛西逼宫耿耿于怀

世界王室那些事
2026-06-03 16:40:45
新任湖北省委书记首次调研,关注科技创新和产业创新融合发展工作

新任湖北省委书记首次调研,关注科技创新和产业创新融合发展工作

澎湃新闻
2026-06-03 22:28:29
网贷催收最新套路!12368立案、账户冻结,9成逾期的人都被吓懵了

网贷催收最新套路!12368立案、账户冻结,9成逾期的人都被吓懵了

侃故事的阿庆
2026-06-02 08:46:35
杨瀚森缺席,中国男篮翻盘!球员评分出炉:5人获高分,3人不及格

杨瀚森缺席,中国男篮翻盘!球员评分出炉:5人获高分,3人不及格

侃球熊弟
2026-06-03 20:21:33
假如日本当年没炸珍珠港,而是全力死磕中国,结局可能恰恰相反

假如日本当年没炸珍珠港,而是全力死磕中国,结局可能恰恰相反

锅锅爱历史
2026-05-30 16:18:33
北京市发布雷电蓝色预警

北京市发布雷电蓝色预警

界面新闻
2026-06-03 11:08:17
美政府计划对60个经济体征收10%或12.5%的关税

美政府计划对60个经济体征收10%或12.5%的关税

财闻
2026-06-03 13:55:27
直到这三场战争,全世界才知道我国国力强大到了什么程度

直到这三场战争,全世界才知道我国国力强大到了什么程度

农夫史记
2026-05-24 21:11:10
记者:M费正式告知西汉姆想离队,加盟曼联的意愿十分强烈

记者:M费正式告知西汉姆想离队,加盟曼联的意愿十分强烈

懂球帝
2026-06-03 21:05:20
4次挑衅中国!乌克兰名将:俄罗斯又轰炸乌克兰 有人凌晨被炸去世

4次挑衅中国!乌克兰名将:俄罗斯又轰炸乌克兰 有人凌晨被炸去世

念洲
2026-06-03 08:34:58
布兰迪惊闻儿子破处:从尴尬到催生

布兰迪惊闻儿子破处:从尴尬到催生

自愈小日子
2026-06-01 00:49:43
修船厂里的“基洛级买家秀”:中国翻新如虎,印度等俄如牛

修船厂里的“基洛级买家秀”:中国翻新如虎,印度等俄如牛

风信子的花
2026-05-23 01:18:56
大空袭:极氪基辅4S店被彻底摧毁!又一位英雄死于恶毒“双击”

大空袭:极氪基辅4S店被彻底摧毁!又一位英雄死于恶毒“双击”

鹰眼Defence
2026-06-03 17:01:14
谁能想到,那个搞出DeepSeek的梁文锋,直接把桌子给掀了

谁能想到,那个搞出DeepSeek的梁文锋,直接把桌子给掀了

安安说
2026-05-31 10:53:31
宁夏一地公告:教师岗招聘存在围报 笔试第一考生被取消面试资格,两岗位均招1人,分别有29人、31人报名

宁夏一地公告:教师岗招聘存在围报 笔试第一考生被取消面试资格,两岗位均招1人,分别有29人、31人报名

红星新闻
2026-06-03 18:58:41
2026-06-04 01:03:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6445文章数 26846关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

旅游
亲子
本地
公开课
军事航空

旅游要闻

景区从省道拦到国道!亟须制定规则为路权划红线

亲子要闻

9岁孩童竟患上冠心病!医生说明原因,父母后悔不已……

本地新闻

用杨柳青年画的方式,打开天津

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

媒体:美伊和谈以方却从中作梗 内塔尼亚胡有私人算计

无障碍浏览 进入关怀版