网易首页 > 网易号 > 正文 申请入驻

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?

0
分享至



最近 AI 圈这么热闹,全是在养龙虾的,给大伙都看乏味了,我们最爱的新模型发布环节去哪里了?

别急。在大伙忙着把虾养肥的时候,有一家国产模型公司,其实一直在偷偷上分。

MiniMax 最近更新了他们最新的 M2.7 版本,官方给出的说明非常干脆,指令遵循、办公协同和 Coding都有很大提升。



它甚至能自行建构复杂的Agent Harness,也就是搭出一套完整的任务框架,调度多个 Agent 协作、组合各种技能和工具,把那些光靠单个模型根本搞不定的复杂任务给跑通,有点“最强赛博员工”那味了。

而且 M2.7 它最有意思的地方在于,它能通过构建Agent Harness 来“自我进化”。在测试中,测试员给它甩在了 MLE Lite 22 道高难度竞赛中,M2.7 最后取得了 9 金 5 银 1 铜,得牌率 66.6%,仅次于 Opus-4.6(75.7%)、GPT-5.4(71.2%),与 Gemini-3.1 持平。

这成绩不是第一次就跑出来的,而是通过一个简易的脚手架,来引导 Agent 进行自主优化,核心的模块包括短时记忆、自反馈以及自优化三个模块,然后它自己一轮轮迭代优化出来的分数。



世超也有幸搞到了一波内测名额,接入了我们的“龙虾”和 Claude Code 里。实测跑了一段时间,怎么说呢,不管是养虾还是干活,这代模型给我的印象是,确实抗打。



大伙应该都知道了,OpenClaw 本体只是一个外壳,它的智商完全取决于你给它接什么模型当大脑。模型不行,虾就是个傻子。而这次 M2.7 也是针对 Agent 场景做了专项加强。咱就先拿龙虾来试试它的水平。

我上来就给它安排了个任务:帮我生成一个自然博物馆的网站——包含首页、购票页面、展馆地图、捐款通道,得是一个完整的多页面站点。



它有个让我很舒服的特点,就是我在龙虾里派任务的时候,它不会像一些模型一样硬控你的屏幕,让你在那干等着。

它的偏好是,自己在后台开一个子会话去执行任务,你屏幕上的主会话该干嘛干嘛,完全不耽误。

而且还会自己指挥Claude Code去干,还有领导力这一块的。



等它做完了,会把结果推送回主会话通知你,确实有点意思,有种幕后助理的感觉,你吩咐一句,它默默去办了,办完了才给汇报。

过了大概两分钟,桌面上多了一个文件夹,点开一看,是一个结构完整的网站,导航栏能跳转各个子页面,配色和排版都挺像回事的,啥按钮都能按,满分好吧。



光做前端牛,那你给我找点资料呗?于是我又给了一个更有挑战的任务:盘点一下从初代 iPhone 到 iPhone 17 的历代外观,每款附上渲染图。

它很快就把框架搭好了,每款机型都有文字描述和关键设计变化,时间线也对。



但美中不足的是,图片加载失败了。。它尝试从网上直接获取图片,没能下载成功。让它解释一下,它说被阻断了。



最后还是我给它接了 MaxClaw 搓的图片合集,它才把渲染图下载下来插入进去了(MaxClaw是Minimax的云Claw,也蛮有意思)。



图片获取这块确实是目前一个卡手的地方,理论上操作浏览器应该能做到,但实际体验还不太稳定。不过操作龙虾干正事这块,M2.7 的表现还是扎实的。



一般模型装多了 Skills 就容易搞混,该用 A 技能的时候调了 B,或者干脆无视 Skill 规范自由发挥,M2.7 在指令遵循上确实下功夫了。

按照官方的说法,M2.7 在有 40 个复杂 Skills 同时加载的情况下,仍能保持 97% 的使用准确率。

我电脑上32个skills,龙虾跑的时候也确实没怎么乱过。



嚯嚯嚯,对了,之前网传的MiniMax不认识马嘉祺的bug,M2.7也修好了。



接下来,咱来测下M2.7的办公能力,听说它Excel玩得很溜。

我让 M2.7 做一个基金月度投资组合分析表——10 只 A 股,要有市值计算、盈亏公式、条件格式(赚了标绿亏了标红)、底部汇总行,再加一个饼图展示仓位分布,标准的基金经理桌面工具。

它很快生成了第一版,结构没问题,公式、条件格式、饼图都有。但我扫了一眼数据,全是编的。。居然炒的是预制股?



所以我直接跟它说"要实时数据"。然后它便开始了深刻的思考。

它先尝试用一个 Python 库去拉 A 股实时行情,结果直接挂了。。

但 M2.7 也没开摆,它自己开始排查:先 curl 百度确认基础网络是通的,再检查环境变量发现没配代理,然后直接 curl 东方财富的 HTTP 接口,通了。



最终 10 只股票全部获取成功,全是当天的真实盘中价格。我专门去东方财富核对了一遍,是对的。



这让我觉得有点靠谱,人也不能百分百找到正确方案,但碰到问题会自己换方案,而M2.7真能做到这一点。

拿到实时数据之后,我开始给它追加编辑指令。比如美化一下颜色、加一个行业筛选的下拉框,显示目前该行业总市值,盈亏率等等,公式联动都是对的。而且之前做好的内容也没有被搞乱,表现蛮稳定的。



然后我把 Excel 的数据和结论丢给它,让它直接搓一个 PPT,要求就是给我汇报,我一目了然。最后整体效果,是那种拿去开会不会丢人的水平,还带内部超链接。



最后来看看代码吧。我之前写了一个 Python 的个人记账小工具,有一些世超摸不着头脑的问题,我把代码和最近的报错日志一起丢给了它。

哥们直接给我送来一个表格,表上是些我看不懂的原因。



但的确是四个 bug,Claude Opus 4.6也如是说。一个没漏,分析逻辑非常清晰。

而且,它的修复方案也不是头痛医头的那种,做了系统性重构,最后还给出了架构层面的判断:JSON 单文件已经到瓶颈了,建议迁移 SQLite,并且没有硬吹自己的修复能解决所有问题。

翻译成人话,就是我拿了一份自己的作业去找人批改,上面有4个叉,对面不但把4个错全找出来了,还发现了几个你之后可能犯的隐藏错误,顺手帮你优化了。



整体感觉大概相当于一个有经验的开发来帮你 review 代码,确实比我强。对于不是程序员的普通用户来说,拿它来检查和修复自己的小脚本、自动化工具,vibe coding是真够用了。

OK,最后来点实在的总结吧。M2.7 的 Agent 能力、办公能力、代码能力都拿得出手,可以说是养虾的优质模型,也是干活的靠谱工具。

要说不足的话,网络资源获取还能再提升下,不管是龙虾场景里下载图片,还是其他需要从网上抓取股价这块,经常加载失败,得我压力它才搞得定。。不过这也算目前模型的通病了,就看大伙怎么优化了。

总之 2026 年,AI 能干活也不是啥新闻了,但真正拉开差距的,还它能不能像个负责的同事一样,自己拆问题、自己想方案、搞砸了也会自己调整。

所以,M2.7 还真跨过了这个门槛,让人看到了一种最强的 Cowork Agent 形态。从当年 ChatGPT 的“你问我答”,到如今模型能够带队协作、自己排查 Bug、主导端到端交付。。再这么进化下去,普通人未来能用 AI 做的事情,将会越来越多,也越来越复杂。

可能以后就没人再说,年轻人不会用电脑了,维新派要指挥电脑自己干活了!



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

职场资深秘书
2026-05-10 13:51:21
一季度全国结婚登记169.7万对

一季度全国结婚登记169.7万对

第一财经资讯
2026-05-10 10:17:17
一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

上游新闻
2026-05-10 15:45:20
明目张胆造假,中国电影还有救吗?

明目张胆造假,中国电影还有救吗?

闲人电影
2026-05-08 18:31:17
女团夺冠发布会!孙颖莎安抚蒯曼,王曼昱致谢莎莎,另2将笑开花

女团夺冠发布会!孙颖莎安抚蒯曼,王曼昱致谢莎莎,另2将笑开花

篮球资讯达人
2026-05-11 00:46:56
孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

澎湃新闻
2026-05-10 21:38:28
有一种逆转叫梁靖崑!中国男乒实现史无前例的12连冠,王楚钦生日捧杯

有一种逆转叫梁靖崑!中国男乒实现史无前例的12连冠,王楚钦生日捧杯

上观新闻
2026-05-11 05:06:17
俄罗斯警告亚美尼亚若加入欧盟将招致和乌克兰一样的后果

俄罗斯警告亚美尼亚若加入欧盟将招致和乌克兰一样的后果

山河路口
2026-05-10 23:28:46
阿森纳赢下英超“决赛”!剩2轮5分领跑,3队提前保级,热刺笑了

阿森纳赢下英超“决赛”!剩2轮5分领跑,3队提前保级,热刺笑了

奥拜尔
2026-05-11 01:34:43
“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

妍妍教育日记
2026-05-09 13:54:42
54犯65罚!前板被抢爆,鬼才潘江错换大刘,成全广厦1-1夺回主动

54犯65罚!前板被抢爆,鬼才潘江错换大刘,成全广厦1-1夺回主动

后仰大风车
2026-05-10 22:09:44
“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

环球网资讯
2026-05-10 11:20:10
夺12连冠!随着国乒3-0日本,诞生3个不可思议,还有2个不争事实

夺12连冠!随着国乒3-0日本,诞生3个不可思议,还有2个不争事实

侃球熊弟
2026-05-11 01:44:31
“汉坦病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“汉坦病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

岐黄传人孙大夫
2026-05-09 09:08:44
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
2:3!日本女团惜败国乒,张本美和赛后采访满是心有不甘与心碎!

2:3!日本女团惜败国乒,张本美和赛后采访满是心有不甘与心碎!

田先生篮球
2026-05-10 23:07:16
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
国家德比2-0!11.7亿豪门无解联赛11连胜 完爆死敌夺冠第29次加冕

国家德比2-0!11.7亿豪门无解联赛11连胜 完爆死敌夺冠第29次加冕

狍子歪解体坛
2026-05-11 04:56:31
梁靖崑3-2逆转张本智和,原因找到,赛后侯英超毫不犹豫的说出来

梁靖崑3-2逆转张本智和,原因找到,赛后侯英超毫不犹豫的说出来

林子说事
2026-05-11 03:26:18
人一旦有了体系,做什么都会成功

人一旦有了体系,做什么都会成功

细说职场
2026-05-10 09:47:15
2026-05-11 05:51:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10735文章数 489634关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
手机
健康
公开课
军事航空

教育要闻

男孩为了拼中考体育满分,每天坚持猛跑1小时,却把骨头跑断了

手机要闻

OPPO Reno16系列参数全曝光,就差价格了

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版