网易首页 > 网易号 > 正文 申请入驻

MiniMax M2.5:龙虾御用,Agent 永不停机

0
分享至

2026年春节前这周,可以称为中国 AI 全年成果大展。

一个接一个,根本停不下来。

昨天 MiniMax 也发布了 M2.5,激活参数和 M2.1 一样只有 10B。

M2.1 是小龙虾作者 Peter 最推荐的开源模型。

M2.5 相比 M2.1 是一次快速的进化,在编程领域最具代表性的 SWE-Bench Verified 上,M2 系列的进步速度是所有模型系列里最快的,超过了 Claude、GPT 和 Gemini。


Peter 把 Opus 作为主力模型,MiniMax 作为 fallback,当 Opus 的 token 用完了,自动切换到 MiniMax 继续跑。

而且他不只是云端调用。他在自己的 2 台 Mac Studio 上用 MiniMax 跑本地推理,不依赖模型厂的套餐,完全本地化,龙虾永远不掉线。

能在本地跑起来,靠的是 M2.5 在一系列旗舰模型里,拥有最小的激活参数。

M2.5 的激活参数只有 10B。作为对比,GLM-5 激活 40B,Kimi K2.5 大约 50B,DeepSeek V3.2 大约 30B。

模型的激活参数虽小,但 Agent 能力却不俗,Peter 以及很多用户实测下来,MiniMax 是小龙虾里效果最好的开源模型。

参数小带来的好处是连锁反应:推理速度达到 100 TPS,几乎是主流旗舰模型的两倍。以这个速度连续工作一小时,成本只要 1 美金。如果降到 50 TPS,只要 0.3 美金。

这意味着让一个复杂 Agent 无限运行下去,在经济上变得完全可行了。


Agent 和工具调用

M2.5 的工具调用能力非常强悍,在多项工具调用的指标均为头部水平。搜索是 Agent 最常用的工具,MiniMax 为此还自建了一个评测集 RISE(Realistic Interactive Search Evaluation),专门测真实专业任务上的搜索能力。

相比 M2.1 的提升也非常明显。在 BrowseComp、Wide Search、RISE 多项任务上,M2.5 用更少的搜索轮次拿到了更好的结果,轮次消耗少了大约 20%。模型学会了用更短的路径逼近答案。


海外开发者 Tom Osman 用 Clawdbot × MiniMax 重构日常工作流。他在 Telegram、Slack、WhatsApp、iMessage 上都部署了龙虾,通过语音或文字随时下指令。一个典型的工作日里,他会让龙虾分析网站、调研信息、撰写博客、更新元数据、起草社交帖子、发送邮件,所有任务并行跑,他只需要在不同的 Agent 之间切换对话。

他对 MiniMax 的评价是:在工具调用方面表现非常出色,而且相当准确。用的是每月 10 美金的 Coding Plan,用量远没到上限。

10B 的尺寸天然适合这类场景。Agent 要 7×24 小时不停地跑,模型越小,持续运行的成本越低,可行性越高。龙虾作者 Peter 选 MiniMax 做 Opus 的 fallback,本质上就是看中了这一点:

当你需要一个 Agent 一直跑下去的时候,10B 的模型能让你真的跑得起。

在我的实际测试中,我让 Minimax M2.5 来跑一个测试任务。

去监控一下每天有哪些热度最高的小龙虾的 skill,它完成得非常好。

编程和泛用性

编程方面,M2.5 相比 M2.1 的进步巨大,SWE-bench Verified 80.2%,Multi-SWE-Bench 51.3% 拿了全行业第一。

在提升能力的同时,还同时提升了推理速度。端到端完成 SWE-bench 任务从 M2.1 的 31.3 分钟降到 22.8 分钟,快了 37%,跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到 3.52M。变快了,还变省了。


还有个很有趣的点是 M2.5 在不同编程客户端里的泛用性很强。在 Droid 上跑 SWE-Bench,M2.5 是 79.7(Opus 4.6 是 78.9);在 OpenCode 上是 76.1(Opus 4.6 是 75.9),这样也就不太依赖 Claude Code 这而已的闭源脚手架了。

能提升对 OpenCode 的支持真的是很好的一件事。

OpenCode 是 Claude Code 的开源平替,安装简单,上手容易。

而且里面的 MiniMax M2.5 是限时免费的,都不需要配置。

我让它写了一个 2026 年的春运实时监控,每小时自动监控并更新网页,得到的网页是这样的:


从工具到同事:Agent 的下一步

MiniMax 给 M2.5 的定位是真实世界的好同事。

这是因为 Agent 是未来软件的使用者,是每个团队里都会有的新同事。

这个转变一旦发生,对模型的要求就彻底变了。

自主 Agent 时代,Agent 要 7×24 小时不停地跑,一天几百次推理调用,你在乎的是:能力够不够用、速度快不快、成本扛不扛得住。

那雇佣 Agent 一年大概需要多少钱呢?

M2.5 有两个版本,快速版本在以每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美金,而慢速版在每秒输出 50 个 token 的情况下,只需要 0.3 美金。

算下来,雇佣 Agent 让它们 7x24 地工作,每个 Agent 的月薪才 200 美金,你只需要花一万美金,就能获得四个永不休息的同事。

未来几年算力供给是线性增长,需求是指数增长,Token 只会越来越稀缺。

在这个大背景下,自主 Agent 时代能 7x24 持续运转极为重要。

因为只有这样,Agent 才能走向真实世界,成为你真正的同事。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒对比弗拉格与布泽尔大一赛季数据,布泽尔全面占优

美媒对比弗拉格与布泽尔大一赛季数据,布泽尔全面占优

林子说事
2026-02-15 21:07:24
英国同卵双胞胎颠覆实验:狂吃脂肪 VS 猛炫碳水12周, 结果震惊所有人!

英国同卵双胞胎颠覆实验:狂吃脂肪 VS 猛炫碳水12周, 结果震惊所有人!

二胎妈妈圈
2026-02-15 21:48:57
谷爱凌:安排不公平

谷爱凌:安排不公平

南方都市报
2026-02-15 11:39:35
越来越多的人查出肠癌!医生苦劝:冰箱久置的这5物,不要再吃了

越来越多的人查出肠癌!医生苦劝:冰箱久置的这5物,不要再吃了

小童历史
2025-10-11 10:50:42
未来黄金会跌至350元吗?实话实说,看完心里就有数了

未来黄金会跌至350元吗?实话实说,看完心里就有数了

花小猫的美食日常
2026-02-15 23:20:50
利拉德夺三分大赛冠军!队友直言:他就是个作弊器

利拉德夺三分大赛冠军!队友直言:他就是个作弊器

大眼瞄世界
2026-02-15 22:00:11
罗翔说:电视上都是,给你多少万,离开我女儿;现实中却是,

罗翔说:电视上都是,给你多少万,离开我女儿;现实中却是,

明智家庭教育
2026-02-15 21:03:20
炸了!利物浦核心暗许皇马,1 亿飞翼却哭着要加盟

炸了!利物浦核心暗许皇马,1 亿飞翼却哭着要加盟

澜归序
2026-02-16 07:13:42
20年四川14岁少年满脸纹身被父亲赶出家门,找不到工作,如今怎样

20年四川14岁少年满脸纹身被父亲赶出家门,找不到工作,如今怎样

小熊侃史
2025-12-25 11:15:02
韩国测试服:出生率全球倒数第一,底层人正在加速“灭绝”

韩国测试服:出生率全球倒数第一,底层人正在加速“灭绝”

独坐山巅前
2026-02-15 04:03:28
14岁小哥找了块无主地就宣布建国?搞出官网护照,每月3万美元国库收入!可惜还是流亡了...

14岁小哥找了块无主地就宣布建国?搞出官网护照,每月3万美元国库收入!可惜还是流亡了...

英国那些事儿
2025-08-20 23:23:28
2-1,25岁曼联旧将安东尼闪耀西甲:独造2球,贝蒂斯豪取3连胜

2-1,25岁曼联旧将安东尼闪耀西甲:独造2球,贝蒂斯豪取3连胜

侧身凌空斩
2026-02-16 05:55:41
不是迷信,今天除夕,谨记:1不洗,2要留,3不做,吃4样,过大年

不是迷信,今天除夕,谨记:1不洗,2要留,3不做,吃4样,过大年

星星妈育儿说
2026-02-16 04:06:34
小卡37分丢冠仍获4票:单节31分超神让鲍尔默疯狂 决赛4中0低迷

小卡37分丢冠仍获4票:单节31分超神让鲍尔默疯狂 决赛4中0低迷

醉卧浮生
2026-02-16 08:56:58
江苏突发烟花爆竹爆燃事故!致8死2灼伤,事故详情公布

江苏突发烟花爆竹爆燃事故!致8死2灼伤,事故详情公布

冷月侃娱乐
2026-02-16 10:08:10
台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

百态中的情感起伏
2026-02-16 01:27:29
袁某人是怎么发迹的?

袁某人是怎么发迹的?

斜杠历史
2024-04-14 00:00:03
现货黄金跌破5000美元关口

现货黄金跌破5000美元关口

界面新闻
2026-02-16 10:48:45
因场地过于泥泞,狼队对格林斯比的足总杯被吐槽如“诺曼底登陆”

因场地过于泥泞,狼队对格林斯比的足总杯被吐槽如“诺曼底登陆”

懂球帝
2026-02-16 00:51:06
你见过最土的土豪有多土?网友:你这明显是短剧看多了

你见过最土的土豪有多土?网友:你这明显是短剧看多了

带你感受人间冷暖
2026-02-11 11:21:06
2026-02-16 11:15:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
317文章数 6391关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw之父 承诺开源绝不动摇

头条要闻

男子在知名平台买二手苹果手表 看到了前机主许多照片

头条要闻

男子在知名平台买二手苹果手表 看到了前机主许多照片

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

艺术
旅游
家居
本地
公开课

艺术要闻

这21个字,能认出6个的都是高手,看看你能认出几个!

旅游要闻

全部免费!春节不妨去郑州这些地方逛逛

家居要闻

中古雅韵 乐韵伴日常

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版