网易首页 > 网易号 > 正文 申请入驻

1美元时薪?这才是打工人的「梦中情模」

0
分享至

来源:市场资讯

(来源:机器之心Pro)


编辑|张倩、Panda

Anthropic 的 Opus 4.6 刚发布,智商确实高到让人头皮发麻,但看着那个价格表,我的钱包也开始发麻了。

这就很尴尬了。Opus 4.6 的出现,直接在开发者圈子里制造了一场「智力焦虑」:模型好用是真好用,贵也是真贵。原版价格纹丝不动就算了,那个号称「极速版」的家伙,每百万输出 Token 的成本居然从 25 美元直接飙到了 150 美元。

整整 6 倍的涨幅!看着 Token 计费表像风一样自由地狂奔,本来想用 AI 释放生产力的我,现在按回车键之前都得先在心里过一遍账单。这哪里是请了个助手,简直是供了个「吞金兽」。

这种「生产力税」的存在,逼得打工人不得不进入一种尴尬的模式:一边渴望顶级智力带来的效率,一边在按回车键时反复权衡账单。难道高智力和高性价比,真的像鱼和熊掌一样不可兼得?难道我们这些普通打工人,就不配拥有「智力自由」?

就在大家捂着钱包叹气的时候,MiniMax 反手甩出了一个王炸:MiniMax M2.5

这个模型相当能打,无论是 coding 还是 agent 能力,都能与 Claude Opus 4.6 掰掰手腕,甚至在某些维度上掰赢了。

数据不会说谎:M2.5 在多语言任务 Multi-SWE-Bench 上拿下了行业第一;而在 SWE-Bench Verified 评测集上,基于 Droid 和 OpenCode 的实战测试中,它的通过率(79.7% / 76.1%)更是双双反超了 Opus 4.6。


在 BrowseComp、Wide Search 等搜索和工具调用榜单的评测中,M2.5 也达到了行业顶尖的水平。


更具冲击力的是它在 MiniMax 内部的真实表现:在 MiniMax 内部业务场景中,整体任务的 30% 由 M2.5 自主完成;而在编程场景中,M2.5 生成的代码已占新提交代码的 80%。

它不仅 Coding 和 Agent 能力硬刚 Claude Opus 4.6 不落下风,在专业的办公领域更是「偷偷补过课」。为了让模型真正懂行,MiniMax 拉来了金融、法律、社会科学等领域的资深从业者当「教官」,把行业隐性知识灌进模型。

在内部严苛的 Cowork Agent 评测(GDPval-MM) 中,M2.5 在 Word 排版、Excel 金融建模等高阶场景下,对主流模型拿下了 59.0% 的平均胜率。这意味着它交付的不再是简单的草稿,而是具备专业水准的「半成品」。


但最离谱的是,这样一个全能选手,居然参数量只有 10B,是第一梯队中参数规模最小的旗舰模型,不需要太昂贵的设备就能私有化部署。

好家伙,这哪是辅助驾驶啊,这分明是抢方向盘来了!

MiniMax M2.5 表现卓越,也为这家刚上市一个多月的公司的股价带来了一波强劲上涨:


1 美元时薪的顶级打工人

这么小的体积,再加上「思考」链路的深度优化,M2.5 的吞吐量可以达到 100 TPS,推理速度可以达到 Opus 4.6 的 2 倍。在 SWE-Bench Verified 测试中,M2.5 的端到端任务运行耗时从平均 31.3 分钟减少到了 22.8 分钟,这一速度与 Claude Opus 4.6 基本持平。

在需要即时反馈的场景里,这种「跟手」的感觉简直太爽了。更爽的是,你完全不需要有「每按一次回车就少喝一杯奶茶」的心理负担。来看看这个颠覆性的定价:

1 美元就能雇佣一个顶级专家给你干一小时苦力!换算一下,1 万美金可以让 4 个 Agent 连续工作一年

这就很有意思了。以前我们不敢跑复杂 Agent,是因为怕跑着跑着就破产了;现在有了 M2.5,我们终于实现了 Agent 自由;让 AI 24 小时持续上工,也不再是有余粮的地主家才能有的奢侈。

目前,M2.5 的 Vibe Coding 支持 PC 端、App 端、RN/Flutter 跨端甚至带数据库的前后端全栈开发,用起来非常方便,普通打工人可以随时上手。

为了验证这个「10B 战神」是不是真的能在性能比肩旗舰的同时,把生产力成本打下来,我们准备了几个真实的使用 Case。下面直接进入实测。

一手实测

MiniMax M2.5 真能成为打工人的得力助手吗?

作为苦逼的媒体人,我们最怕的就是在那堆长达几小时的圆桌论坛速记里「淘金」。大佬们聊嗨了往往也是车轱辘话来回说,我们要想提炼点干货,眼睛都得看瞎。

这种脏活累活,我是不敢交给 Opus 的,太贵。但现在既然 M2.5 这么便宜,那就不客气了。

我们决定搞个破坏性测试:直接把一堆巨大的 HTML 格式的速记文件「喂」给它,让它不仅要提炼观点,还要分析趋势、找分歧,甚至还要做横向对比。

MiniMax M2.5 接到任务后,丝毫没有「消化不良」。面对超大文件,它甚至自作主张地启动了多个 Agent 并行开工(颇有一种「兄弟们一起上」的既视感):


15 分钟后,几十万 Token 跑完,一份高质量报告出炉:


搞定了阅读,再来试试写代码。

作为小编,我们每天都要跟排版做斗争。虽然我们的排版规则不复杂(正文 15px、特定颜色加粗、版权信息居中……),但每次手动调也很烦。

既然官方宣称 M2.5 具备「架构师思维」,能原生 Spec 行为。也就是说,不同于普通模型上来就盲目堆代码,M2.5 在动手前会先像资深架构师一样做规划,主动拆解功能、结构和 UI。无论是 Rust、C++ 还是 Python,从 0-1 的系统设计到最后的 Code Review,它都能像老手一样 Hold 住全场。那我们就让它手搓一个「微信公众号 Markdown 编辑器」。

需求很简单:复制进来 →自动格式化 → 支持微调 → 一键复制带样式。

第一步,为了防止它「听不懂人话」,我们先让它把我的需求翻译成更专业的提示词。


可以看到,MiniMax M2.5 大体上正确地理解了我们的需求,但在版权信息处出现了一点幻觉,轻松修改后,我们只需一句提示词就能实现它:「读取 微信公众号 Markdown 编辑器开发提示词.md 文件并实现它」。


生成时长 2 分半,接杯水的功夫,M2.5 轻轻松松就实现了这个实用小工具。找篇文章试试效果:


仔细检查了一下,我们给出的需求都得到了满足。

作为一家专业的 AI 媒体,日常收集 AI 社区名人观点的素材也是工作的一部分,但问题是有时候只顾着收集,并没有真正将这些素材用起来,它们都沉睡在我们的资料库中。借助 MiniMax M2.5 + Claude Code,我们可以轻松地挖掘我们的知识仓库,真正利用起尘封的知识。

首先,打开我们的选题库,发现早期的文件和最近的文件命名格式不统一,而 M2.5 可以轻松解决这个问题,就一句话的事儿:


接下来,M2.5 还可以为我们将这些 docx 文档转换成兼容 Obsidian 的 Markdown 格式。这里我们可以引入 Obsidian 创始人 Steph Ango 亲自开源的 obsidian-skills,给 M2.5 一个参考手册。我们的提示词也很简单:


接下来我们可以将转换好的文件放入一个 Obsidian 仓库来进行管理,而 MiniMax M2.5 也可以跟随我们一起。比如这里,我们可以让 M2.5 提取选题中所有与 Andrej Karpathy 和吴恩达相关的选题:


可以看到,M2.5 找到了 5 个与 Andrej Karpathy 相关的选题,找到了 14 个与吴恩达相关的选题,并对选题进行了总结同时还标记了出处,而得益于 M2.5 10B 的轻量级参数规模,整个过程耗时不到 1 分钟。

最后,我们还让 M2.5 基于我们的选题文档总结了近几个月 AI 领域的发展趋势,大家可以看看总结得是否正确:


M2.5 背后

108 天极速进化的秘密

在前面的测评中,M2.5 已经表现出明显不同于普通模型的智能体能力。但比单次测评成绩更令人细思极恐的,是 MiniMax 展现出的「进化速度」。

在过去短短 108 天里,MiniMax 陆续更新了 M2、M2.1 和 M2.5 三个版本!


这让 M2 系列模型在编程领域最具代表性的 SWE-Bench Verified 榜单上,相比 Claude、GPT 和 Gemini 等顶级模型系列,保持了行业最快的进步速度 —— 这从上图折线的斜率也能看出。

这种超越预期的迭代效率不是凭空出现的,也不是单纯靠堆算力堆出来的。要理解它为什么能跑得这么快,就得看一眼它背后的训练体系:原生 Agent RL 框架 Forge


智能体训练的第一道坎,在于「语言模型」和「任务执行者」这两个身份之间的鸿沟。大模型原生是自回归 Token 预测器,它可以模拟很多形式,但并不是为持续交互和工具调用而生。为了解决这一问题,MiniMax 引入了 Forge 原生 Agent RL 框架。

Forge 在设计上通过引入中间层完全解耦了底层训推引擎与 Agent,把「模型只负责处理 Token」这件事做到了极致。模型训练和推理看到的都是同一种 Token 形态,不去理解什么工具调用、环境状态这些复杂结构。而 Agent 那一侧则通过标准的 OpenAI 接口和模型通信,专心处理环境交互和上下文管理。

这种彻底解耦的好处是:模型能力不会被绑定在某一个具体 Agent 产品上,它可以接入不同的工具体系和脚手架,实现更强的泛化。

更大的难题是长链路下的信用分配(Credit Assignment)。任务执行几十步后才知道结果,模型很难回溯究竟是哪一步导致了失败。MiniMax M2.5 引入了过程奖励机制(Process Reward),对生成质量进行全链路监控,而不仅看最终成败。同时,为对齐真实用户体验,他们将任务完成耗时也纳入奖励函数。这套奖励设计让模型在智能度与响应速度之间实现了可量化的最优权衡。


这些算法创新要真正跑起来,还得过工程这一关。智能体数据天然有大量公共前缀,如果每条样本独立训练,同一段系统提示要反复计算数十遍。M2.5 将多条前缀相同的样本合并为一棵前缀树,通过树状合并训练样本策略,实现了约 40 倍的训练加速。

另一项优化是强化学习的调度策略:智能体任务耗时差异巨大,简单任务秒回,复杂任务需等待。MiniMax 优化了异步调度策略,平衡系统吞吐和样本的 off-policyness,最终在系统吞吐量与训练效率之间达成了平衡。

Intelligence with Everyone

回到开头 Claude Opus 4.6 的定价话题。极速版 Opus 4.6 高达 150 美元的输出价格足以说明,在真正的生产力环境中,值钱的不只是智力本身,速度等影响效率的因素如今也变得举足轻重。打工人真正需要的,是一个智力、速度等各方面都优秀的「六边形战士」。

然而,顶级智力的高昂溢价正在制造一场隐形的技术分层:预算决定了你的 AI 助理是「满血」还是「残血」,是极速还是降速。在这一背景下,MiniMax M2.5 凭借 10B 级的轻巧规模承载了同级别的旗舰智力,不仅是当前市场的性价比标杆,更是将高阶智能从「奢侈品」拉回到了「生产力工具」的范畴。

这更像是一场技术普惠,而非针对少数人的技术特权。此刻,MiniMax 所坚持的「服务普通人的 AI」「Intelligence with Everyone」具像化了。

如果把 M2.5 和 MiniMax 前段时间发布的桌面端 Agent 放在一起看,它的价值就更具像化了:一个是可以本地部署的超强大脑,一个是包含本地文件系统访问、浏览器控制、代码编辑器集成、后台常驻运行等完善功能的脚手架。二者强强联合,有望成为白领与程序员手中那个随时待命、不计成本的「主力机」。

这种顶级智力的全民普惠,才是整个社会生产力提升的最强动力。

文中视频链接:https://mp.weixin.qq.com/s/5zxoNnuxUfQk6dg4VsHFPw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
军委让张万年参加香港回归仪式,张万年:这不行

军委让张万年参加香港回归仪式,张万年:这不行

文史茶馆2020
2026-02-10 08:36:59
夫妻开车回安徽老家过年,带了一锅焖饭在路上吃,还把厕所也带上

夫妻开车回安徽老家过年,带了一锅焖饭在路上吃,还把厕所也带上

水晶的视界
2026-02-13 07:24:35
惊喜连连!18岁全红婵强势归队,4大好消息藏不住了

惊喜连连!18岁全红婵强势归队,4大好消息藏不住了

卿子书
2026-02-12 08:15:51
1987年总参某领导失言中国不需要航母,萧劲光:把刘华清找来问问

1987年总参某领导失言中国不需要航母,萧劲光:把刘华清找来问问

历史甄有趣
2026-02-07 11:50:11
归化选手的价值与争议!当年引进林孝埈刘氏兄弟,这笔学费值吗?

归化选手的价值与争议!当年引进林孝埈刘氏兄弟,这笔学费值吗?

全眼看体育
2026-02-13 17:08:48
西蒙斯真去钓鱼了,钓上一条1069亿的“大金枪”

西蒙斯真去钓鱼了,钓上一条1069亿的“大金枪”

体育大生意
2026-02-09 10:36:12
中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

百态人间
2026-01-03 16:42:15
菲律宾经济濒临崩溃,喊话中国希望伸出援手,我国回应大快人心

菲律宾经济濒临崩溃,喊话中国希望伸出援手,我国回应大快人心

东风寄的千愁
2026-02-13 06:54:35
74岁“肥猫”郑则仕回应加入周润发跑团:一年前膝盖痛,医生建议注射药物,师傅周润发让我跑步;此前暴瘦70斤,跑马引热议

74岁“肥猫”郑则仕回应加入周润发跑团:一年前膝盖痛,医生建议注射药物,师傅周润发让我跑步;此前暴瘦70斤,跑马引热议

极目新闻
2026-02-11 11:36:07
中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

不似少年游
2026-02-10 09:18:15
摩根大通紧急撤离!各国开始行动,越来越多的黄金运往新加坡保管

摩根大通紧急撤离!各国开始行动,越来越多的黄金运往新加坡保管

说故事的阿袭
2026-02-13 11:59:57
两个日本巨头,三菱和索尼,突然在中国市场砸下了重注

两个日本巨头,三菱和索尼,突然在中国市场砸下了重注

扶苏聊历史
2026-02-13 13:36:01
都说日本车没有未来时,突然爆发了,国产电车却在暴跌

都说日本车没有未来时,突然爆发了,国产电车却在暴跌

柏铭锐谈
2026-02-10 21:19:47
1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

文史明鉴
2026-01-20 15:11:14
用中国武器打败以色列!美国警告无效:埃及谈判歼20,1亿美金1架

用中国武器打败以色列!美国警告无效:埃及谈判歼20,1亿美金1架

书纪文谭
2026-02-09 20:17:55
四川多名干部履新副厅级领导职务

四川多名干部履新副厅级领导职务

金台资讯
2026-02-13 12:02:57
林孝埈全程垫底,网友叹英雄迟暮!赛后本人回应,2次提到了中国

林孝埈全程垫底,网友叹英雄迟暮!赛后本人回应,2次提到了中国

十点街球体育
2026-02-13 14:55:03
蔡磊离死亡越来越近:他愧对寡母和幼子,与妻子有3个催泪的约定

蔡磊离死亡越来越近:他愧对寡母和幼子,与妻子有3个催泪的约定

奇思妙想草叶君
2026-02-12 19:58:34
日本对中国渔船进行扣押,并逮捕船长,我国打脸高市早苗,不简单

日本对中国渔船进行扣押,并逮捕船长,我国打脸高市早苗,不简单

钦点历史
2026-02-13 13:01:32
中国与越南激烈交锋:中国借给越南的白龙尾岛,要不回来了?

中国与越南激烈交锋:中国借给越南的白龙尾岛,要不回来了?

流史岁月
2026-02-12 11:58:06
2026-02-13 21:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2216643文章数 5465关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

游戏
时尚
健康
房产
公开课

《柯娜》新作官宣!AI爆改“性感版”造型引争议

穿上这些鞋拥抱春天

转头就晕的耳石症,能开车上班吗?

房产要闻

三亚新机场,又传出新消息!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版