![]()
新智元报道
编辑:Aeneas 艾伦
【新智元导读】开源模型新王 MiniMax M2.5 震撼降临:M2.5 编码性能逼平 Claude Opus 4.6,价格却只有 1/20;1 美金 / 小时,这种尺寸和性能的模型,才能在算力短缺的时代不降智不卡顿,持续提供最好体验,成为最终王者!
国产 AI 春节档,彻底炸了。
就在昨夜,MiniMax M2.5 重磅登场。
就在今天,MiniMax 已经暴涨 16.2 %,总市值一度达到 2108 亿港元,涨至历史新高。
![]()
在关键的编码基准测试中,M2.5 几乎已完全缩小与 Claude Opus 4.6 这类全球最顶尖大模型的差距!
![]()
发布后,全球开发者社区再次震撼了。
![]()
它不光性能媲美 Opus 4.6,还是第一个超越 Claude Sonnet 的开源模型。
![]()
连 OpenClaw 之父,都赶来盛赞 MiniMax。
![]()
大家纷纷惊呼:MiniMax M2.5 性能跟 Claude Opus 4.6 几乎相当,价格却砍到了后者的 1/20,这个性价比,绝了!
![]()
M2.5,彻底打穿了模型的价格底线,只花 1 美元,就能以 100 TPS (Tokens Per Second) 运行 1 小时。
MiniMax M2.5 一击毙命,前端开发者的时代结束了!
![]()
开放权重模型和专有模型之间的差距,已经彻底消失!MiniMax M2.5 的性能已经和 SOTA 不相上下。
![]()
为什么 M2.5 这么强?
首先,它的智能体原生架构,是专为智能体生态深度优化。
另外,它还有极致的推理效率,得益于对思考链路的深度优化,它能支持 100 TPS 的超高吞吐量,推理速度达到 Claude Opus 4.6 的三倍。
可以说,直接刷新了全行业最优的性价比,打造了同性能级别模型中的价格标杆!

有人对比了 Claude Opus 4.6 和 MiniMax M2.5 的办公速度,惊呼 M2.5 性能太强
不仅如此,在Excel、深度搜索、长文档摘要核心生产力场景,都处于SOTA地位。
另外,因为激活参数量仅为 10B,它作为第一梯队中参数最小的旗舰模型,在私有化部署、显存占用及推理能效比上具有压倒性优势。
![]()
因为 M2.5 太火,为避免限速卡顿体验,MiniMax 团队火速扩容!
![]()
实测:代码、办公、深度搜索
全方位出色
我们实测后可以发现,MiniMax M2.5 在各类开发者工具中适配度都很高,在 Claude Code、Trae、VS Code 等 IDE 中都可简单上手。
在代码生成、调试协助、多轮上下文理解上,都能与现有开发流程轻松融合。
我们先来直接问一个最近很火的「洗车」难题,已经难倒了一众国内外旗舰模型。鉴于这个问题太火了,为了避免模型已经被特意教会了这个逻辑陷阱的标准答案,我们采取了一个原创的变种问题:
我要去遛马,大草原离我家蒙古包只有 5 米,我应该自己走着去大草原还是骑马去?
据称逻辑能力最强的新旗舰模型 Claude Opus 4.6,在这个新问题上还是折戟了。
![]()
而 MiniMax M2.5 则仅用 3 秒钟就给出了正确答案,同时思路也是正确的,还令人忍俊不禁。
![]()
洗车测试,通过✅
在将 MiniMax M2.5 API 接入 Claude Code 后,回答是相似的,同样顺利通过了「洗车测试」。
![]()
代码实测
在 Claude Code 中,MiniMax M2.5 对代码结构和工程上下文的理解非常稳定,能够准确把握函数依赖、模块边界以及已有代码风格,生成的补全和修改建议可直接落地,几乎不需要额外返工。
对于复杂逻辑的拆解和重构场景,模型给出的思路也更加工程化,贴近真实开发者的使用习惯。
先用一道 LeetCode Hard 算法题热热手,看看最基本的编程能力咋样。
给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2 。请你找出并返回这两个正序数组的 中位数 。
算法的时间复杂度应该为 O(log (m+n)) 。
直接将题面输入给MiniMax M2.5。
![]()
仅仅 20 秒,MiniMax M2.5 就直接给出了答案。
![]()
MiniMax M2.5 手拿把掐,20 秒直接一发 AC,给出了时间复杂度最低的算法,并给出了解题思路,完全可以胜任编程学习路上的热心学长助教!
![]()
而 Claude Opus 4.6 尽管也在极短时间内就给出了答案,但算法的时间复杂度和空间复杂度均要高于 MiniMax M2.5 给出的算法。
![]()
![]()
在 Trae 等 IDE 中,MiniMax M2.5 的表现同样令人惊喜。
无论是需求理解、功能拆解,还是快速生成可运行的代码原型,整体响应都非常流畅,配合工具链使用时几乎没有明显「割裂感」。
这也意味着,开发者无需为适配模型额外调整工作方式,就可以直接将其纳入现有生产流程。
比如,试着让它生成一个高端预订网站,展示一家豪华太空旅游机构,要求展示一段从平流层缓慢移动的高清地球曲率视频。
![]()
接下来,下面展示 MiniMax M2.5 和 Claude Opus 4.6 在同一提示词下生成的网站,你能猜出来分别是谁做的吗?


在 3D 开发上,MiniMax M2.5 也很令人惊艳,它在仅用一个 HTML 文件的前提下,就实现了完整的 3D 卡丁车竞速体验,本身就非常高级,结构清晰,逻辑完整。
视觉上,它有那种经典街机赛车的味道——赛道比例舒服、镜头跟随自然、漂移时的动态反馈很带感,冲刺的节奏爽快。
整体风格虽然简洁,但配色和场景层次感做得很好。作为浏览器原生3DF游戏来说,完成度和表现力都相当出色。

注意,如果只跑常规算法题,是测不出模型的工具级泛化能力的。为此,我们专门是设计了几道不像刷题、但极像真实开发的代码测试题。
比如下面这道题中,我们给了 M2.5 一段已有代码,然后连续给了它三个任务——
![]()
在这个任务中,需要对同一段代码连续进行代码审查、代码重构和架构设计,如果是弱泛化的模型,往往就往后的问题上就会跑偏。
可以看到,M2.5 读完代码后,敏锐地一眼看出这是 Java 的 Counter 类问题——count++ 操作不是原子的。
同时它也分析出,Python parse_logs 函数缺少错误处理、没有类型提示、没有验证输入等。
接着,它重构了代码,还给出了日志规模扩大100倍的系统优化思路。
![]()
在我们的要求下,它实现了完整的优化代码。

总的来说,整体使用下来的感受是:MiniMax M2.5 不只是「能写代码」,而是真正适合嵌入开发者工具体系中的模型。
这种对不同 IDE、代码助手和开发平台的良好适配能力,使其在真实开发场景中的实用价值进一步放大,也为其在 To B 和开发者生态中的落地提供了扎实基础。
而且在使用中,它表现出了极强的泛化能力,在不同任务类型之间切换时,并不会明显依赖场景约束,而是快速理解任务本身的核心目标。
在复杂问题拆解、多步骤推理场景中表现尤为突出,这种泛化能力,直接提升了模型在真实生产环境中的价值。
而且,10B 的小参数加上旗舰级的能力,让每个人都能在本地跑一个旗舰级分析师。
办公场景丝滑拿捏
除了编程能力比肩 Claude Opus 4.6 之外,MiniMax M2.5 在数字化办公场景下,也有极强的应用能力。
比如,我们给它一份某公司按地区划分的销售额数据的表格,这个 Excel 可是个高难度版,存在不少隐藏坑和脏数据,比如日期格式不统一,销售数量缺失或为负数,单价缺失,退货订单未自动清零等等。
我们把这张 Excel 表格直接丢给模型,请它完成数据清洗,进行跨表关联,还要进行一系列分析汇总。
![]()
可以看到,M2.5 按照要求依次完成了数据清洗,解决了日期不一致、重复订单、销售数据异常、单价缺失等问题,然后完成了跨表关联。
然后,它按要求计算出了销售额和毛利,按地区、产品类别进行了汇总,给出毛利率最低的产品类别,还判断出这个 Excel 表格不适合直接用于管理层汇报。

可以看到,这次测评中,模型完整、准确地完成了提示词给出的任务,表现出扎实且系统化的 Excel 办公能力。
更重要的是,它的分析结果具备明确的业务解释与风险意识,说明 M2.5 对 Excel 的理解并非停留在函数记忆层面,而是真正具备贴近实际办公与数据分析场景的综合能力。
能清洗脏数据后给出合理建议,就意味着 AI 不再仅仅是工具,也开始成为负责任的数字化劳动力。
接下来是第二个Excel测试任务:
请它列出 2019 年至 2024 年(包括 2024 年)福布斯全球亿万富翁排名中每年排名前十的个人,需要用 Excel 表格呈现。
![]()
最终,M2.5 准确完成了这个任务,给出了如下这个 Excel。
![]()
要知道,很多人「会用 Excel」,但真正精通函数嵌套、VBA、Power Query、复杂财务模型的人比例并不高。
如果模型可以完成高阶的 Excel 任务,就相当于给每个人配备了一个「高级数据分析师」。
这将大大降低专业门槛,实现生产力的跃升,甚至实现软件生态的升级。
深度研究
接下来,我们测试 MiniMax M2.5 的深度研究能力。
我们要求它对最近大火的 OpenClaw 进行一次深度研究,要解释清楚核心概念、技术细节,并且从前沿性、工程可行性、生态影响等多个角度进行评估。
在提示词中我们特别强调,不允许编造事实,信息不足时要敢于承认。
![]()
要知道,这样一个提示词,会强制模型暴露出不确定性处理能力、推理链条和技术判断,从而真正区分「会查资料的模型」和「会研究的模型」。
首先,模型进行了一番思考。
![]()
然后,它生成一份内容详实、逻辑清晰的调查报告,让人对OpenClaw的各方面情况一目了然。

可以看出,M2.5 在做深度研究时,不仅仅给出的是一种查资料型回答(信息密集,却缺乏逻辑推进),而是体现出了一种研究型回答的特征——有问题意识、有分析路径、有逻辑递进。
很明显,它建立了一个概念图谱,进行结构化拆解后,构建了一个因果推理链。这种因果推理能力和批判性思考能力,都体现了这是一个真正「会研究」的模型。
可以预见,M2.5 如此强的深度研究能力,将让每个人的研究效率指数级放大,改变整个知识生产节奏。
长文本研究
长文本处理能力已成为衡量 LLM 综合实力的关键维度之一。
从早期的 4K、8K 上下文窗口,到如今动辄百万 Token 级别的上下文支持,模型在「能装多少」这件事上突飞猛进——但「装得下」和「用得好」之间,依然存在巨大鸿沟。
我们选择了让 MiniMax M2.5 解读著名高难度数学分析教材《数学分析原理》(Rudin 著,全书约 300 页)来测试它的长文本研究能力。
教材精读与直觉化改写是一类对 LLM 综合能力要求极高的任务:模型需要读懂专业内容的数学本质,再用通俗语言重新表达——既不能丢失精度,也不能堆砌术语。
我们要求模型为每章提炼核心概念、给出直觉类比、指出常见误区,输出风格要求「像学长在咖啡馆讲课」。
提示词:
你是一位擅长用直觉和类比来解释数学的老师。我会给你一本数学分析教材(《数学分析原理》(Rudin 著))。
请你完成以下任务:
1. 找出每一章最核心的 1-3 个概念(不是罗列所有知识点,而是找到「如果只能记住一件事,应该记住什么」的那个东西)。
2. 用「说人话」的方式解释每个核心概念:
- 先用一句大白话说清楚它到底在干什么、为什么要有它
- 再用一个日常生活的类比或画面感的例子帮我建立直觉
- 最后用一两句话点明它和前后章节的关系(它从哪里来,往哪里去)
3. 指出一个最常见的误解或容易踩的坑。
要求:
假设读者是刚接触数学分析的大一学生,有高中数学基础;
不要堆砌定义和定理,重点是「为什么」和「直觉是什么」;
如果涉及公式,先解释公式在"说什么故事",再写公式本身;
语言风格:像一个很会讲课的学长在咖啡馆里给你讲明白,而不是念教科书。
完整输出结果如下:

MiniMax M2.5 展现了扎实的长文档理解能力和不错的科普写作水平。
其一,数学内容的准确性与核心概念的提炼能力:每章核心概念的选取精准地抓住了 Rudin 全书主线,且能指出「调和级数发散」「偏导数存在不等于可微」等教学中反复强调的经典陷阱,说明模型确实理解了内容而非简单摘抄。
其二,「说人话」的能力:「阅兵式」类比一致收敛、「按面额分类数钱」类比勒贝格积分等堪称教科书级的好类比,既形象又未丢失数学要义,能切实帮助初学者跨越从直觉到严格定义的鸿沟。
其三,结构完整性与风格一致性:严格覆盖了提示词要求的五个模块且语言风格始终保持「学长讲课」的轻松感,末尾的全书逻辑链条总结图更是有效地帮初学者建立了全局观。
当然,我们经过仔细检查也发现其中有极少数小错误,如:
f(x)=1/x 在 (0,1] 上没有原函数.模型仍存在进步空间。尽管如此,瑕不掩瑜。
它成功地从一本以严谨著称的数学教材中提炼出了主线脉络,并用较为准确的类比传达了核心直觉。
对于「帮数学系大一新生建立全书的知识地图进而辅助学习」这一目标,MiniMax M2.5 现在完全能够胜任。
技术突破关键:Agent RL
为什么 MiniMax M2.5 会这么强?这是因为团队围绕着 Agent RL(智能体强化学习),构建了一整套完整的技术体系。
首先,在框架层面,团队提出了原生 Agent RL 架构。
Forge 作为一个原生 Agent RL 框架,在设计上通过引入中间层完全解耦了底层训推引擎与 Agent,支持任意 Agent 的接入,从而优化了模型在 Agent 脚手架和工具上的泛化。此外,还实现了约 40 倍的训练加速。
![]()
在算法层面,团队沿用了 MiniMax M1 提出的 CISPO 算法,以保障 MoE 模型在大规模强化学习训练中的稳定性。
针对 Agent 场景长上下文带来的信用分配难题,团队引入了过程奖励机制对完成质量进行全链路监控。此外,为深度对齐用户体验,团队直接估计任务在真实环境下的耗时并作为奖励函数,在模型效果与响应速度之间实现了更好的平衡。
![]()
整体来看,这套 Agent RL 技术体系不仅解决了长上下文强化学习中的稳定性与效率问题,更在架构、算法与工程层面形成闭环。
正是在这些技术基础上,M2.5 实现了以上的惊艳表现。
当 M2.5 在各项核心任务上都能全面对齐 Claude Opus 4.6,这已经不再是一次简单的「模型升级」,而是一个行业信号——顶级能力正在去稀缺化。
当能力趋同,真正拉开差距的,将是系统整合能力、产品化能力,以及对真实场景的理解深度。
对于行业来说,这是一个能力平权的时代;
对于企业来说,这是一个重新定义效率边界的窗口;
对于开发者来说,这是一次前所未有的机会期。
参考资料:
MiniMax M2.5 发布:1美金/小时,真实世界工作王者
(MiniMax Agent 体验 M2.5)https://agent.minimaxi.com/
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.