中国AI独角兽之一,MiniMax发布了专为智能体和代码任务设计的模型M2,刷新开源SOTA。
![]()
价格仅有Claude Sonnet的8%,速度超越近两倍。
MiniMax最知名的就是它们家的海螺AI,时不时就刷新视频生成、语音生成新高度。存在感爆棚。
成立三年,MiniMax迅速发展,完成了多轮融资,在2023年6月就获得了超过2.5亿美元的投资。
在M2之前,MiniMax已经推出了MiniMax-M1系列模型。
MiniMax-M1上线表现优异,超越了DeepSeek-R1和Qwen3-235B等其他强大的开放权重模型。
这些前期工作为M2的开发奠定了坚实的技术基础。
MiniMax的发展战略始终围绕普惠智能这一核心理念。
这种理念引导着MiniMax在模型设计上的选择,也决定了M2的产品定位。
模型只为解决真实世界的问题
随着AI技术的发展,简单的问答式对话助手正在向能够独立完成复杂任务的Agent演进。
MiniMax在实践中发现,现有的AI模型难以完全满足Agent的需求,主要挑战在于性能、价格和推理速度之间的平衡——这几乎是一个不可能三角。
海外顶级模型虽然性能优秀,但价格昂贵且相对较慢。
国内模型价格较低,但在性能和速度上存在差距。
这种状况导致现有的Agent产品往往价格高昂或速度缓慢。例如,许多Agent订阅服务每月需要数十甚至数百美元,完成单个任务常常需要数小时。
Mini-Max团队在公司快速发展的过程中,构建了多种Agent来应对挑战。
这些Agent开始完成越来越复杂的任务,从分析在线数据、研究技术问题,到日常编程、处理用户反馈,甚至筛选人力资源简历。
它们与团队一起工作,推动公司发展,构建了一个从开发AGI到与AGI共同进化的AI原生组织。
MiniMax M2采用了混合专家(MoE)架构,总参数量达到2300亿,但每次推理只激活约100亿参数。
这种设计使得模型在保持强大性能的同时,大幅降低了计算成本和推理延迟。通过激活参数的高效设计,MiniMax实现了智能、速度和成本的最佳平衡。
M2的核心设计理念是为了满足人们的需求,团队要求首先能够自己使用它。
为此,MiniMax的开发者,包括业务和后端团队的成员,与算法工程师一起,投入了大量精力构建环境和评估体系,并越来越多地将其集成到日常工作中。
在掌握这些复杂场景后,MiniMax发现将积累的方法迁移到传统大模型任务(如知识和数学)上,可以自然地获得优异结果。
M2具备三个对Agent至关重要的关键能力:编程、工具使用和深度搜索。
![]()
在工具使用和深度搜索方面的能力非常接近海外顶级模型,在编程方面虽然略逊于顶级海外模型,但已经在中国市场处于领先地位。
在编程能力方面,M2专为端到端开发工作流而构建,在Claude Code、Cursor、Cline、Kilo Code和Droid等各种应用中表现出色。
在Agent性能方面,M2展示了出色的规划和稳定执行复杂长链工具调用任务的能力,能够协调调用Shell、浏览器、Python代码解释器和各种MCP工具。
M2在性能和成本上找到了平衡点
MiniMax M2在多个权威基准测试中表现优异。
根据Artificial Analysis的基准测试,该模型集成了10个测试任务,M2在全球排名前五。
![]()
在编程和Agent相关的基准测试中,M2刷新了开源模型SOTA。
![]()
MiniMax M2在定价策略上具有显著优势。
模型API价格设定为每百万输入令牌0.30美元,每百万输出令牌1.20美元。
这一价格是Claude 3.5 Sonnet的8%,同时提供近两倍的推理速度。
主流模型的推理速度通常在50-80 TPS之间。MiniMax M2提供的在线推理服务TPS(每秒token数)约为100,并且正在快速提升。
MiniMax从两个角度分析了这种价格和推理速度的组合。
一个是价格与性能的关系。合适的模型应该具有良好的性能且价格合理,在下图中应落在绿色区域。这里使用Artificial Analysis上10个测试集的平均分数来代表性能。
![]()
另一个是价格与推理速度的关系。部署模型时,通常存在权衡:较慢的推理速度可以带来较低的价格。理想的模型应该既便宜又快速。MiniMax比较了几种代表性模型。
![]()
任何人都可以部署和使用它
MiniMax M2提供了多种部署和使用方式,满足不同用户的需求。
模型权重已在Hugging Face上开源,开发者可以自行部署。
用户可以从Hugging Face仓库下载模型权重:
https://huggingface.co/MiniMaxAI/MiniMax-M2
MiniMax推荐使用vLLM或SGLang来部署M2。
vLLM是一个快速且易于使用的大语言模型推理和服务库,最初由加州大学伯克利分校Sky Computing Lab开发。它具有PagedAttention等高效内存管理功能,支持动态批处理和流式响应。
vLLM部署指南:
https://huggingface.co/MiniMaxAI/MiniMax-M2/blob/main/docs/vllm_deploy_guide.md
SGLang是一个为大型语言模型和视觉语言模型设计的高性能服务框架。它旨在提供低延迟和高吞吐量的服务,核心功能包括快速后端运行时,提供带有RadixAttention的前缀缓存、零开销CPU(中央处理器)调度器等。
SGLang部署指南:
https://huggingface.co/MiniMaxAI/MiniMax-M2/blob/main/docs/sglang_deploy_guide.md
为了获得最佳性能,MiniMax推荐使用以下推理参数:
temperature=1.0, top_p = 0.95, top_k = 20
工具调用是Agent功能的核心,MiniMax提供了详细的工具调用指南:
https://huggingface.co/MiniMaxAI/MiniMax-M2/blob/main/docs/tool_calling_guide.md
基于M2模型,MiniMax推出了Agent产品,在中国市场发布了新版,并升级了海外版本。
通用Agent产品MiniMax Agent现已全面开放使用,限时免费:
https://agent.minimax.io/
MiniMax Agent提供两种模式:闪电模式和专业模式。
闪电模式是一种高效、高速的Agent,适用于对话问答、轻量级搜索和简单编码任务等即时输出场景。它通过强大的Agent能力增强了对话产品的体验。
专业模式提供专业的Agent能力,在复杂、长时间运行的任务上实现最佳性能。它擅长深度研究、全栈开发、创建PPT/报告、Web开发等任务。
MiniMax-M2 API已在MiniMax开放平台上提供,也限时免费:
https://platform.minimax.io/docs/api-reference/text-anthropic-api
对于开发者而言,M2提供了一个高性能、低成本的AI模型选择。特别是在Agent和代码生成任务中,M2的表现接近顶级模型,但成本仅为后者的零头。这使得个人开发者和小型企业也能够构建复杂的AI应用。
对于企业用户,M2提供了一个平衡性能、成本和速度的解决方案。企业可以用更低的成本部署AI Agent,提高业务效率。MiniMax内部已经使用这些Agent来处理各种复杂任务,从数据分析到人力资源筛选,证明了其在实际业务中的价值。
AI技术正在朝着更加普惠、实用的方向发展。
参考资料:
https://www.minimax.io/news/minimax-m2
https://artificialanalysis.ai/models
https://artificialanalysis.ai/methodology/intelligence-benchmarking
https://huggingface.co/MiniMaxAI/MiniMax-M2
https://github.com/MiniMax-AI/MiniMax-M2
https://www.modelscope.cn/organization/MiniMax
报告下载
大 佬观点分享
关于RPA、AI、企业数字化转型
(点击文字即可阅读)
| |
| | |
| | |
| | |
| |
行业知识交流分享,结识扩展人脉圈层
公众号后台回复【RPA】或者【流程挖掘】
可受邀加入相关的交流群
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.