网易首页 > 网易号 > 正文 申请入驻

全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

开源模型王座再次易主,依旧是国产模型!

不过之前霸榜的DeepSeek和Qwen来自杭州,现在变成上海的Minimax了。

在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得了开源模型第一,紧随Claude 4.5 Sonnet。



官方介绍,Minimax M2专为智能体和编程而生,编程能力和Agent表现出众。

而且经济高效,推理速度是Claude 3.5 Sonnet的两倍,API价格却只有8%。

Minimax表示,智能水平、速度和成本在过去被视为“不可能三角”,但随着M2的出世,这个三角被打破了。

目前,M2的完整模型权重已经开源,采用MIT协议,在线Agent平台和API也限时免费。



8%成本实现Claude级水平

Minmax M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅有10B。

网友表示10B的激活参数运行起来会非常快,如果配上Cerebras或者Groq这样的推理加速平台,有望跑到每秒上千Token。



另一个特色是采用了交错的思维格式,使得模型能够规划和验证跨多个对话的操作步骤,这对于Agent推理至关重要。

如开头介绍,Minimax官方将M2定义为一个专为智能体和编程而生的模型。

它专为端到端开发工作流程而构建,而且表现出对复杂、长链工具调用任务的出色规划和稳定执行能力,支持Shell、浏览器、Python代码解释器和各种MCP工具的调用。

在Agent最关键的三个能力——编程能力、工具使用能力和深度搜索能力上,M2在工具使用和深度搜索方面上都不逊于海外顶尖模型,编程能力也在国内名列前茅。



综合表现上,M2在Artificial Analysis的测试中,获得了总排名第五、开源第一的成绩。

该测试使用了10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等。



而M2的定价是0.3美元/2.1人民币每百万输入Token,1.2美元/8.4人民币每百万输出Token,只要Claude 3.5 Sonnet的8%。

以Artificial Analysis的成绩为基准,Minimax绘制了一张图来比较各大模型性价比(横轴越向右成本越低)。



在线推理服务的速度则可达每秒100Token,Minimax也画了一张图体现以速度衡量的性价比。



同时,Minimax团队还针对智能体、全站开发和Terminal Use三项任务对M2和其他模型进行了一对一比拼。

结果M2相比于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2均有极高的Win+Tie比例,同时成本非常低廉。



为了更直观地体现M2的Agent能力,Minimax已经把M2部署到了Agent平台,限时免费使用,按官方说法,免费期直到服务器扛不住为止。



同时在该平台上,也展示了许多Minimax Agent的现成作品。

Minimax Agent:能写程序,还会做PPT

利用Minimax的Agent平台,可以写出各式各样的网页或在线应用。



当然像很多经典游戏,也都能用它在Web环境当中复刻并直接部署。



甚至有网友创作的在线五子棋游戏平台,不仅有游戏本体,还引入了在线对战、观战、在线聊天,甚至是用户注册等功能。



除了编程,也可以生成各种主题的调研报告或者PPT。



在X上,也有网友展示了自己用M2 Agent编程的实战成果,仅通过三轮反馈就完成了一个足球小游戏的制作。



可以说效果非常不错。

模型表现之外,M2使用的注意力机制,也引发了网友们的讨论。

混合注意力vs全注意力

有网友从vllm的代码当中看出了M2的更多技术细节,表示M2采用类似GPT-OSS的全注意力和滑动窗口注意力(SWA)的混合机制,



不过Minimax NLP负责人指正,表示一开始确实想在预训练阶段引入SWA,但发现会造成性能损失,所以最后使用的是全注意力。



Falcon团队的技术人员看了之后表示,他们在训练模型的时候也发现了同样的现象,SWA混合注意力会降低模型性能,这和一些论文的研究不符。



在部分论文和实践中,SWA在提升效率的同时可以保持性能,如Mistral和谷歌Gemma模型的相关研究均支持此观点。

但Minimax的实际测试显示其在长程依赖任务上存在局限。



同时,M2也没有采用Lightning Attention(线性注意力的一种变体),原因也是因为性能损失。



同样与之相反,有论文主张线性注意力在长序列任务中更具优势。

到底哪种路线更优,可能还是要看具体需求,但至少从M2的表现上看,Minimax选择的的确是一种适合自己的方式。

Agent平台:https://agent.minimax.io
Hugging Face:https://huggingface.co/MiniMaxAI/MiniMax-M2
[1]https://www.minimax.io/news/minimax-m2
[2]https://venturebeat.com/ai/minimax-m2-is-the-new-king-of-open-source-llms-especially-for-agentic-tool
[3]https://x.com/jessi_cata/status/1982936050256490968
[4]https://x.com/JingweiZuo/status/1982822979030692356

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着皇马3-0完胜曼城,切尔西2-5,欧冠首回合结束!8强基本确定

随着皇马3-0完胜曼城,切尔西2-5,欧冠首回合结束!8强基本确定

小火箭爱体育
2026-03-12 09:10:03
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
血杀:七百年的宗室灭绝史

血杀:七百年的宗室灭绝史

无心镜
2026-03-12 08:08:42
84年,娘留算命先生吃饭,临走他指着小妹道:她的福你享

84年,娘留算命先生吃饭,临走他指着小妹道:她的福你享

人间百态大全
2026-03-12 06:30:07
扬州一女子车祸被打,样貌曝光,人无赖嘴也恶毒,网友:打的好

扬州一女子车祸被打,样貌曝光,人无赖嘴也恶毒,网友:打的好

奇思妙想草叶君
2026-03-11 18:56:30
中纪委已划红线,基层干部这6种行为碰不得,2026谁碰谁倒霉!

中纪委已划红线,基层干部这6种行为碰不得,2026谁碰谁倒霉!

细说职场
2026-03-11 22:04:13
深度 | 美以狂炸12天未能“倒伊”,伊朗反击超预期,战局最高潮已过?

深度 | 美以狂炸12天未能“倒伊”,伊朗反击超预期,战局最高潮已过?

上观新闻
2026-03-11 21:16:09
男性一旦确诊,70%以上已是中晚期!

男性一旦确诊,70%以上已是中晚期!

番禺台
2026-03-12 10:06:52
2000辆主战坦克全面升级:国产GL-6防御系统白菜化,96A迎来质变

2000辆主战坦克全面升级:国产GL-6防御系统白菜化,96A迎来质变

军武次位面
2026-03-12 13:15:44
3月又一款新机官宣:3月12日,正式发布上市!

3月又一款新机官宣:3月12日,正式发布上市!

科技堡垒
2026-03-10 09:51:18
真战神!小卡31分钟爆砍45分,快船全场轰153分,25分大胜森林狼

真战神!小卡31分钟爆砍45分,快船全场轰153分,25分大胜森林狼

老梁体育漫谈
2026-03-12 13:02:20
特朗普称必要时美军会护航霍尔木兹海峡 美军:护不了 日本计划释放国家石油储备

特朗普称必要时美军会护航霍尔木兹海峡 美军:护不了 日本计划释放国家石油储备

每日经济新闻
2026-03-11 21:55:53
向佐参加活动突然飞踢,差点踢到主持人的头;主持人回应“确实有点被吓到”;向佐道歉:后来回看反思了,那一脚吓到你很对不起

向佐参加活动突然飞踢,差点踢到主持人的头;主持人回应“确实有点被吓到”;向佐道歉:后来回看反思了,那一脚吓到你很对不起

大风新闻
2026-03-11 17:13:02
普京透露一个“秘密”

普京透露一个“秘密”

新民周刊
2026-03-12 08:10:52
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

来科点谱
2026-02-16 07:12:06
打脸全网!造谣账号炮制中俄专属海峡闹剧,无数人被耍得团团转

打脸全网!造谣账号炮制中俄专属海峡闹剧,无数人被耍得团团转

老马拉车莫少装
2026-03-07 21:37:47
国家医保局第7号令:4月1日全国统一,看病报销新规矩

国家医保局第7号令:4月1日全国统一,看病报销新规矩

李博世财经
2026-03-11 14:19:11
特朗普人还没到,先改访华规格,中方已接到通知,美国要弯道超车

特朗普人还没到,先改访华规格,中方已接到通知,美国要弯道超车

面包夹知识
2026-03-11 20:16:29
“一小时午睡”错了?医生忠告:过了70岁,午睡要尽量做到这3点

“一小时午睡”错了?医生忠告:过了70岁,午睡要尽量做到这3点

读懂世界历史
2026-03-04 10:12:47
2025年十大玉女系女神盘点:清纯天花板,谁才是你心中的白月光?

2025年十大玉女系女神盘点:清纯天花板,谁才是你心中的白月光?

碧波万览
2026-03-11 18:15:35
2026-03-12 14:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12270文章数 176413关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

18辆越野车擅闯罗布泊无人区 警方搜索4小时成功拦截

头条要闻

18辆越野车擅闯罗布泊无人区 警方搜索4小时成功拦截

体育要闻

要脸,还是要83分纪录?

娱乐要闻

李湘瘦身惊艳亮相肖邦之夜 携女儿出席

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

健康
数码
旅游
家居
军事航空

转头就晕的耳石症,能开车上班吗?

数码要闻

华清同创N70系列笔记本亮相,搭载飞腾腾锐D3000M处理器

旅游要闻

【文旅中国快报03.12】2026广东省森林文化周春季系列活动启动;安徽“古道行”文化探访之旅正式启程

家居要闻

触感本真 家的迹象

军事要闻

特朗普自行宣布对伊朗战争胜利

无障碍浏览 进入关怀版