网易首页 > 网易号 > 正文 申请入驻

200亿AI独角兽反击,MiniMax首款推理模型赶超DeepSeeK

0
分享至

OpenAI、DeepSeeK点燃大模型推理浪潮后,越来越多的大模型企业开始涌入,阿里、百度、腾讯、字节、谷歌等先后发布推理模型。

不少企业都在想着如何憋大招,后发制人。这一次轮到估值超200亿元的独角兽MiniMax,发布首款推理模型M1,并称这是全球首款开源权重、大规模混合注意力推理模型。

根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。

在年初DeepSeek-R1推出后,MiniMax所在的“AI六小龙”阵营被打蒙了。如今,M1一定程度上让MiniMax在国内模型阵营梯队中踏上一个台阶。

“第一次感觉到大山不是不能翻越。”MiniMax创始人&CEO闫俊杰发文表示。

我们了解到,M1是MiniMax此次为期5天的发布周的第一弹,后续还将官宣智能体应用,并在海螺AI视频、音乐等模型和产品层面带来更多更新。

多项任务性能赶超Deepseek

输入长度业内最高

M1是MiniMax推出的首款推理模型,其基于MiniMax-Text-01模型开发,总参数达4560亿,每token激活参数459亿,采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention)。

MiniMax在业内主流的17个评测集上测试了M1,结果显示,其在部分数学和代码测试超过Anthropic最强模型Claude-4-Opus、字节最新发布的Seed-Thinking-v1.5,以及参数达6710亿的Deepseek-R1,但不及R1-0528版本,距o3和谷歌最新的Gemini 2.5-pro也有一定差距。

不过,M1在软件工程、长上下文、工具使用等复杂的生产力场景中,具备比较全面的优势。如M1在测试软件工程能力的SWE-bench上取得超过55%的成绩,虽不及海外顶尖模型,但显著高于国内的DeepSeek-R1、以及阿里和字节模型。

在长上下文理解任务中,M1则在三项基准测试上全面超越所有开源模型,并超越o3和Claude-4等闭源模型,仅以微弱差距落后于Gemini 2.5 Pro,全球排名第二。

在代理工具使用场景测试TAU-bench中,M1在airline(航空领域)的得分超过60%,领跑目前最为领先的开闭源模型;在retail(零售领域)的表现则超过DeepSeek、阿里、字节和谷歌模型,略逊于o3和Claude-4模型。

“通过全面的评估,MiniMax-M1与DeepSeek-R1和Qwen3-235B一起,跻身全球最佳开源权重模型之列。”MiniMax表示。

值得注意的是,M1包括两个版本模型,分别有40k和80k的思考上下文长度,其中M1-80k在多数基准测试中始终优于MiniMax-M1-40k,这充分验证了扩展测试时计算资源的有效性。

M1另一个显著优势是支持高达100万Token上下文输入,和Gemini 2.5 Pro一样,业内最高,这是DeepSeek-R1输入长度的8倍。同时,M1支持8万Token的推理输出,除o3外最高。

架构和算法创新

强化学习成本54万美元

这些性能得益于MiniMax在架构和算法的创新。

过去半年,推理模型借助大规模强化学习持续向上探索着大语言模型的天花板,但由于Transformer架构中,注意力机制的计算量会随序列长度呈平方级增长,导致其在推理扩展上面临挑战。

DeepSeek和月之暗面此前均针对注意力机制进行了研发,前者提出原生稀疏注意力(NSA),后者提出块注意力混合架构(MoBA),使得上下文处理速度提升十多倍。

MiniMax则在论文中提到,业内此前提出了稀疏注意力等方法解决,但尚未在大规模推理模型中得到充分验证,为此还需在高效扩展推理方面进行探索。

M1则在混合专家架构上采用了线性注意力机制(Lightning Attention),其核心是通过将注意力计算分解为多个小块,采用线性复杂度的计算方式,实现对长序列的高效处理。

“这种设计理论上能够高效地将推理长度扩展到数十万 token。”MiniMax表示,这还能带来计算成本的大幅下降,“这个特性使我们在训练和推理的时候都有很大的算力效率优势”。

例如,与DeepSeek-R1 相比,在生成长度为64K token时,M1消耗的算力FLOPs不到其50%;在长度为100K token时,消耗的FLOPs约为其25%。

这正是M1上下文长度得到扩展的关键,并使其特别适合需要处理长输入和进行深入思考的复杂、现实世界任务,因此其在软件工程、长上下文、工具使用等方面体现出性能优势。

当然,这也离不开M1在进行大规模强化学习时的算法创新。论文提到两个关键创新,一是提出一种新颖的强化学习算法CISPO,从而提升强化学习效率。

经过验证对比,这种算法具备更高效率。如在数学测试基准AIME的实验中,MiniMax发现CISPO比字节近期提出的DAPO强化学习算法实现了两倍的加速,即其只需50%的训练步骤就可以与DAPO的表现相匹配,同时也显著优于DeepSeek此前使用的GRPO算法。

二是针对使用混合架构进行强化学习扩展时存在的挑战,如架构的训练内核和推理内核之间存在精度不匹配,阻碍了强化学习期间的奖励增长,为此开发了针对性的解决方案。

此外,为防止过于激进扩展训练长度可能导致训练过程中突然发生梯度爆炸(模型失控),MiniMax通过四个阶段采用更平滑的上下文长度进行扩展,从32K开始,最终将上下文扩展到1M。

“得益于这些技术创新,我们最终强化训练过程非常高效,超出预期。”MiniMax论文介绍,M1在整个强化学习阶段只用到512块H800三周的时间,租赁成本只有53.74万美金(约合人民币380万),“这比一开始的预期少了一个数量级”。

和豆包采取相同价格策略

MiniMax还有更多更新

目前,MiniMax-M1已经对外开源,并在MiniMax APP和Web端免费升级。在API价格方面,MiniMax和字节最新更新的豆包1.6同样采用了“区间定价”策略。

在0-32k输入长度和32k-128k输入长度下,M1的价格相比未按区间计价的DeepSeek-R1(输入4元/百万token,输出16元/百万token)更有性价比,而对于最长的128k-1M的输入长度,DeepSeek模型则不支持。

同时,M1划分的三个区间价格与豆包1.6对应区间价格也相同,但豆包1.6最后一个区间的最长长度为256k。可以说,M1成为和豆包一样的大模型价格杀手,这也正是得益于其相对高效的训练和推理算力效率。

“性价比新王”、“又一次卷到硅谷了”,不少开发者对M1评价到。

MiniMax认为,M1将在未来的智能体应用中具有独特优势。“我们预见这种高效架构在解决现实挑战方面具有巨大潜力,包括自动化工作流程、科学研究等。”

“未来智能体需要数十到数百个回合进行推理,同时整合来自不同来源的长上下文信息,我们未来将进一步朝着这一目标前进。”MiniMax表示。

旺旺屋了解到,目前MiniMax正在面向海外内测智能体应用,主打代码、多模态等能力,同时支持调用多款MCP工具。

值得注意的是,M1是MiniMax此次为期5天发布周的第一弹,后续该公司将官宣推出智能体,并在海螺AI视频、音乐等模型和产品层面带来更多更新。

此前,MiniMax进行了品牌调整,原有的对话类应用海螺AI更名为MiniMax,包括国内及国际市场,海螺品牌将专指AI视频海螺视频,从而在产品品牌上进行了明确划分。

在DeepSeek冲击下,昔日“AI六小龙”受到市场质疑,也做出了不同选择,零一万物和百川智能放弃大模型训练,其它几家则在不同层面谋求突围。

MiniMax显然还在坚持大模型训练,并通过卷成本、卷效率,试图向DeepSeek等领先模型发起挑战,有望为其在未来的大模型格局竞争中获取更多胜算。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

明智家庭教育
2026-01-31 10:29:14
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
27岁莱尔丹夺金破奥纪录,拉链一拉?粉丝2.98亿账号转发

27岁莱尔丹夺金破奥纪录,拉链一拉?粉丝2.98亿账号转发

林子说事
2026-02-20 13:36:35
郭汝瑰坦言:没有毛泽东指挥挺进大别山,解放战争就不会只打4年

郭汝瑰坦言:没有毛泽东指挥挺进大别山,解放战争就不会只打4年

楚风说历史
2026-02-20 09:30:03
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
留不住!全明星外援要求离队,球队挽留无果,火速签下1米88后卫

留不住!全明星外援要求离队,球队挽留无果,火速签下1米88后卫

金山话体育
2026-02-20 08:13:31
黄一鸣带小孩给爷爷奶奶拜年,嘴巴很甜,被怀疑是变相要红包

黄一鸣带小孩给爷爷奶奶拜年,嘴巴很甜,被怀疑是变相要红包

新游戏大妹子
2026-02-18 09:18:57
第一个面临消失的职业,不是幼师,不是快递员,而是这四种工作?

第一个面临消失的职业,不是幼师,不是快递员,而是这四种工作?

美食格物
2026-02-20 17:13:54
中国冬奥第三金!宁忠岩破奥运纪录夺速滑1500米冠军,太惊喜了!

中国冬奥第三金!宁忠岩破奥运纪录夺速滑1500米冠军,太惊喜了!

篮球资讯达人
2026-02-20 00:52:06
大年初四,中方通告全球,美军机闯入黄海,解放军第一时间反制

大年初四,中方通告全球,美军机闯入黄海,解放军第一时间反制

阿讯说天下
2026-02-20 19:50:57
大范围雨雪!中雪、大雨、大风、沙尘!河南今明两天大升温27℃冲顶后暴跌,断崖式降温已经在路上

大范围雨雪!中雪、大雨、大风、沙尘!河南今明两天大升温27℃冲顶后暴跌,断崖式降温已经在路上

郑州交通广播
2026-02-20 10:47:45
能把一辆车开十年的人,都不简单

能把一辆车开十年的人,都不简单

沙雕小琳琳
2026-02-19 17:05:03
德媒爆“北溪”事件猛料!乌军前总司令拍板,美中情局事先知情,泽连斯基却被蒙在鼓里⋯⋯

德媒爆“北溪”事件猛料!乌军前总司令拍板,美中情局事先知情,泽连斯基却被蒙在鼓里⋯⋯

每日经济新闻
2026-02-20 14:19:04
陈梦宣布双喜临门,多年努力终有收获,母亲欣慰,心头大事落定

陈梦宣布双喜临门,多年努力终有收获,母亲欣慰,心头大事落定

观察鉴娱
2026-02-10 10:17:57
保守派大法官主动退休!川普有望提名第四名大法官,创造历史

保守派大法官主动退休!川普有望提名第四名大法官,创造历史

大洛杉矶LA
2026-02-20 05:53:43
高市首相想让爱子公主政治联姻,让她生下的孩子当天皇?!这下让天皇夫妇都不淡定了!

高市首相想让爱子公主政治联姻,让她生下的孩子当天皇?!这下让天皇夫妇都不淡定了!

东京新青年
2026-02-19 18:05:32
机器人进化到包饺子了 指纹清晰可见

机器人进化到包饺子了 指纹清晰可见

快科技
2026-02-18 20:37:20
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
1993年六位上将,还有三位健在,都快100岁了

1993年六位上将,还有三位健在,都快100岁了

文史茶馆2020
2026-02-15 16:43:24
印媒:中国未来50年,必打6场大战,台海首战,终战对手不是美国

印媒:中国未来50年,必打6场大战,台海首战,终战对手不是美国

boss外传
2025-11-20 21:20:03
2026-02-20 21:24:49
旺旺屋
旺旺屋
电台主持人,歌手,作家等。
1837文章数 672关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

OpenAI刷新AI公司估值纪录:8500亿美元 断层第一

头条要闻

OpenAI刷新AI公司估值纪录:8500亿美元 断层第一

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

时尚
手机
游戏
旅游
军事航空

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

手机要闻

苹果iOS 26.4 Beta移除App Store退出登录功能,切换账户更繁琐

梦幻西游旭旭宝宝喜提命中伤害双满宝刀,新春首把无级别剑出鞘

旅游要闻

新春走基层丨初四潮涌火宫殿 一城烟火正当年

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版