网易首页 > 网易号 > 正文 申请入驻

200亿AI独角兽反击,MiniMax首款推理模型赶超DeepSeeK

0
分享至

OpenAI、DeepSeeK点燃大模型推理浪潮后,越来越多的大模型企业开始涌入,阿里、百度、腾讯、字节、谷歌等先后发布推理模型。

不少企业都在想着如何憋大招,后发制人。这一次轮到估值超200亿元的独角兽MiniMax,发布首款推理模型M1,并称这是全球首款开源权重、大规模混合注意力推理模型。

根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。

在年初DeepSeek-R1推出后,MiniMax所在的“AI六小龙”阵营被打蒙了。如今,M1一定程度上让MiniMax在国内模型阵营梯队中踏上一个台阶。

“第一次感觉到大山不是不能翻越。”MiniMax创始人&CEO闫俊杰发文表示。

我们了解到,M1是MiniMax此次为期5天的发布周的第一弹,后续还将官宣智能体应用,并在海螺AI视频、音乐等模型和产品层面带来更多更新。

多项任务性能赶超Deepseek

输入长度业内最高

M1是MiniMax推出的首款推理模型,其基于MiniMax-Text-01模型开发,总参数达4560亿,每token激活参数459亿,采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention)。

MiniMax在业内主流的17个评测集上测试了M1,结果显示,其在部分数学和代码测试超过Anthropic最强模型Claude-4-Opus、字节最新发布的Seed-Thinking-v1.5,以及参数达6710亿的Deepseek-R1,但不及R1-0528版本,距o3和谷歌最新的Gemini 2.5-pro也有一定差距。

不过,M1在软件工程、长上下文、工具使用等复杂的生产力场景中,具备比较全面的优势。如M1在测试软件工程能力的SWE-bench上取得超过55%的成绩,虽不及海外顶尖模型,但显著高于国内的DeepSeek-R1、以及阿里和字节模型。

在长上下文理解任务中,M1则在三项基准测试上全面超越所有开源模型,并超越o3和Claude-4等闭源模型,仅以微弱差距落后于Gemini 2.5 Pro,全球排名第二。

在代理工具使用场景测试TAU-bench中,M1在airline(航空领域)的得分超过60%,领跑目前最为领先的开闭源模型;在retail(零售领域)的表现则超过DeepSeek、阿里、字节和谷歌模型,略逊于o3和Claude-4模型。

“通过全面的评估,MiniMax-M1与DeepSeek-R1和Qwen3-235B一起,跻身全球最佳开源权重模型之列。”MiniMax表示。

值得注意的是,M1包括两个版本模型,分别有40k和80k的思考上下文长度,其中M1-80k在多数基准测试中始终优于MiniMax-M1-40k,这充分验证了扩展测试时计算资源的有效性。

M1另一个显著优势是支持高达100万Token上下文输入,和Gemini 2.5 Pro一样,业内最高,这是DeepSeek-R1输入长度的8倍。同时,M1支持8万Token的推理输出,除o3外最高。

架构和算法创新

强化学习成本54万美元

这些性能得益于MiniMax在架构和算法的创新。

过去半年,推理模型借助大规模强化学习持续向上探索着大语言模型的天花板,但由于Transformer架构中,注意力机制的计算量会随序列长度呈平方级增长,导致其在推理扩展上面临挑战。

DeepSeek和月之暗面此前均针对注意力机制进行了研发,前者提出原生稀疏注意力(NSA),后者提出块注意力混合架构(MoBA),使得上下文处理速度提升十多倍。

MiniMax则在论文中提到,业内此前提出了稀疏注意力等方法解决,但尚未在大规模推理模型中得到充分验证,为此还需在高效扩展推理方面进行探索。

M1则在混合专家架构上采用了线性注意力机制(Lightning Attention),其核心是通过将注意力计算分解为多个小块,采用线性复杂度的计算方式,实现对长序列的高效处理。

“这种设计理论上能够高效地将推理长度扩展到数十万 token。”MiniMax表示,这还能带来计算成本的大幅下降,“这个特性使我们在训练和推理的时候都有很大的算力效率优势”。

例如,与DeepSeek-R1 相比,在生成长度为64K token时,M1消耗的算力FLOPs不到其50%;在长度为100K token时,消耗的FLOPs约为其25%。

这正是M1上下文长度得到扩展的关键,并使其特别适合需要处理长输入和进行深入思考的复杂、现实世界任务,因此其在软件工程、长上下文、工具使用等方面体现出性能优势。

当然,这也离不开M1在进行大规模强化学习时的算法创新。论文提到两个关键创新,一是提出一种新颖的强化学习算法CISPO,从而提升强化学习效率。

经过验证对比,这种算法具备更高效率。如在数学测试基准AIME的实验中,MiniMax发现CISPO比字节近期提出的DAPO强化学习算法实现了两倍的加速,即其只需50%的训练步骤就可以与DAPO的表现相匹配,同时也显著优于DeepSeek此前使用的GRPO算法。

二是针对使用混合架构进行强化学习扩展时存在的挑战,如架构的训练内核和推理内核之间存在精度不匹配,阻碍了强化学习期间的奖励增长,为此开发了针对性的解决方案。

此外,为防止过于激进扩展训练长度可能导致训练过程中突然发生梯度爆炸(模型失控),MiniMax通过四个阶段采用更平滑的上下文长度进行扩展,从32K开始,最终将上下文扩展到1M。

“得益于这些技术创新,我们最终强化训练过程非常高效,超出预期。”MiniMax论文介绍,M1在整个强化学习阶段只用到512块H800三周的时间,租赁成本只有53.74万美金(约合人民币380万),“这比一开始的预期少了一个数量级”。

和豆包采取相同价格策略

MiniMax还有更多更新

目前,MiniMax-M1已经对外开源,并在MiniMax APP和Web端免费升级。在API价格方面,MiniMax和字节最新更新的豆包1.6同样采用了“区间定价”策略。

在0-32k输入长度和32k-128k输入长度下,M1的价格相比未按区间计价的DeepSeek-R1(输入4元/百万token,输出16元/百万token)更有性价比,而对于最长的128k-1M的输入长度,DeepSeek模型则不支持。

同时,M1划分的三个区间价格与豆包1.6对应区间价格也相同,但豆包1.6最后一个区间的最长长度为256k。可以说,M1成为和豆包一样的大模型价格杀手,这也正是得益于其相对高效的训练和推理算力效率。

“性价比新王”、“又一次卷到硅谷了”,不少开发者对M1评价到。

MiniMax认为,M1将在未来的智能体应用中具有独特优势。“我们预见这种高效架构在解决现实挑战方面具有巨大潜力,包括自动化工作流程、科学研究等。”

“未来智能体需要数十到数百个回合进行推理,同时整合来自不同来源的长上下文信息,我们未来将进一步朝着这一目标前进。”MiniMax表示。

旺旺屋了解到,目前MiniMax正在面向海外内测智能体应用,主打代码、多模态等能力,同时支持调用多款MCP工具。

值得注意的是,M1是MiniMax此次为期5天发布周的第一弹,后续该公司将官宣推出智能体,并在海螺AI视频、音乐等模型和产品层面带来更多更新。

此前,MiniMax进行了品牌调整,原有的对话类应用海螺AI更名为MiniMax,包括国内及国际市场,海螺品牌将专指AI视频海螺视频,从而在产品品牌上进行了明确划分。

在DeepSeek冲击下,昔日“AI六小龙”受到市场质疑,也做出了不同选择,零一万物和百川智能放弃大模型训练,其它几家则在不同层面谋求突围。

MiniMax显然还在坚持大模型训练,并通过卷成本、卷效率,试图向DeepSeek等领先模型发起挑战,有望为其在未来的大模型格局竞争中获取更多胜算。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
官媒发文,官宣与辉同行传来“噩耗”,网友:董宇辉该何去何从

官媒发文,官宣与辉同行传来“噩耗”,网友:董宇辉该何去何从

阿纂看事
2026-01-14 14:24:33
叹服!日本亚洲杯3连胜轰10-0 派大学生以小打大 身价不及U23国足

叹服!日本亚洲杯3连胜轰10-0 派大学生以小打大 身价不及U23国足

我爱英超
2026-01-14 06:30:22
川普呼吁伊朗人记住凶手和施暴者,斩首哈梅内伊本人概率大增

川普呼吁伊朗人记住凶手和施暴者,斩首哈梅内伊本人概率大增

移光幻影
2026-01-14 10:16:25
贺娇龙曾称冬天拍摄万马奔腾很紧张,容易打滑!已非首次坠马

贺娇龙曾称冬天拍摄万马奔腾很紧张,容易打滑!已非首次坠马

南方都市报
2026-01-14 14:37:17
传47岁高颜值女局长意外身亡,最后照和事发全过程披露,官方否认

传47岁高颜值女局长意外身亡,最后照和事发全过程披露,官方否认

博士观察
2026-01-14 11:14:09
纪实:南京杀妻案吉星鹏被判处死刑,临刑前全身抽搐流泪不止

纪实:南京杀妻案吉星鹏被判处死刑,临刑前全身抽搐流泪不止

谈史论天地
2026-01-14 12:55:03
三人私闯庭院后续:正脸曝光社死,官方账号沦陷,大理文旅压力大

三人私闯庭院后续:正脸曝光社死,官方账号沦陷,大理文旅压力大

有范又有料
2026-01-14 20:07:45
合川呆呆收入曝光,一夜暴富,几辈子都花不完

合川呆呆收入曝光,一夜暴富,几辈子都花不完

辣条小剧场
2026-01-14 04:31:12
罗马诺:阿隆索将会很快返回教练席,各俱乐部都在关注他的动向

罗马诺:阿隆索将会很快返回教练席,各俱乐部都在关注他的动向

懂球帝
2026-01-14 10:17:34
中纪委五次全会发布公报,2026年反腐重点领域公开,未见消防表述

中纪委五次全会发布公报,2026年反腐重点领域公开,未见消防表述

靠山屯闲话
2026-01-14 17:19:06
伤心!辽宁队小外援带着老婆、孩子默默地离开沈阳 无人送别

伤心!辽宁队小外援带着老婆、孩子默默地离开沈阳 无人送别

体育哲人
2026-01-14 11:48:28
人均25元,现炒“三剑客”来了

人均25元,现炒“三剑客”来了

中国新闻周刊
2026-01-14 21:57:15
被打服了!掘金主帅喊话东部球队:赶紧交易走特雷・墨菲三世

被打服了!掘金主帅喊话东部球队:赶紧交易走特雷・墨菲三世

夜白侃球
2026-01-14 22:19:08
两个省级党委组织部部长调整

两个省级党委组织部部长调整

上观新闻
2026-01-14 19:54:16
47岁新疆网红主任贺娇龙坠马细节曝光!官方辟谣称还在医院抢救!

47岁新疆网红主任贺娇龙坠马细节曝光!官方辟谣称还在医院抢救!

乌娱子酱
2026-01-14 12:16:21
一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

项鹏飞
2026-01-13 18:42:53
为富商海外产子真相大白7个月,江疏影近照太意外,王传君没说错

为富商海外产子真相大白7个月,江疏影近照太意外,王传君没说错

白面书誏
2026-01-12 20:24:07
青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

学申论的谈妹
2026-01-14 13:07:56
国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

燕梳楼频道
2026-01-12 21:14:25
2026-01-15 01:56:49
旺旺屋
旺旺屋
电台主持人,歌手,作家等。
1836文章数 672关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

数码
家居
游戏
本地
公开课

数码要闻

存储涨价冲击DIY市场,DDR3主板销量意外逆势倍增

家居要闻

心之所向 现代建构之美

重生之我在丧尸末世当检察官

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版