网易首页 > 网易号 > 正文 申请入驻

Minimax发布推理模型M1,这是它必须补上的一课

0
分享至

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

Minimax也办起了技术发布周。前两日,它在模型和产品上发布了重要更新,包括一款456B参数大小的推理模型M1,以及其核心产品海螺AI。

M1是Minimax姗姗来迟的首款推理模型,不免得要与DeepSeek-R1作比较。其两个最大亮点,一个是长文本处理能力,另一个是成本表现。

Minimax-M1支持最高100万token上下文输入,达到DeepSeek R1的8倍,在闭源模型中与谷歌Gemini 2.5 Pro一致,同时支持最长8万Token的推理输出。

在实际应用中,即用户给到一份100万token大小的阅读材料并提出需求,M1可以正常执行,但如果是不支持如此输入长度的模型,可能只会显示阅读了一定比例内容并执行需求。

Minimax在其技术报告中写道,M1之所以能够实现长文本处理能力突破,主要得益于Lightning Attention(闪电注意力)混合构架。

传统Transformer架构在处理长文本时,其注意力机制主导下的计算量增长为平方级,文本序列越长,计算量越发陡增,这对性能和成本均为挑战。

Lightning Attention的做法是,将全连接注意力拆成两大部分,一个是针对局部上下文整合、采用传统注意力机制的“块内”attention,一个是针对全局摘要、采用线性注意力的“块间”attention。这一方案可以减少大量累积性的计算量,并提高处理速度。

成本方面,其报告提到,在进行8万Token的深度推理时,M1所需的算力为DeepSeek R1的约30%;生成10万token时,推理算力约为DeepSeek R1的25%。团队表示,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本为53.5万美元

在这一点上,Minimax提出了CISPO(Clipped IS-weight Policy Optimization)算法。这是一种高效率、高稳定性的强化学习策略,相比于PPO策略实行token级别的裁剪更新,它通过裁剪重要性采样权重提升强化学习效率,类似“序列级别”裁剪。

这使其更快实现收敛,并达成更少的训练时间和资源消耗。其报告中的实验数据显示,在AIME(AI-powered Moral Evaluator)等测试中,CISPO的收敛性均快于DAPO算法和GRPO算法。

定价方面,M1根据文本大小分为三个价格区间:0-32k Token,输入0.8元/百万Token,输出8元/百万Token;32k-128k Token,输入1.2元/百万Token,输出16元/百万Token;128k-1M Token,输入2.4元/百万Token,输出24元/百万Token。

这是一个总体相对较低的定价,但也同时意味着,随着文本输入与输出的增长,用户的token消耗费用也可能面临陡升。

再说产品,海螺AI加入了全新Hailuo 02模型,视频可原生1080P。Minimax此次强调了它处理极端物理场景的能力,比如说杂技。官方放出来的演示视频也是一段杂技表演。

在AI视频竞技场的排行榜(Artificial Analysis Video Arena Leaderboard)中,Hailuo 02(0616)目前位居第二,仅次于字节旗下视频生成模型Seedance 1.0,超过了谷歌Veo 3 preview以及快手Kling 2.0。

事实上,在此之前,Minimax在一众大模型创业公司中就是一个以多模态能力见长的玩家,为什么在DeepSeek-R1掀起巨浪近半年之后(期间Kimi、智谱、阶跃都有在这方面所更新和发布),它仍要完善推理模型的能力版图?

一名AI大模型投资人对界面新闻记者表示,从时间线上来看,Minimax没有在OpenAI o1模型掀起范式变革后,在国内整体而言相对早的时间点发布一款推理模型,大概率是核心团队起初在决策判断上没有给到这个训练方向足够的重视。“这是团队必须补的一课。”

另有一名接触过Minimax的投资人认为,Minimax现在向市场发布推理模型的重要意义,一是说明在技术上不掉队,二是用“唯一一个支持超长文本”的推理模型建立用户心智。“这对资本市场还是有影响的。”这名投资人表示。

除此以外,他认为此次M1发布即开源,如果模型的效果和口碑能够保持住,也可以让Minimax借机将以前相对短板的开发者社区运营起来。目前,国内更受开发者认可的仍然是通义千问和DeepSeek。

在成本和长文本之外,回到基准测试等基本问题上,MiniMax-M1也有不俗表现。它在AIME 2024、LiveCodeBench、SWE-bench Verified上,略逊色于DeepSeek-R1-0528,不过在TAU-bench上有所赶超。

在体现长文本处理能力的MRCR(4-needle)上,它的确为开发者留下了深刻印象,大幅超越了一众开闭源模型。

不过它究竟能够对开源社区产生多大影响还有待观察。在Github上,M1发布8小时后获得440星,截至目前得到了620星。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今夜炸锅!两大AI科技股业绩暴雷、千亿市值高位悬顶

今夜炸锅!两大AI科技股业绩暴雷、千亿市值高位悬顶

风风顺
2026-04-21 06:55:19
纽约球迷高喊“法克CJ”,麦科勒姆:我把这当作是对我的尊重

纽约球迷高喊“法克CJ”,麦科勒姆:我把这当作是对我的尊重

懂球帝
2026-04-21 12:18:08
德天空:拜仁今夏可能会有多达10名球员离队

德天空:拜仁今夏可能会有多达10名球员离队

懂球帝
2026-04-21 00:47:56
本科烂大街,硕士遍地走,博士很尴尬?上海交大今年招5000博士!

本科烂大街,硕士遍地走,博士很尴尬?上海交大今年招5000博士!

骅骏老师张
2026-04-19 07:49:40
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

古史青云啊
2026-04-07 14:52:09
格力新款“玫瑰空调”爆火,董明珠赢麻了

格力新款“玫瑰空调”爆火,董明珠赢麻了

广告案例精选
2026-04-20 16:10:58
山东一法院干警配偶刚成立公司拍得银行六千万债权引质疑,多方回应

山东一法院干警配偶刚成立公司拍得银行六千万债权引质疑,多方回应

澎湃新闻
2026-04-21 13:48:30
河南小姑娘因父母离世获三位舅舅无私相助,感恩涕零称舅舅是她的天

河南小姑娘因父母离世获三位舅舅无私相助,感恩涕零称舅舅是她的天

林子说事
2026-04-21 10:59:30
突发!库克卸任苹果CEO,一个时代结束了

突发!库克卸任苹果CEO,一个时代结束了

智东西
2026-04-21 06:50:16
沉默1天,中国准时发话,“高市下岗”传遍全境,石破茂判断没错

沉默1天,中国准时发话,“高市下岗”传遍全境,石破茂判断没错

沧海一书客
2026-04-21 13:40:27
李煜有一首词,近七百年无人能及,清朝词人仿一首,竟超越了原作

李煜有一首词,近七百年无人能及,清朝词人仿一首,竟超越了原作

千秋文化
2026-02-21 19:33:41
男人只要不沉迷于色欲,就不会对女人精虫上脑,从而对女人祛魅

男人只要不沉迷于色欲,就不会对女人精虫上脑,从而对女人祛魅

加油丁小文
2026-04-18 13:30:08
北京摇号“大放水”,被粉饰的蓝绿牌差距,18万指标背后产业账

北京摇号“大放水”,被粉饰的蓝绿牌差距,18万指标背后产业账

右耳远闻
2026-04-20 18:25:03
普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

猫叔东山再起
2026-04-21 08:40:10
1970年,一等功臣郭兴福被判死刑,许世友拼尽全力,只为保他一命

1970年,一等功臣郭兴福被判死刑,许世友拼尽全力,只为保他一命

诺言卿史录
2026-03-15 07:05:11
我在卢旺达工地看到的真相,他们这样说中国建设者,太扎心了

我在卢旺达工地看到的真相,他们这样说中国建设者,太扎心了

天下霸奇
2026-04-21 08:19:54
黑奴贸易里,将黑人扒光并让男女挤一起,只是为了省钱省事吗

黑奴贸易里,将黑人扒光并让男女挤一起,只是为了省钱省事吗

小豫讲故事
2026-04-18 06:00:12
1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

华人星光
2026-04-20 09:59:15
李小冉称因唱歌跑调哭了两晚,“我50了根本记不住”!向太:喜欢她的“真”,蛮单纯!李小冉、宁静、舒淇、王菲都是不装的人

李小冉称因唱歌跑调哭了两晚,“我50了根本记不住”!向太:喜欢她的“真”,蛮单纯!李小冉、宁静、舒淇、王菲都是不装的人

大象新闻
2026-04-21 11:43:20
彩票出现断崖式暴跌,“花2元中500万”没人信了?原因引人深思

彩票出现断崖式暴跌,“花2元中500万”没人信了?原因引人深思

平说财经
2026-02-12 16:27:02
2026-04-21 15:31:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1061154文章数 1333266关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

家居
房产
本地
数码
公开课

家居要闻

诗意光影 窥见自然之境

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

数码要闻

三星Galaxy Buds Able骨传导耳机曝光,耳夹式设计

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版