网易首页 > 网易号 > 正文 申请入驻

对标DeepSeeK!MiniMax推首款开源推理模型,训练成本仅53万美元

0
分享至

6月17日,国产大模型初创公司MiniMax(希宇科技)宣布推出了全球首个开源的大规模混合架构的推理模型M1,不仅性能超过国内的闭源模型,接近最新版的DeepSeek R1以及海外的最领先模型,同时还拥有更为出色的效率和业内最高的性价比。

根据官方的披露的对比报告显示,MiniMax-M1多项基准测试比肩DeepSeek-R1、Qwen3等开源模型,接近OpenAI O3等海外的最领先模型。

在阿里巴巴集团、腾讯和 IDG 资本的支持下,MiniMax 声称其 Lightning Attention 机制是一种计算注意力矩阵的方法,可以提高训练和推理效率,使其 M1 模型在计算长上下文输入和尝试推理时具有优势。

因此,M1显著的优势是支持目前业内最高的100万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的8万Token的推理输出。

MiniMax表示,这主要得益于其独创的以闪电注意力机制为主的混合架构,从而在计算长的上下文输入以及深度推理的时候显著高效。例如,在用8万Token深度推理的时候,只需要使用DeepSeek R1约30%的算力。这个特性使得MiniMax M1在训练和推理的时候都有很大的算力效率优势。

除此之外,MiniMax提出了更快的强化学习算法CISPO,通过裁剪重要性采样权重(而非传统token更新)提升强化学习效率。在AIME 的实验中,MiniMax发现这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍,显著的优于 DeepSeek 早期使用的 GRPO。

得益于上述两个技术创新,MiniMax最终强化训练过程非常高效,超出预期。实际上整个强化学习阶段只用到512块H800三周的时间,租赁成本只有53.47万美金。这比一开始的预期少了一个数量级。

MiniMax在业内主流的 17 个评测集上详细评测了M1,结果显示M1在长上下文理解任务中表现卓越,仅以微弱差距落后于Gemini 2.5 Pro,但在在代理工具使用场景(TAU-bench)中战胜了Gemini 2.5 Pro。具体的结果如下:

因为相对高效的训练和推理算力使用,MiniMax宣布在 MiniMax APP 和 Web 上都保持不限量免费使用。

同时,还将以业内最低的价格在官网提供API:在0-32k的输入长度的时候,输入0.8元/百万token, 输出8元/百万token;在32k-128k的输入长度的时候,输入1.2元/百万token, 输出16元/百万token;在最长的 128k-1M 的输入长度的时候,输入2.4元/百万token, 输出24元/百万token。

前面两种模式都比 DeepSeek-R1 性价比更高,后面一种模式 DeepSeek 模型不支持。

编辑:芯智讯-浪客剑

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪怒诉:你都翻墙了我还会当你是好人吗?拒绝走大衣哥老路

张雪怒诉:你都翻墙了我还会当你是好人吗?拒绝走大衣哥老路

泠泠说史
2026-07-02 02:44:09
嘲讽巴西已非强队 21岁日本红星拒道歉:不会撤回言论 我说了实话

嘲讽巴西已非强队 21岁日本红星拒道歉:不会撤回言论 我说了实话

我爱英超
2026-07-01 12:13:34
“这跟没断奶有什么区别”,五年级男孩无法分床睡,未来姻缘没了

“这跟没断奶有什么区别”,五年级男孩无法分床睡,未来姻缘没了

世界圈
2026-06-27 08:31:45
WTT美国大满贯:蒯曼9-1领先丢3局点,11-6打停张墨,大比分1-0!

WTT美国大满贯:蒯曼9-1领先丢3局点,11-6打停张墨,大比分1-0!

刘姚尧的文字城堡
2026-07-01 10:23:40
意媒:莱奥世界杯沦为替补,离队报价寥寥

意媒:莱奥世界杯沦为替补,离队报价寥寥

懂球帝
2026-07-01 16:00:14
全进华调侃张家齐:天气这么热来我家蹭空调啊,张家齐回复超好笑

全进华调侃张家齐:天气这么热来我家蹭空调啊,张家齐回复超好笑

嘴角上翘的弧度
2026-07-02 08:39:13
蜱虫钻入孩子皮肤,妈妈“两拒绝一动作”救了娃,医生夸她做得好

蜱虫钻入孩子皮肤,妈妈“两拒绝一动作”救了娃,医生夸她做得好

菁妈育儿
2026-06-27 18:49:27
最让蒋介石头痛的军阀:独霸一省14年,连军统电台都敢没收

最让蒋介石头痛的军阀:独霸一省14年,连军统电台都敢没收

微野谈写作
2026-07-01 06:45:05
普京,更严峻的考验来了

普京,更严峻的考验来了

牛弹琴
2026-07-02 07:33:08
有哪些是你去东北才知道的事情?看网友们的真实分享,惊呆了

有哪些是你去东北才知道的事情?看网友们的真实分享,惊呆了

智慧生活笔记
2026-06-29 15:14:18
莫言:一个人最大的愚蠢,是习惯性反驳|不涉及利益,闭嘴是修养

莫言:一个人最大的愚蠢,是习惯性反驳|不涉及利益,闭嘴是修养

杏花烟雨江南的碧园
2026-06-30 11:15:03
曝西安赛格一商户老板严鹏跳楼身亡,原因曝光,四年前患上抑郁症

曝西安赛格一商户老板严鹏跳楼身亡,原因曝光,四年前患上抑郁症

180视角
2026-07-02 08:49:59
切尔西官宣21岁意大利红星加盟 签约7年+转会费5500万欧 截胡国米

切尔西官宣21岁意大利红星加盟 签约7年+转会费5500万欧 截胡国米

我爱英超
2026-07-01 21:21:23
4战输163分!日本U17惨案证明:八村塁是特例,混血难救日本篮球

4战输163分!日本U17惨案证明:八村塁是特例,混血难救日本篮球

林小湜体育频道
2026-07-01 20:29:38
印度一家五口揣9万卢比来上海,以为能买半条街,一顿火锅后傻了

印度一家五口揣9万卢比来上海,以为能买半条街,一顿火锅后傻了

二胡的岁月如歌
2026-07-01 21:39:42
大批日本科学家依次来华!表面上是为钱弃日,实则背后另有目的?

大批日本科学家依次来华!表面上是为钱弃日,实则背后另有目的?

抽象派大师
2026-07-02 03:52:21
终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

慧翔百科
2026-06-23 08:47:02
全国下岗职工有2亿之多 难道要等到余下2千人时再进行补偿吗

全国下岗职工有2亿之多 难道要等到余下2千人时再进行补偿吗

侃故事的阿庆
2026-07-01 09:58:33
中央决定:邱宝华履新职

中央决定:邱宝华履新职

新京报政事儿
2026-07-01 20:25:02
梁靖琪小8岁丈夫跻身保险界精英,年收入达256万,一家住千万豪宅

梁靖琪小8岁丈夫跻身保险界精英,年收入达256万,一家住千万豪宅

树娃
2026-07-01 14:49:42
2026-07-02 09:52:49
芯智讯 incentive-icons
芯智讯
聚焦科技万象,报道前沿资讯。
8949文章数 32124关注度
往期回顾 全部

科技要闻

可灵AI上市前夜,快手想给它融30亿美元

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

艺术
旅游
亲子
手机
公开课

艺术要闻

宋朝:生活品味,比权力和财富更重要!

旅游要闻

中国之城|甘肃张掖:“蜂腰之地”山河万象

亲子要闻

趣味游戏

手机要闻

俄罗斯勒令苹果整改iOS应用预装规则:否则将面临最高40亿卢布罚款

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版