网易首页 > 网易号 > 正文 申请入驻

MiniMax追着DeepSeek打

0
分享至


经济观察报 记者 陈月芹

6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro,比拼谁更好用、谁更低成本。

对大语言模型而言,上下文窗口与长文本处理能力是衡量一个模型处理复杂、长篇任务能力的关键指标。MiniMax M1支持100万个token的上下文长度,是DeepSeek R1上下文大小(12.8万Token)的8倍,仅落后于谷歌的Gemini 2.5 Pro。支持百万级上下文输入的能力,使得MiniMax M1擅长处理长文档,适用于法律文件审查、深度研究分析或处理整个代码库等应用。

在架构上,MiniMax M1和DeepSeek R1均采用了混合专家(MoE)架构。MiniMax M1的总参数量为4560亿,每个token激活459亿参数;而DeepSeek R1虽然总参数量更大(6710亿),但每个token激活的参数量相对较低,为370亿。

此外,与DeepSeek R1相比,MiniMax-M1在生成10万个token时仅消耗25%的浮点运算。在生成长度达64000个token的推理任务中,M1所需的计算能力不到DeepSeek R1的一半,进一步降低了模型操作成本。

2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广泛争议。

MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元,这一成本“比最初的预期少了一个数量级”。

MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。

降低训练成本后,MiniMax也把用户使用API服务的价格打下来了。

MiniMax M1采用分级计费,根据用户输入或输出的Token数量(即内容的长度)而变化。第一档为0—32k Token,每100万个输入Token收取0.8元,输出则为8元/百万Token;第二档为32k—128k Token,输入为1.2元/百万Token,输出则为16元/百万Token;第三档为128k—1M Token,输入为2.4元/百万Token,输出为24元/百万Token。

而DeepSeek R1 的API服务收费标准为‌输入每百万Tokens‌收费‌0.55美元‌(约合人民币3.95元),‌输出每百万Tokens‌收费‌2.19美元‌(约合人民币15.4元)。

据此计算,MiniMax M1前两档位的定价均低于DeepSeek R1,而第三个超长文本档位,目前DeepSeek模型尚未覆盖。

目前,MiniMax M1已在Hugging Face和GitHub上公开其代码和模型权重,允许用户进行透明的检查、定制和本地部署。

(作者 陈月芹)

免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。


陈月芹

可联系:chenyueqin@eeo.com.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赚翻了!23家上市券商上半年业绩出炉,最高预增超1000%!9家净利同比翻倍

赚翻了!23家上市券商上半年业绩出炉,最高预增超1000%!9家净利同比翻倍

每日经济新闻
2025-07-14 22:45:05
国内赚钱国外花,4个孩子国籍成谜?如今被曝料谈了一个又一个?

国内赚钱国外花,4个孩子国籍成谜?如今被曝料谈了一个又一个?

小故事娱乐
2025-04-20 12:05:03
1951年,毛主席夜宿保定郊外,汪东兴发现了有几挺机枪对准了专列

1951年,毛主席夜宿保定郊外,汪东兴发现了有几挺机枪对准了专列

豆包史馆
2025-07-11 16:39:50
西媒:皇马认为目前市面没中场值1亿欧,若罗德里能买会立刻出手

西媒:皇马认为目前市面没中场值1亿欧,若罗德里能买会立刻出手

直播吧
2025-07-15 06:08:07
李连杰自称进入倒计时,重提当年港娱黑幕,要求利智日后低调行事

李连杰自称进入倒计时,重提当年港娱黑幕,要求利智日后低调行事

任紀煙
2025-05-27 07:07:14
苏杰生访华获高规格接见,中方把红线划好后,他的态度立马变了

苏杰生访华获高规格接见,中方把红线划好后,他的态度立马变了

掌青说历史
2025-07-14 15:32:27
女生被骗到缅北有多惨?双开门都不是最惨的,拥有处子之身才是

女生被骗到缅北有多惨?双开门都不是最惨的,拥有处子之身才是

荔枝人物记
2025-02-14 18:00:57
给《扫毒风暴》演技最好的10位演员排座次:秦昊第2,第1实至名归

给《扫毒风暴》演技最好的10位演员排座次:秦昊第2,第1实至名归

比利
2025-07-14 15:41:49
为了圈钱脸都不要了!刚复出就开演唱会,票价卖1280,哪来的自信

为了圈钱脸都不要了!刚复出就开演唱会,票价卖1280,哪来的自信

洲洲影视娱评
2025-07-02 18:21:10
山东省纪委监委公开曝光5起违规吃喝典型问题

山东省纪委监委公开曝光5起违规吃喝典型问题

通成信息自媒体
2025-07-14 12:12:43
重磅!养老金新标准公布,高龄、工龄都影响补发额,你能多领多少

重磅!养老金新标准公布,高龄、工龄都影响补发额,你能多领多少

娱乐看阿敞
2025-07-14 10:07:11
北京银行又爆大雷!旗下金租公司董事长突然失联,背后水有多深?

北京银行又爆大雷!旗下金租公司董事长突然失联,背后水有多深?

财经保探长
2025-07-14 17:04:08
陕西省西安市人大常委会党组书记、主任韩松被查

陕西省西安市人大常委会党组书记、主任韩松被查

最高人民检察院
2025-07-14 17:26:03
宗馥莉被起诉最新进展:原告调取宗庆后生前血液,申请DNA鉴定

宗馥莉被起诉最新进展:原告调取宗庆后生前血液,申请DNA鉴定

削桐作琴
2025-07-14 14:29:14
外媒:中国6月大豆进口量创历史同期新高

外媒:中国6月大豆进口量创历史同期新高

参考消息
2025-07-14 21:27:34
纪委强调:公务员醉驾不再一律“双开”,这3类情节可不追刑责

纪委强调:公务员醉驾不再一律“双开”,这3类情节可不追刑责

细说职场
2025-07-10 06:55:06
中共中央批准,开除张天峰党籍

中共中央批准,开除张天峰党籍

新京报
2025-07-14 10:20:05
1981年,我军曾做过对越再次大打的准备,如果真打起来结果会怎样

1981年,我军曾做过对越再次大打的准备,如果真打起来结果会怎样

红梦史说
2025-07-14 11:14:31
承认失败!英特尔CEO称永远无法赶超AMD和英伟达

承认失败!英特尔CEO称永远无法赶超AMD和英伟达

3DM游戏
2025-07-14 09:39:17
400万粉丝网红“张三嫂”宣布解散团队,因儿子确诊ADHD

400万粉丝网红“张三嫂”宣布解散团队,因儿子确诊ADHD

齐鲁壹点
2025-07-14 11:30:13
2025-07-15 06:27:00
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
108641文章数 1605344关注度
往期回顾 全部

数码要闻

12999元起,联想“白月光”ThinkPad 笔记本上架开售

头条要闻

20天超2000次地震 日本一地被震麻了

头条要闻

20天超2000次地震 日本一地被震麻了

体育要闻

高考数学满分的他,说要成为1/3个邓肯

娱乐要闻

秦岚辛芷蕾聚餐热聊 结束直奔魏大勋家

财经要闻

探究新茶饮赛道爆发的“内核”

科技要闻

DeepSeek流量下滑,这半年梁文锋都干了啥

汽车要闻

余承东亲发预告:鸿蒙智行首款旅行车享界S9T来了

态度原创

手机
时尚
旅游
公开课
军事航空

手机要闻

iPhone 17全系列配色曝光,看看你期待哪款

为什么她身材不好,依然把吊带裙穿的很高级

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

乌军:史上首次 俄军向机器人部队投降

无障碍浏览 进入关怀版