网易首页 > 网易号 > 正文 申请入驻

重磅!上海基础大模型MiniMax首次开源|产业创新动态

0
分享至

资料来源:MiniMax 官网

1月15日,上海基础大模型企业上海稀宇科技有限公司(以下简称“MiniMax”)正式发布了全新MiniMax-01系列模型,并开源了MiniMax-o1系列两个模型的完整权重,以促进技术创新、加速应用落地、实现开放合作、弥合智能鸿沟。该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01(论文链接附后)。

模型特点

全新模型架构

在MiniMax-01系列模型中,MiniMax首次大规模实现线性注意力机制,探索新型模型架构。该模型参数量达到4560亿,其中单次激活参数量为459亿,综合性能与国际领先模型相当,能够高效处理400万token上下文,达到GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

超长上下文

业界判断,2025年是AI Agent高速发展的一年。无论是单Agent系统对持续记忆的需求,还是多Agent系统中Agent间的高频通信交互,均对长上下文处理能力提出了更高要求。MiniMax-01系列模型在该领域迈出重要一步,为构建复杂Agent系统奠定了基础。

超高性价比

依托架构创新、效率优化、集群训推一体设计及并发算力复用等技术优势,MiniMax-01系列模型能以极具竞争力的价格提供文本与多模态理解API服务(当前标准定价:输入Token 1元/百万token,输出Token 8元/百万token)。开发者可通过MiniMax 开放平台体验并使用(相关资源链接附后)。

性能国际领先

基于架构创新,MiniMax-01 系列模型可高效处理长输入,接近线性复杂度,如下图所示:

技术解构

MiniMax-01 系列模型采用了一种创新的混合结构设计。每8层结构中包含7层基于Lightning Attention的线性注意力机制,以及1层传统的SoftMax注意力机制。

MiniMax实现业内首次将线性注意力机制扩展至商用模型规模,在Scaling Law、与MoE(混合专家系统)的结合、结构设计、训练优化和推理优化等方面进行了综合规划。作为业内首个以线性注意力为核心的模型,MiniMax对训练和推理系统进行了深度重构,包括优化MoE All-to-all通讯机制、提升长序列处理能力,以及推理层面线性注意力的高效Kernel实现。

模型评测

在多项学术集中,MiniMax-01 系列模型表现达到国际领先水平,与海外第一梯队的结果相当:

在长上下文的测评集上,MiniMax-01 系列模型的表现显著优于其他对比模型:

MiniMax-01系列模型在400万的大海捞针测试检索任务(Needle-In-A-Haystack)上全绿,表明模型可以精准定位超长背景信息中任何位置的任何信息,体现出该模型在处理超长序列时的卓越能力:

除学术数据集外,MiniMax构建了基于真实数据的助手场景中的测试集。在该场景中,MiniMax-Text-01的模型表现显著优于其他对比模型:

在多模态理解的测试集中,MiniMax-VL-01模型表现优于多数对比模型(如下图所示):

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中日战争还没打响,中国可能就先“输”了。

中日战争还没打响,中国可能就先“输”了。

别人都叫我阿腈
2026-03-26 08:03:09
马斯克花440亿买Twitter,2年后估值只剩94亿

马斯克花440亿买Twitter,2年后估值只剩94亿

报错免疫体
2026-03-26 00:32:36
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

乒乓助手
2026-03-24 00:05:50
三甲医院“接管”细胞治疗,80%企业即将退潮

三甲医院“接管”细胞治疗,80%企业即将退潮

深蓝观
2026-03-25 11:21:02
43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

世界体育圈
2026-03-26 11:49:39
特朗普支持率公布

特朗普支持率公布

第一财经资讯
2026-03-25 08:31:57
A股:周四中午传来4大消息!A股或开启更大级别调整行情?

A股:周四中午传来4大消息!A股或开启更大级别调整行情?

股市皆大事
2026-03-26 12:24:53
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

懂球帝
2026-03-26 10:15:03
杜富国的待遇有多高?再多优待,都配不上他的牺牲

杜富国的待遇有多高?再多优待,都配不上他的牺牲

安安说
2026-03-25 11:29:29
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

柚子说球
2026-03-26 13:06:33
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

阿龙美食记
2026-03-25 06:17:12
王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

大西体育
2026-03-26 14:24:29
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

懂球帝
2026-03-26 12:27:11
人为造神:被推上神坛的郑成功

人为造神:被推上神坛的郑成功

浪子说
2026-03-24 07:13:53
2026-03-26 15:03:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
456327文章数 760374关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
手机
旅游
公开课
军事航空

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版