网易首页 > 网易号 > 正文 申请入驻

输入长度是GPT-4o的32倍,国产开源大模型突破瓶颈,迎接智能体时代

0
分享至

近日,上海稀宇科技公司(MiniMax)发布并开源了新一代01系列人工智能模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型实现突破性创新,以大规模应用“线性注意力”机制突破了Transformer(转换器)大模型架构的记忆瓶颈,不仅在综合性能上比肩GPT-4o、Claude-3.5等国外领先模型,而且能高效处理高达400万token(词元)的输入,可输入长度是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

目前,MiniMax-01系列开源模型已应用于“海螺AI”并在全球上线,企业与个人开发者可登录MiniMax开放平台,使用API(应用程序编程接口)。

多个国际知名大模型的输入长度和处理效率比较

2017年,谷歌研发团队的一篇重要论文发表,提出Transformer架构。近年来,这一架构已成为大模型的主流技术范式。然而从2023年起,自然语言处理领域出现了一股创新浪潮,对模型架构的创新需求日益增加。“线性注意力”机制就是一种潜在的新架构,它通过算法优化,把传统模型架构中输入长度和计算复杂度之间的平方增长关系变成线性关系,跨出了“实现无限长的输入和输出”的关键一步。

如今,MiniMax-01系列模型首次将“线性注意力”机制扩展到商用模型级别,并使其综合能力跻身全球大模型第一梯队。受益于架构创新,该系列模型在处理长输入时具有非常高的效率,接近线性复杂度。稀宇科技选择的模型参数量为4560亿,其中每次激活459亿,能高效处理高达400万token的上下文,将有效替代Transformer架构,开启“超长文本输入”时代。

除了应用创新架构,MiniMax还大规模重构了01系列模型的训练和推理系统,包括更高效的MoE(混合专家模型)All-to-all(所有设备之间进行数据交换)通信优化、更长的序列优化,以及推线性注意力层的高效Kernel(实时操作系统)实现,使模型能力可与国际顶级闭源模型相媲美。

面对文本和多模态理解任务,MiniMax-01系列模型在大多数情况下能追平GPT-4o-1120和Claude-3.5-sonnet-1022这两个国外领先大模型。过去的模型能力评测中,谷歌研发的Gemini大模型有显著的长文优势。而今,在Gemini参与的长文任务评测中,01系列模型随着文本输入长度变长,性能衰减最慢,显示出很好效果。

多项任务评测显示,MiniMax-01系列模型核心性能处于全球第一梯队。

今年,人工智能将迎来新的发展节点,AI Agent(智能体)有望成为最重要的大模型产品形态,引领AI从传统的工具角色向更具互动性和协作性的伙伴角色转变。

稀宇科技创始人闫俊杰博士认为,在即将到来的AI Agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是智能体为各行业带来更丰富、高效、智能的解决方案的必要条件。

为此,MiniMax在Github平台上开源了Text-01模型、VL-01模型的完整权重,让开发者在此基础上做有价值、突破性的研究。“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进AI Agent时代的到来。开源了一方面可以逼着我们提高算法创新效率,另一方面也能打造全球技术品牌。”闫俊杰说。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西传媒学院副教授秦秀宇去世,仅39岁,学生透露原因:突发心梗

山西传媒学院副教授秦秀宇去世,仅39岁,学生透露原因:突发心梗

育学笔谈
2026-06-01 09:07:41
全世界谁敢对中国开第一枪?越南不信邪试了,300人殒命南海

全世界谁敢对中国开第一枪?越南不信邪试了,300人殒命南海

芳芳历史烩
2026-05-29 23:39:46
又是杜锋的错?22岁小将合同到期,拒绝续约广东队,徐昕开了好头

又是杜锋的错?22岁小将合同到期,拒绝续约广东队,徐昕开了好头

体坛大事记
2026-05-31 12:45:20
1个少给的0.30公斤,揭开尼日利亚人每天被100种方式蚕食的日常

1个少给的0.30公斤,揭开尼日利亚人每天被100种方式蚕食的日常

心事寄山海
2026-05-31 00:35:42
美伊局势再添迷雾!协议草案遭遇更严苛修改 特朗普重申“不急”

美伊局势再添迷雾!协议草案遭遇更严苛修改 特朗普重申“不急”

财联社
2026-06-01 08:20:07
56岁张嘉益现状,住西安大豪宅,二婚娶女演员,如今新剧获赞

56岁张嘉益现状,住西安大豪宅,二婚娶女演员,如今新剧获赞

娱说瑜悦
2026-05-13 15:25:22
心服口服!王博:上海队12名球员,在其他球队都是主力

心服口服!王博:上海队12名球员,在其他球队都是主力

体育哲人
2026-06-01 07:40:20
亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

秋姐居
2026-04-07 14:53:24
中国闹了个乌龙:沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

中国闹了个乌龙:沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

今夜繁星坠落
2026-05-30 03:00:36
张艺谋:两个弟弟都是残疾人,他超生是为了完成母亲的心愿

张艺谋:两个弟弟都是残疾人,他超生是为了完成母亲的心愿

细品名人
2026-05-18 07:17:31
曼联血赚!B 费迎来最强搭档!4000 万世界级王牌主动投奔

曼联血赚!B 费迎来最强搭档!4000 万世界级王牌主动投奔

澜归序
2026-06-01 07:03:32
开国上将闹离婚:结发40年竟遭发妻死命举报,六名子女为何如释重负

开国上将闹离婚:结发40年竟遭发妻死命举报,六名子女为何如释重负

睡前讲故事
2026-04-07 14:43:34
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
风向变了!李在明下令:很多中国人要来韩国,必须对游客最友好!

风向变了!李在明下令:很多中国人要来韩国,必须对游客最友好!

大鱼简科
2026-05-31 14:51:42
《主角》大结局:米兰被害入狱,知道真相后大哭,竟然是你。

《主角》大结局:米兰被害入狱,知道真相后大哭,竟然是你。

乡野小珥
2026-06-01 09:31:30
总决赛G3最大争议哨!布朗反抢绊倒弗格是不是违体?专家给出答案

总决赛G3最大争议哨!布朗反抢绊倒弗格是不是违体?专家给出答案

南海浪花
2026-06-01 07:33:06
2个孩子3个爹新进展:长子生父是前妻娘家村支书,次子是男子堂哥

2个孩子3个爹新进展:长子生父是前妻娘家村支书,次子是男子堂哥

汉史趣闻
2026-05-31 20:14:26
英伟达Arm PC芯片,细节全披露

英伟达Arm PC芯片,细节全披露

半导体行业观察
2026-06-01 10:04:47
为何说年龄超过80岁的人:即便身体健康,也没有多少来日方长?

为何说年龄超过80岁的人:即便身体健康,也没有多少来日方长?

芹姐说生活
2026-05-10 14:11:36
中国防长不在场!美防长着当着40多国面,送中国一句肺腑之言!

中国防长不在场!美防长着当着40多国面,送中国一句肺腑之言!

安安说
2026-05-31 10:59:05
2026-06-01 10:56:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
492334文章数 761874关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

卖车卖到手软 MG4 5月销量突破15000台

态度原创

健康
旅游
本地
时尚
公开课

尝试干细胞疗法如何避免踩坑?

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

本地新闻

用剪纸的方式,打开江苏扬州

女人不管多大年纪,夏天都要准备一条白色阔腿裤,百搭又清爽

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版