网易首页 > 网易号 > 正文 申请入驻

非Transformer架构新突破:AI 21 Labs Jamba 1.5系列模型解读

0
分享至

01 Jamba 1.5模型是什么

AI 21 Labs发布了Jamba 1.5系列模型,包括Jamba 1.5 Mini和Jamba 1.5 Large两款模型。Jamba是第一个基于Mamba架构的生产级模型,Mamba是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构,被视为Transformer架构的有力挑战者。基于评估,Jamba 1.5拥有最长的有效上下文窗口,在同等大小的所有上下文长度中速度最快,质量得分超过Llama 3.1 70B和405B。
Jamba 1.5系列模型具备四个优势:
✔ 速度快,量化过程只需几分钟;
✔ 不依赖于校准,这一有时不稳定的过程通常需要几个小时或几天;
✔ 仍然可以使用 BF16 来保存大规模激活;
✔ 允许Jamba 1.5 Large适配单个8 GPU节点,同时利用其256K的完整上下文长度。
根据Arena Hard基准测试,Jamba 1.5 Mini成为同尺寸级别中最强大的型号,超越了竞争对手Claude 3 Haiku、Mixtral 8x22B和Command-R+。Jamba 1.5 Large同样超越了Claude 3 Opus、Llama 3.1 70B和Llama 3.1 405B等领先型号,在同尺寸级别中具有出色的性价比。

02 Jamba大语言模型在非Transformer架构领域的突破

2024 年 3 月,AI21 Labs宣布推出Jamba,这是世界上第一个基于Mamba架构的模型。Jamba模型是一种创新的混合架构,它结合了Transformer和Mamba模型的优势。Mamba模型是一种结构化的状态空间序列模型(SSM),它通过选择性状态空间来高效捕获序列数据中的复杂依赖关系,并且计算开销随序列长度呈线性增长,这使得它在处理长文本方面比Transformer更加高效。Jamba模型通过交错使用Transformer和Mamba层,不仅继承了Transformer在全局依赖建模上的优势,还吸收了Mamba在处理长序列时的高效性能。

Jamba模型的一个关键特点是它的混合专家(MoE)技术,这允许模型在保持高性能的同时降低资源消耗。MoE通过在模型中引入多个专家模块,选择性地激活部分专家来降低计算复杂度,从而增加模型容量而不显著增加计算需求。

在性能方面,Jamba模型在多个基准测试中展现出了优异的结果,其吞吐量是同等规模Transformer模型的三倍,同时在长上下文处理能力上也有显著提升。Jamba模型支持长达256K个token的上下文长度,这相当于大约210页文本,同时在单个GPU上能够处理高达140K个token的上下文。

Mamba解决了LLM模型的两个缺点,分别是:

1)Transformer的内存占用随上下文长度而变化,内存占用较大;

2)随着上下文的增长,推理速度变慢。

Mamba为语言模型开发开辟了新的可能性,AI21 Labs开发了相应的联合注意力和Mamba (Jamba) 架构,Jamba由Transformer、Mamba和混合专家 (MoE) 层组成,可同时优化内存、吞吐量和性能。

此次发布的Jamba 1.5系列模型基于新颖的 SSM-Transformer 架构构建,具有出色的长上下文处理能力、速度和质量——超越了同尺寸级别的竞争对手,并标志着非 Transformer 模型首次成功扩展到市场领先模型的质量和强度。

此外,Jamba模型还具有一些开发人员友好的特性,如函数调用、结构化JSON输出、文档对象消化和RAG优化等,这些特性使得Jamba在广泛的开发场景中都非常有用。

总的来说,Jamba模型的推出标志着在大型语言模型领域的一个新方向,它通过混合架构和MoE技术,在保持高性能的同时,显著提高了效率和长上下文处理能力,为AI应用开辟了新的可能性。

03 非Transformer模型的未来与发展

Transformer模型自2017年由Vaswani等人提出以来,因其自注意力机制在处理序列数据时能够有效捕捉长距离依赖关系,已成为自然语言处理(NLP)领域的主流模型之一。

许多非Transformer架构是基于Transformer的局限性提出的,比如WKV、Meta的Mega、微软亚研的 Retnet、Mamba、DeepMind团队的Hawk和Griffin 等,大多在原来的RNN基础上,针对Transformer的缺陷和局限性来做改进,因此非Transformer模型与Transformer模型相比,有其独特的优势和特点。

当前,表现较为优异的非Transformer架构模型有如下几个:

数据来源:公开信息整理,科智咨询,2024年9月

非Transformer模型的特点:

✔ 结构多样性:非Transformer模型可能采用不同的网络结构,如循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等,这些模型在特定任务上可能更适合。

✔计算效率:在某些情况下,非Transformer模型可能在计算效率上具有优势,尤其是在处理较短的序列或在资源受限的环境中。

✔ 特定任务优化:非Transformer模型可能针对特定任务进行优化,如语音识别、图像处理等,这些任务可能不需要Transformer模型的长距离依赖捕捉能力。

非Transformer模型的进步:

✔新的注意力机制:一些非Transformer模型探索了新的注意力机制,以提高模型的性能和效率;

✔模型压缩和加速:为了在移动设备和边缘设备上部署,非Transformer模型可能采用模型压缩和加速技术;

✔ 创新的网络架构:研究者们不断提出新的网络架构,以解决Transformer模型在某些任务上的局限性。

总而言之,非Transformer模型在一些方面提供了与Transformer模型不同的优势,在资源利用上更为高效,有助于大模型在资源受限环境下的应用,对于推动AI技术的发展具有重要意义。随着研究的不断深入,未来可能会有更多创新的非Transformer模型出现,为大模型的发展带来新的机遇和挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重要信息只说了60%?比亚迪闪充的杀伤力,这次比华为大

重要信息只说了60%?比亚迪闪充的杀伤力,这次比华为大

路咖汽车
2026-03-06 10:15:12
地面战争开始,伊朗击落F-15E

地面战争开始,伊朗击落F-15E

西楼饮月
2026-03-05 20:46:17
人大代表庹庆明建议将70岁以上老人全口义齿修复纳入医保 让更多老人尝到饭香

人大代表庹庆明建议将70岁以上老人全口义齿修复纳入医保 让更多老人尝到饭香

闪电新闻
2026-03-05 18:04:46
文班谈盖帽:我就喜欢看他们努力半天,最后被我毁掉一天的样子

文班谈盖帽:我就喜欢看他们努力半天,最后被我毁掉一天的样子

仰卧撑FTUer
2026-03-06 14:19:03
原来早已不是中国籍,被老外“玩腻”后回国,郑绪岚现状令人唏嘘

原来早已不是中国籍,被老外“玩腻”后回国,郑绪岚现状令人唏嘘

暖心萌阿菇凉
2026-03-02 23:02:48
物理学停滞100年,三座大山难以逾越!或许永远都无法进步?

物理学停滞100年,三座大山难以逾越!或许永远都无法进步?

心中的麦田
2026-03-03 20:19:10
美军总结:我们最大的错误,以为志愿军只是人民军二流部队水平

美军总结:我们最大的错误,以为志愿军只是人民军二流部队水平

雍亲王府
2026-03-06 08:55:06
上海一女子因投诉遭拜博口腔医院拒诊 还被备注“有精神病史”

上海一女子因投诉遭拜博口腔医院拒诊 还被备注“有精神病史”

信网
2026-03-06 11:39:27
美国人也很纳闷:伊朗导弹怎么还没炸光?美媒给答案:朝鲜出手了

美国人也很纳闷:伊朗导弹怎么还没炸光?美媒给答案:朝鲜出手了

往事我敬你一杯酒人
2026-03-05 23:22:43
Cell重磅:北师大等单位发现虫草素可延缓衰老并延长寿命

Cell重磅:北师大等单位发现虫草素可延缓衰老并延长寿命

iNature前沿
2026-03-05 10:05:22
乔迪:之前我们已证明,中国球员完全有能力达到我的传控要求

乔迪:之前我们已证明,中国球员完全有能力达到我的传控要求

懂球帝
2026-03-06 12:48:26
96小时内,哈梅殡葬准时举行,普京去不了现场,中国做出重大承诺

96小时内,哈梅殡葬准时举行,普京去不了现场,中国做出重大承诺

小嵩
2026-03-06 02:07:55
初恋开大酒店,我调任市委书记后去她的大酒店吃饭,被她百般嘲笑

初恋开大酒店,我调任市委书记后去她的大酒店吃饭,被她百般嘲笑

奶茶麦子
2026-03-05 23:57:07
伊朗军方:击中美军“林肯”号航母!道指盘中狂泻千点,原油暴涨8.5%创近六年最大单日涨幅

伊朗军方:击中美军“林肯”号航母!道指盘中狂泻千点,原油暴涨8.5%创近六年最大单日涨幅

金融界
2026-03-06 08:12:10
贝尔:阿扎尔是训练最差的队友,但我也不全力训练

贝尔:阿扎尔是训练最差的队友,但我也不全力训练

懂球帝
2026-03-05 22:09:19
遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

阿纂看事
2026-03-04 18:21:39
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
奉劝所有40到50岁后的中年人,只要不被开除,干到退休就是成功

奉劝所有40到50岁后的中年人,只要不被开除,干到退休就是成功

岁月有情1314
2026-03-03 14:49:44
曾经走红,如今却“沦为笑柄”的4种数码产品,还是别再买了

曾经走红,如今却“沦为笑柄”的4种数码产品,还是别再买了

美家指南
2026-03-06 10:31:36
一代上海人的回忆落幕!“老舅妈”嫩娘去世,享年100岁

一代上海人的回忆落幕!“老舅妈”嫩娘去世,享年100岁

上观新闻
2026-03-06 12:37:06
2026-03-06 14:40:49
科智咨询K
科智咨询K
数字科技领域专业咨询服务机构
39文章数 0关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊军指挥官:这几天只是清库存 会亮从未公开的大杀器

头条要闻

伊军指挥官:这几天只是清库存 会亮从未公开的大杀器

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

家居
亲子
时尚
数码
公开课

家居要闻

暖棕撞色 轻法奶油风

亲子要闻

真的有这么好吃吗?

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

数码要闻

MacBook Neo基准测试成绩接近iPhone 16 Pro 与M1表现相当

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版