网易首页 > 网易号 > 正文 申请入驻

Mamba架构第一次做大!混合Transformer,打败Transformer

0
分享至

  • 丰色 发自 凹非寺
    量子位 | 公众号 QbitAI

精彩精彩,第一个把爆火Mamba架构真正扩展到足够的工作来了。

520亿参数,还是Mamba+Transformer混合架构。

它的名字叫Jamba



取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。



初步跑分显示:

  • Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍



  • 一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济。



这项成果,来自以色列AI公司AI21labs

Mamba原作者看了之后都激动转发:

绝对的“大新闻”。



Mamba、Transformer,合体

由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)。

但它也有自己的缺点——

在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。

本着“既要也要”的原则,Jamba站出来提供两全其美之作。



Jamba由Transformer、Mamba和MoE层组成,可同时优化内存、吞吐量和性能。

如下图所示,为了集成两种架构,Jamba采用块层(blocks-and-layers)组合的创新方法。

简单来说,就是每个Jamba块包含一个注意力层或一个Mamba层,再跟一个多层感知器MLP,总体比例保证为每八层一个Transformer层



其次,Jamba利用MoE来增加模型参数的总量,同时简化推理中使用的活动参数量。

最终模型容量高了,计算需求也没有相应的增加。

而为了在单张GPU(80GB)上最大限度地提高模型吞吐量,Jamba还优化了所用MoE层和专家数量,最终为日常推理工作负载留出足够内存。

值得一提的是,在推理时,Jamba的MoE层仅需520亿可用参数中的120亿,就能同时保证比同等大小的仅Transformer模型更高效。

要知道,此前有人光是尝试过扩展Mamba,就没能做到30亿参数之上。

因此,除了成功合体Mamba和Transformer,Jamba也达成了第二大成就:

同类中第一个达到生产级规模和质量的混合架构(SSM混Transformer)(ps. Mamba就是一种状态空间模型SSM)。

吞吐量和效率up

初步评估显示,Jamba在吞吐量和效率等关键指标上表现出色。

首先,Jamba可以在长上下文中提供3倍吞吐量,比Mixtral 8x7B等大小相当的Transformer模型都要高效。

如下图所示,当上下文窗口达到128k时,Jamba的每秒token数近乎1500,而此时表现最好的Mixtral 8x7B应该才在500往上的样子。



其次,在单张GPU上,Jamba最多可以容纳140k上下文,经济又高效。

相比之下,Mixtral 8x7B为64k,Llama2 70B则仅为16k。



第三,Jamba的输出质量也得到了保证。

在如下一系列推理基准上,4项中有3项它都拿下了SOTA。同时,在GSM8K等基准上,Jamba即使没有夺魁,也和SOTA模型打了个不相上下。

总体来说,Jamba的性能接近Mixtral 8x7B。



最后,作者提示,别忘了,这些都还只是初步改造后的结果,后续还有很多优化空间(比如MoE并行、更快的Mamba实现)。所以到时性能会更强。

好消息:Jamba现在已经上线Hugging Face,并且划重点:采用apache-2.0许可

(Jamba的指令版本则将很快通过AI21labs平台上线。)



网友看完都感动哭了。





传送门:
https://huggingface.co/ai21labs/Jamba-v0.1

参考链接:
[1]https://www.ai21.com/blog/announcing-jamba
[2]https://www.ai21.com/jamba
[3]https://twitter.com/AI21Labs/status/1773350888427438424?s=20
[4]https://twitter.com/tri_dao/status/1773418926518734957?s=20

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南女孩爸爸暴打校霸后续:男孩母亲遭全网痛批,女孩舅舅爆内情

河南女孩爸爸暴打校霸后续:男孩母亲遭全网痛批,女孩舅舅爆内情

历史有些冷
2024-04-28 06:10:03
AirPods 4 来了,有啥新功能?

AirPods 4 来了,有啥新功能?

奇奇怪怪的冒险
2024-04-28 15:45:12
为什么西方对中国越来越破防?因为他们感到了绝望!

为什么西方对中国越来越破防?因为他们感到了绝望!

搞笑先生的日记本
2024-04-18 16:18:20
同样是争议言行,田馥甄遭抵制,蔡依林却能稳稳捞金,原因太简单

同样是争议言行,田馥甄遭抵制,蔡依林却能稳稳捞金,原因太简单

萌神木木
2024-04-28 19:59:58
周鸿祎懵逼!卖迈巴赫,卖到了990万!竞拍者表示:这辈子不卖

周鸿祎懵逼!卖迈巴赫,卖到了990万!竞拍者表示:这辈子不卖

户外小阿隋
2024-04-28 21:22:07
《眼泪女王》大结局收视率,最终超越《爱的迫降》,位居第一

《眼泪女王》大结局收视率,最终超越《爱的迫降》,位居第一

韩娱明星趣闻
2024-04-29 07:05:24
暗讽梅西!莱万:2020年2021年我85场打进100球 至少该拿1座金球奖

暗讽梅西!莱万:2020年2021年我85场打进100球 至少该拿1座金球奖

818体育
2024-04-28 22:32:05
汤尤杯第2天!前冠军球队0-5惨败出局,男团8强已出4席,国羽大胜

汤尤杯第2天!前冠军球队0-5惨败出局,男团8强已出4席,国羽大胜

知轩体育
2024-04-29 00:28:40
烤肉姐:联盟里所有球队都知道掘金就跟重型坦克似的 特别难打

烤肉姐:联盟里所有球队都知道掘金就跟重型坦克似的 特别难打

直播吧
2024-04-28 15:14:33
1换3,沈梓捷交易或敲定,郭艾伦回归时间曝光,朱芳雨回应孙铭徽

1换3,沈梓捷交易或敲定,郭艾伦回归时间曝光,朱芳雨回应孙铭徽

东球弟
2024-04-28 09:43:39
乌克兰被忽悠瘸了?有些人别把自己也给骗了

乌克兰被忽悠瘸了?有些人别把自己也给骗了

寰宇大观察
2024-04-27 21:30:09
碧桂园地产:公司面临的经营环境日趋复杂 无法按时披露2023年年度报告

碧桂园地产:公司面临的经营环境日趋复杂 无法按时披露2023年年度报告

天天财经116
2024-04-28 11:46:10
广东官宣四强门票!顶部仅200与260元,现场热度会爆棚!

广东官宣四强门票!顶部仅200与260元,现场热度会爆棚!

元爸体育
2024-04-28 21:33:01
清凉峰事件大结局:男驴友瘦了,体力好,女子老公发声耐人寻味!

清凉峰事件大结局:男驴友瘦了,体力好,女子老公发声耐人寻味!

古希腊掌管松饼的神
2024-04-27 17:53:41
突发!世界冠军或脱离WST,世台联严正警告,奥沙利文支持老友!

突发!世界冠军或脱离WST,世台联严正警告,奥沙利文支持老友!

刘姚尧的文字城堡
2024-04-29 07:34:43
现代潘金莲:出轨5人,被丈夫发现后竟下杀手,后因一细节而败露

现代潘金莲:出轨5人,被丈夫发现后竟下杀手,后因一细节而败露

阿胡
2024-04-27 12:20:27
台湾新任陆委会主管邱垂正:我们的祖先来自对岸,但我们只是华人

台湾新任陆委会主管邱垂正:我们的祖先来自对岸,但我们只是华人

狐哥讲动物
2024-04-28 18:57:38
2比2平!登乔66+12+15!快船5打8尽力了

2比2平!登乔66+12+15!快船5打8尽力了

篮球教学论坛
2024-04-29 07:08:31
一场2-0或改写英超3队命运!曼城差阿森纳1分,4场全胜将反超夺冠

一场2-0或改写英超3队命运!曼城差阿森纳1分,4场全胜将反超夺冠

体育知多少
2024-04-29 06:08:11
朱婷连夜搬家,和新东家无缝衔接,新赛季随队冲击七连冠

朱婷连夜搬家,和新东家无缝衔接,新赛季随队冲击七连冠

跑者排球视角
2024-04-28 23:31:58
2024-04-29 09:06:44
量子位
量子位
追踪人工智能动态
9332文章数 175242关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

运城高速回应问界M7致3死事故:涉事养护车在移动作业

头条要闻

运城高速回应问界M7致3死事故:涉事养护车在移动作业

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

鸿蒙首款行政旗舰轿车 华为享界S9实车亮相车展

态度原创

旅游
数码
艺术
公开课
军事航空

旅游要闻

年轻人出游:为了爱好说走就走 好玩不贵很重要

数码要闻

苹果公司将于5月7日在伦敦举行另一场发布会 可能仅面向媒体

艺术要闻

共度北京108小时 北京当代2024“凝聚”全球36座城市100余家艺术机构

公开课

父亲年龄越大孩子越不聪明?

军事要闻

也门胡塞击落美军"死神"无人机 并展示残骸

无障碍浏览 进入关怀版