网易首页 > 网易号 > 正文 申请入驻

英伟达撕下了大模型长文本的遮羞布

0
分享至

英伟达发布了一个大模型长文本的评估基准RULER,测评了不同大模型长文本的能力,结果可能会让你意外。

今天,长文本已经成为了大模型的基础能力的标配。随着 Claude 2.1 的发布,Anthropic 从 100K 跃升至 200K,而随着 Gemini 1.5 的发布,Google 从 32K 跃升至 2M。

但这些数字必须仔细分析。大模型真如他们自己选选的那般“长”文本吗?

今年6月,英伟达发布了一个大模型长文本的评估基准 RULER,AI21 Labs 的 Jamba 模型力压群雄,是表现最好的长文本模型。

AI21 Labs 联合 CEO Yoav Shoham 发文介绍了关于大模型长文本背后隐秘的技术细节。核心问题包括:

  • 拥有较长的上下文窗口是否意味着模型实际上可以用它做一些有用的事情?

  • 您能否提供具有可接受延迟和单位经济性的长上下文模型?

  • 在如今这种 RAGish 日子里,长篇背景还有那么重要吗?

本文将在下面逐一讨论这些问题。


大海捞针已经过时,英伟达提出衡量长文本的新标准

模型不会因较长的上下文而受阻,但这并不意味着它能利用它做一些有用的事情。与评估 LLM 的一般情况一样,评估它是否能做一些有用的事情并不是一件容易的事。常见的大海捞针 (NIAH) 基准测试,即提示模型从非常长的提示中检索隐藏的信息位,可以捕获一些有价值的东西,但实际上并没有告诉你很多关于现实世界应用的信息。

英伟达(AI Labs 的投资方之一)最近发布了一个新的基准RULER,这在这方面做出了值得欢迎的贡献。它评估了四类复杂且多步骤的推理任务(检索、多跳跟踪、聚合和问答)中的长上下文模型,更接近捕捉现实世界的应用程序。

除了更加全面之外,该基准的另一个重要贡献是设立了“及格分数”,使我们能够区分声称的长度和所谓的“有效长度”,后者定义为模型在 RULER 上取得至少 85% 分数的最大窗口长度。

原始数据,论文地址:https://arxiv.org/pdf/2404.06654

上表显示了各种模型的声称上下文长度和实际上下文长度之间的差距。我们赞扬所有将两者相符的模型构建者。Jamba 属于这个“广告真实性”荣誉榜单,它提供的上下文比大多数模型都长(实际上,比所有模型都长,Gemini 1.5 Pro 可能除外),并且与同尺寸级别的其他模型相比,它的上下文窗口是迄今为止最长的。下面将详细介绍。

为了获得完整的图像,这里是完整的概述,其中列出了不同模型根据 RULER 基准标准 85% 的通过率通过的各种上下文长度。

为什么声明的上下文长度和有效的上下文长度并不总是匹配?

声称的上下文长度与实际上下文长度存在差异的一个根本原因是模型构建者诱导模型接受长上下文的方式。Transformer 架构的内存占用迫使人们采用诸如稀疏注意力或滑动窗口(以及许多其他解决方案)等解决方案,以便利用越来越长的上下文。这些技巧的副作用是损害答案质量。

在构建 Jamba 时,AI21 Labs 采用了不同的方法。卡内基梅隆大学和普林斯顿大学的研究人员于 2023 年 12 月发布了新颖的Mamba 架构,提供了扩展到理论上无限上下文窗口的可能性。AI21 Labs 的团队抓住了这个机会,几个月后就发布了世界上第一个基于 Mamba 的生产级模型。为了弥补 SSM 架构的局限性,它增加了一些Transformer 层。

这在其白皮书中有详细描述:https://arxiv.org/pdf/2403.19887

控制延迟、服务成本和内存需求

即使你以某种方式确保模型输出高质量的答案,但如果花费太长时间并花费大量金钱来生成该答案,那么该模型就没有用处。

该图表还包含了上述评估的模型的当前成本和延迟。

Jamba 性能优异的原因再次在于其混合 SSM-Transformer 架构的近乎线性的复杂性。它使我们能够保持 Transformer 的卓越品质,而不会遭受纯 Transformer 设计的复杂性。

也许可视化有效上下文窗口与模型的服务成本的最佳方式是下图。

图表说明了一切。Jamba 提供了最长的上下文窗口,而成本仅为其他几款具有同等长度的产品的一小部分。

延迟的另一面是吞吐量,下面是不同模型的吞吐量与上下文窗口长度的比较。Jamba 在长于 64K 的上下文窗口上显示出吞吐量的显著提升,凸显了该模型以最高效率处理长上下文用例的内在能力。

长上下文和RAG不是非此即彼

有时人们会听到有人说 RAG 消除了对长上下文的需求——只需检索信息,就不需要长上下文。但事实并非如此;相反,两者相辅相成。在构建将两者配对的 AI 系统时,长上下文模型提高了 RAG 检索阶段的质量,而 RAG 为扩展这种高质量的长上下文处理提供了蓝图。

这种长上下文 + RAG 未来的好处在企业应用中随处可见,从高级搜索到信息综合等等。例如:

客户支持:公司可以使用 Jamba-Instruct 和 AI21 的 RAG Engine 为其客户支持代理构建问答工具。借助 Jamba-Instruct 的 256K 上下文窗口,RAG Engine 将能够从数百万个知识库文档中检索更多片段,从而生成与其上下文一致且更准确的答案。

财务文件摘要:投资公司可以为其分析师构建一个摘要工具,使 RAG 引擎能够从公司内部记录和报告数据库中检索完整文档而不是孤立的块,从而生成更可靠、更准确的关键点摘要。

这些只是一些例子,说明公司可以开始思考长上下文如何能够加强 RAG 管道,其中长上下文模型可以增强检索阶段以产生更可靠的输出,而 RAG 则可以扩展这一过程。

正如利用 Mamba 和 Transformer 架构的优势构建了新颖的 Jamba 架构一样,最好、最强大的 AI 系统也将通过利用多个组件的优势来构建,从而为每个客户定制一个高度专业化的系统。

| |

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

阿纂看事
2024-11-05 11:54:58
谢霆锋张柏芝上船当P友!?

谢霆锋张柏芝上船当P友!?

八卦疯叔
2026-05-11 10:00:14
演员热依扎回应暂别演艺圈

演员热依扎回应暂别演艺圈

半岛晨报
2026-05-11 12:49:10
0:3詹姆斯再上热搜,里夫斯5000万身价打没了!列湖人G3三大罪人

0:3詹姆斯再上热搜,里夫斯5000万身价打没了!列湖人G3三大罪人

蛋疼体育
2026-05-11 17:14:25
央视主持人朱迅:生命终点将结束,为何不勇敢面对生命的终点呢?

央视主持人朱迅:生命终点将结束,为何不勇敢面对生命的终点呢?

吃青菜长高
2026-05-10 06:28:57
10年后,小米再次沦为Others

10年后,小米再次沦为Others

数智研究社
2026-05-11 08:00:17
国际乒联发布林诗栋站上球台庆祝画面,日媒:这不是领奖台,做法不妥当

国际乒联发布林诗栋站上球台庆祝画面,日媒:这不是领奖台,做法不妥当

夕落秋山
2026-05-11 14:29:41
8-3领先连丢8分,张本智和输到脸变形!赛后沮丧发声,日媒也怂了

8-3领先连丢8分,张本智和输到脸变形!赛后沮丧发声,日媒也怂了

萌兰聊个球
2026-05-11 09:08:17
来了!奔驰GLE正式国产

来了!奔驰GLE正式国产

新浪财经
2026-05-11 17:09:45
原来早已不是中国籍,被老外“玩腻”后回国的郑绪岚,如今咋样了

原来早已不是中国籍,被老外“玩腻”后回国的郑绪岚,如今咋样了

流云随风去远方
2026-05-10 22:32:50
随着韩国0-1惜败,女足亚洲杯四强已经诞生2席

随着韩国0-1惜败,女足亚洲杯四强已经诞生2席

俯身冲顶
2026-05-11 17:00:08
马光远:AI泡沫一定会破灭,而且一定会以非常惨烈的方式破灭!

马光远:AI泡沫一定会破灭,而且一定会以非常惨烈的方式破灭!

混沌录
2026-05-10 19:32:20
重磅,国家要正式出手了!不生孩子的时代将要结束了?

重磅,国家要正式出手了!不生孩子的时代将要结束了?

一口娱乐
2026-05-11 10:51:48
男子为不吃预制菜,要求麻婆豆腐切三角形,炒鱼香肉丝不放盐被拒

男子为不吃预制菜,要求麻婆豆腐切三角形,炒鱼香肉丝不放盐被拒

观察鉴娱
2026-05-11 13:36:37
西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

千言娱乐记
2026-05-11 14:49:45
熔断!刚刚,全线暴涨!

熔断!刚刚,全线暴涨!

新浪财经
2026-05-11 13:11:07
中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

美食格物
2026-05-10 15:13:10
成本暴降80%!几百万网约车司机要丢饭碗?出行巨头血拼千亿底盘

成本暴降80%!几百万网约车司机要丢饭碗?出行巨头血拼千亿底盘

侃故事的阿庆
2026-05-10 08:38:19
孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

三十年莱斯特城球迷
2026-05-10 19:59:48
97年和女同事出差,宾馆只剩一间房她白我一眼:你敢乱动我就报警

97年和女同事出差,宾馆只剩一间房她白我一眼:你敢乱动我就报警

千秋文化
2026-05-08 10:18:54
2026-05-11 19:35:00
猜想笔记 incentive-icons
猜想笔记
公众号同名。
142文章数 4关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

外交部介绍特朗普访华具体安排和中方期待

头条要闻

外交部介绍特朗普访华具体安排和中方期待

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

多重催化剂共振,人民币汇率升破6.8

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

旅游
手机
家居
数码
军事航空

旅游要闻

从看热闹到掏腰包,文商旅体融合进入“深水区”

手机要闻

消息称某厂Pro Max新机有望搭载2亿主摄、2nm天玑芯

家居要闻

多元生活 此处无声

数码要闻

曜越CT120 EX INFINITY ARGB系列风扇发售,三联包售499元

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版