网易首页 > 网易号 > 正文 申请入驻

英伟达撕下了大模型长文本的遮羞布

0
分享至

英伟达发布了一个大模型长文本的评估基准RULER,测评了不同大模型长文本的能力,结果可能会让你意外。

今天,长文本已经成为了大模型的基础能力的标配。随着 Claude 2.1 的发布,Anthropic 从 100K 跃升至 200K,而随着 Gemini 1.5 的发布,Google 从 32K 跃升至 2M。

但这些数字必须仔细分析。大模型真如他们自己选选的那般“长”文本吗?

今年6月,英伟达发布了一个大模型长文本的评估基准 RULER,AI21 Labs 的 Jamba 模型力压群雄,是表现最好的长文本模型。

AI21 Labs 联合 CEO Yoav Shoham 发文介绍了关于大模型长文本背后隐秘的技术细节。核心问题包括:

  • 拥有较长的上下文窗口是否意味着模型实际上可以用它做一些有用的事情?

  • 您能否提供具有可接受延迟和单位经济性的长上下文模型?

  • 在如今这种 RAGish 日子里,长篇背景还有那么重要吗?

本文将在下面逐一讨论这些问题。


大海捞针已经过时,英伟达提出衡量长文本的新标准

模型不会因较长的上下文而受阻,但这并不意味着它能利用它做一些有用的事情。与评估 LLM 的一般情况一样,评估它是否能做一些有用的事情并不是一件容易的事。常见的大海捞针 (NIAH) 基准测试,即提示模型从非常长的提示中检索隐藏的信息位,可以捕获一些有价值的东西,但实际上并没有告诉你很多关于现实世界应用的信息。

英伟达(AI Labs 的投资方之一)最近发布了一个新的基准RULER,这在这方面做出了值得欢迎的贡献。它评估了四类复杂且多步骤的推理任务(检索、多跳跟踪、聚合和问答)中的长上下文模型,更接近捕捉现实世界的应用程序。

除了更加全面之外,该基准的另一个重要贡献是设立了“及格分数”,使我们能够区分声称的长度和所谓的“有效长度”,后者定义为模型在 RULER 上取得至少 85% 分数的最大窗口长度。

原始数据,论文地址:https://arxiv.org/pdf/2404.06654

上表显示了各种模型的声称上下文长度和实际上下文长度之间的差距。我们赞扬所有将两者相符的模型构建者。Jamba 属于这个“广告真实性”荣誉榜单,它提供的上下文比大多数模型都长(实际上,比所有模型都长,Gemini 1.5 Pro 可能除外),并且与同尺寸级别的其他模型相比,它的上下文窗口是迄今为止最长的。下面将详细介绍。

为了获得完整的图像,这里是完整的概述,其中列出了不同模型根据 RULER 基准标准 85% 的通过率通过的各种上下文长度。

为什么声明的上下文长度和有效的上下文长度并不总是匹配?

声称的上下文长度与实际上下文长度存在差异的一个根本原因是模型构建者诱导模型接受长上下文的方式。Transformer 架构的内存占用迫使人们采用诸如稀疏注意力或滑动窗口(以及许多其他解决方案)等解决方案,以便利用越来越长的上下文。这些技巧的副作用是损害答案质量。

在构建 Jamba 时,AI21 Labs 采用了不同的方法。卡内基梅隆大学和普林斯顿大学的研究人员于 2023 年 12 月发布了新颖的Mamba 架构,提供了扩展到理论上无限上下文窗口的可能性。AI21 Labs 的团队抓住了这个机会,几个月后就发布了世界上第一个基于 Mamba 的生产级模型。为了弥补 SSM 架构的局限性,它增加了一些Transformer 层。

这在其白皮书中有详细描述:https://arxiv.org/pdf/2403.19887

控制延迟、服务成本和内存需求

即使你以某种方式确保模型输出高质量的答案,但如果花费太长时间并花费大量金钱来生成该答案,那么该模型就没有用处。

该图表还包含了上述评估的模型的当前成本和延迟。

Jamba 性能优异的原因再次在于其混合 SSM-Transformer 架构的近乎线性的复杂性。它使我们能够保持 Transformer 的卓越品质,而不会遭受纯 Transformer 设计的复杂性。

也许可视化有效上下文窗口与模型的服务成本的最佳方式是下图。

图表说明了一切。Jamba 提供了最长的上下文窗口,而成本仅为其他几款具有同等长度的产品的一小部分。

延迟的另一面是吞吐量,下面是不同模型的吞吐量与上下文窗口长度的比较。Jamba 在长于 64K 的上下文窗口上显示出吞吐量的显著提升,凸显了该模型以最高效率处理长上下文用例的内在能力。

长上下文和RAG不是非此即彼

有时人们会听到有人说 RAG 消除了对长上下文的需求——只需检索信息,就不需要长上下文。但事实并非如此;相反,两者相辅相成。在构建将两者配对的 AI 系统时,长上下文模型提高了 RAG 检索阶段的质量,而 RAG 为扩展这种高质量的长上下文处理提供了蓝图。

这种长上下文 + RAG 未来的好处在企业应用中随处可见,从高级搜索到信息综合等等。例如:

客户支持:公司可以使用 Jamba-Instruct 和 AI21 的 RAG Engine 为其客户支持代理构建问答工具。借助 Jamba-Instruct 的 256K 上下文窗口,RAG Engine 将能够从数百万个知识库文档中检索更多片段,从而生成与其上下文一致且更准确的答案。

财务文件摘要:投资公司可以为其分析师构建一个摘要工具,使 RAG 引擎能够从公司内部记录和报告数据库中检索完整文档而不是孤立的块,从而生成更可靠、更准确的关键点摘要。

这些只是一些例子,说明公司可以开始思考长上下文如何能够加强 RAG 管道,其中长上下文模型可以增强检索阶段以产生更可靠的输出,而 RAG 则可以扩展这一过程。

正如利用 Mamba 和 Transformer 架构的优势构建了新颖的 Jamba 架构一样,最好、最强大的 AI 系统也将通过利用多个组件的优势来构建,从而为每个客户定制一个高度专业化的系统。

| |

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普宣称“与伊朗不会达成任何协议”

特朗普宣称“与伊朗不会达成任何协议”

新华社
2026-03-06 22:14:06
特朗普神操作!当众聊轰炸德黑兰+当面提C罗 梅西脚趾抠地全网爆火

特朗普神操作!当众聊轰炸德黑兰+当面提C罗 梅西脚趾抠地全网爆火

劲爆体坛
2026-03-06 08:50:03
特殊时点,金正恩再上“最大的船”

特殊时点,金正恩再上“最大的船”

中国新闻周刊
2026-03-06 18:14:11
下饭文化杀死了多少中国胃,一碗米饭的阴谋

下饭文化杀死了多少中国胃,一碗米饭的阴谋

富贵说
2026-03-05 15:56:38
中国女篮拒14分逆转双杀巴西获4连胜 刘禹彤17+7张子宇11分

中国女篮拒14分逆转双杀巴西获4连胜 刘禹彤17+7张子宇11分

醉卧浮生
2026-03-06 21:13:26
连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

盐城市民网
2026-03-06 11:25:34
宁夏大学教授:为什么哈梅内伊不慌张?

宁夏大学教授:为什么哈梅内伊不慌张?

必记本
2026-03-06 18:21:35
重回国乒?尘埃落定,刘国梁发声,岗位曝光,布局国乒男队发展

重回国乒?尘埃落定,刘国梁发声,岗位曝光,布局国乒男队发展

卿子书
2026-03-06 09:25:27
伊拉克库尔德第一夫人宣言:我们不是任人驱使的炮灰!

伊拉克库尔德第一夫人宣言:我们不是任人驱使的炮灰!

胜研集
2026-03-06 13:44:23
外媒:中国防空又被打脸了?美军空袭摧毁伊朗一套红旗-2防空导弹

外媒:中国防空又被打脸了?美军空袭摧毁伊朗一套红旗-2防空导弹

近史博览
2026-03-07 02:15:04
今天,我无聊地想起了马杜罗……司机

今天,我无聊地想起了马杜罗……司机

忽然亦周
2026-03-06 09:59:41
神袍之下,三千亿财富帝国

神袍之下,三千亿财富帝国

老鹰哥
2026-03-04 09:52:15
安徽大学有学生研究哈梅内伊思想

安徽大学有学生研究哈梅内伊思想

深度报
2026-03-05 22:44:32
长城汽车魏建军承认抄袭路虎海报:责任主要在我,愿承担全部法律和经济责任

长城汽车魏建军承认抄袭路虎海报:责任主要在我,愿承担全部法律和经济责任

新浪财经
2026-03-06 20:19:19
国内成品油价格将迎调整

国内成品油价格将迎调整

环球网资讯
2026-03-06 10:08:08
伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

麓谷隐士
2026-03-06 07:37:46
全国政协委员周世虹:建议废除劳务派遣制度,该制度已成为克扣和剥削劳动者收入的手段和工具

全国政协委员周世虹:建议废除劳务派遣制度,该制度已成为克扣和剥削劳动者收入的手段和工具

湖南法治报
2026-03-05 14:11:50
政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

冷观互联网
2026-03-06 11:48:12
万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

查尔菲的笔记
2026-03-05 20:24:50
广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

大象新闻
2026-03-06 02:03:20
2026-03-07 02:59:00
猜想笔记 incentive-icons
猜想笔记
公众号同名。
142文章数 4关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

艺术
数码
家居
手机
公开课

艺术要闻

惊艳水彩画!简约笔触与透光感让人叹服!

数码要闻

苹果“HomePad”智能家居中枢推迟至2026年秋季发布

家居要闻

暖棕撞色 轻法奶油风

手机要闻

荣耀600系列曝光:9000mAh+2亿像素+超声波指纹,这波堆料太狠

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版