网易首页 > 网易号 > 正文 申请入驻

1万tokens是检验长文本的新基准,超过后18款大模型集体失智

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

上下文扩展至1万tokens,LLM集体“失智”!

且“智商”不是均匀下降,而是在一些节点突然断崖式下跌。

比如Claude Sonnet 4,就是在1000tokens后准确率一路下滑,从90%降到60%。

或者是下降后放缓再下降,比如GPT-4.1Gemini 2.5 Flash

最终,当上下文长度来到1万tokens,大家都只剩50%准确率。



这也就意味着,大模型在读同一本书第10页和第100页时的“智商”可能不一样。

并且不同大模型在“读这本书”时突然降智的页数也不同。

GPT-4.1可能读到第10页就“失智”了,Claude兴许能坚持到第100页。



这是Chroma团队的最新研究结论,他们用升级版“大海捞针”(NIAH)测试了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在内的18个开源和闭源的主流大模型。

结果显示,随着输入长度的增加,模型的性能越来越差

实验还首次系统性地揭示了输入长度对模型性能并非均匀影响,不同模型性能可能在某一tokens长度上准确率发生骤降。

这项工作得到了网友的肯定:

以往人们或许会遇到当输入长度增加时大模型会出现性能不佳的情况,但并没有人深入探究过这个问题。



目前代码已开源,感兴趣的朋友可复现~

1万tokens是个坎儿

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口,随后GPT-4.1也加入到了1M上下文队伍中。

更长的上下文意味着LLM每次调用可以处理更多信息,似乎能生成更合理的输出。

确实,这些模型在“大海捞针”(NIAH)这些基准测试中表现良好。但实际上,现有基准测试有一个局限性是在于它们倾向于把输入长度与任务难度混为一谈

NIAH本质上是一个简单的检索任务,它是将一个已知事实(“针”)放置在一大段不相关文本(“干草堆”)中,然后要求模型检索它。



这种方法主要评估大模型直接的词汇匹配能力,无法代表更灵活、面向语义的任务。

其他更复杂的任务,例如包含非词汇匹配的NoLiMa和测试文本片段缺失识别的AbsenceBench,已经揭示了模型性能在输入长度增加时出现的显著下降,但没有进行更深入地探讨。

为了解决经典NIAH的局限性,并更好地探究仅输入长度对模型性能的影响,研究人员扩展了标准的NIAH任务。

研究人员基于保持任务复杂度不变,只改变输入长度核心原则,设计了四项对照实验。

先说结论,四项对照实验(针-问题相似度、干扰信息、针-干草堆相似度、干草堆结构实验)共同证明了LLMs的性能会随输入长度增加而显著且非均匀地下降,且这种衰减受输入内容的语义特征、结构等因素影响。

具体表现为

  1. 输入长度是性能衰减的核心变量,无论任务简单与否,模型处理长文本的可靠性都会下降;
  2. 语义关联性(如针-问题相似度低、针与干草堆语义融合)会加剧衰减;
  3. 干扰信息和文本结构(如逻辑连贯的干草堆)会进一步削弱模型在长上下文任务中的表现;
  4. 不同模型对这些因素的敏感程度存在差异,但整体均无法维持稳定性能。

第一项是针-问题相似度实验:验证“针”与“问题”的语义相似度是否会影响模型在长上下文任务中的表现,尤其是输入长度增加时,低相似度是否会加剧性能衰减。

实验选取了保罗・格雷厄姆散文(PG essay)和arXiv论文作为背景数据(干草堆),针对其核心主题设计问题,并为每个问题生成8个与主题匹配且未出现在干草堆中的 “针”,通过5种嵌入模型计算“针-问题”余弦相似度,分为高、低相似度两组。

实验控制任务复杂度和干草堆内容,仅调整输入长度(10²到10⁴tokens)和相似度,以模型回答准确率为指标(由GPT-4.1评估,与人类判断一致性超过99%)。



结果显示,所有模型性能均随输入长度增加而下降,到1万token左右下降最明显,且低相似度组衰减更显著——

高相似度组在10⁴tokens 时准确率约60%-80%,低相似度组降至40%-60%,高性能模型虽在短输入时表现更好,长输入下仍难避免衰减。

这表明,“针-问题”语义相似度是关键影响因素,相似度越低,长输入下模型性能衰减越剧烈,揭示了现有模型处理模糊信息的局限性。

第二项是干扰信息实验:探究当输入长度变化时,与目标信息(针)相关但不匹配的干扰内容对LLMs性能的影响,尤其是干扰项数量和个体差异是否会加剧性能衰减。

研究团队从保罗・格雷厄姆散文和arXiv论文两类干草堆中,选取与问题语义相似度较高的“针”,并手动设计4个干扰项。

实验设置了三种条件:基线(仅含“针”,无干扰项)、单一干扰项(“针”+1条随机位置的干扰项)、多重干扰项(“针”+4条随机分布的干扰项)。



通过控制任务复杂度(仅需检索“针”并回答问题),仅调整输入长度(从10²到10⁴tokens)和干扰项数量,以模型回答的准确率为指标。



结果显示,即使单一干扰项也会导致模型性能低于基线,而加入4条干扰项会进一步加剧性能衰减。

输入长度为10⁴tokens时,多重干扰项条件下模型准确率比基线低30%-50%。



此外,模型对干扰项的响应存在差异:Claude系列倾向于在不确定时弃权(明确表示无法回答),幻觉率较低;GPT系列则更可能生成自信但错误的答案,受干扰影响更明显;Gemini和Qwen模型的表现波动较大,易受干扰项数量和输入长度的双重影响。

第三项是针-干草堆相似度实验:探究目标信息(针)与背景文本(干草堆)的语义相似度对 LLMs长上下文任务性能的影响。



实验选取保罗・格雷厄姆散文和arXiv论文作为干草堆,针对其核心主题设计问题及8个匹配主题的“针”(确保未出现在干草堆中),通过5种嵌入模型计算“针-干草堆” 余弦相似度并取平均值以保证稳健性。

实验控制任务复杂度,仅调整输入长度(10²到 10⁴tokens)和相似度,以模型回答准确率为指标。



结果显示,针-干草堆相似度对模型性能的影响不统一,不同模型敏感度存在差异,但整体上随着输入长度增加,各相似度条件下的模型性能普遍下降。

第四项是干草堆结构实验:探究背景文本(干草堆)的结构模式对LLMs长上下文任务性能的影响。



实验选取保罗・格雷厄姆散文和arXiv论文作为干草堆,针对其核心主题设计问题及8个匹配主题的“针”(确保未出现在干草堆中),设置连贯结构(文本按原逻辑顺序呈现)和打乱结构(文本顺序随机打乱)两种条件。

实验控制任务复杂度,仅调整输入长度(10² 到 10⁴ tokens)和干草堆结构。



结果显示,多数模型在连贯结构中随输入长度增加性能下降更显著,而打乱结构下性能下降较缓和——

输入长度10⁴tokens 时,连贯结构中部分模型准确率降至30%-40%,打乱结构则维持在50%-60%。

这表明干草堆结构是关键影响因素,现有模型处理复杂逻辑结构的长文本时挑战更大。

团队还设计了重复单词实验,说明即使是最基础的文本复现任务,LLMs 在长上下文下的稳定性也存在严重缺陷,且输入与输出长度的同步增长会加剧这一问题。



这些实验结果共同证明,尽管大型语言模型的上下文窗口不断增长,但其性能并非均匀一致

基于LLMs在长文本任务上的缺陷,也有人给出了应对策略:给出明确、清晰的指令,并且在收集到足够的信息后保存上下文,添加一个检查点。





Chroma——开源的AI应用数据库

Chroma致力于开发开源软件,由Jeff Huber(左)和Anton Troynikov(右)共同创立。



公司公开发布的同名数据库Chroma是一个开源的AI应用数据库,旨在通过将知识和技能整合为大语言模型可调用的模块,简化LLM应用的构建过程。



团队活跃于LLMs长上下文处理、检索增强生成(RAG)等领域的研究,以解决大模型在实际应用中对长文本信息的记忆、提取和利用效率问题。

目前,Chroma计划推出免费的技术预览,并表示:

我们100%专注于构建有价值的开源软件。

代码地址:https://github.com/chroma-core/context-rot


[1]https://research.trychroma.com/context-rot
[2]https://news.ycombinator.com/item?id=44564248

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着卡塔尔0-2,日本5-0,伊朗0-0,亚洲杯最新积分榜出炉

随着卡塔尔0-2,日本5-0,伊朗0-0,亚洲杯最新积分榜出炉

侧身凌空斩
2026-01-08 07:27:05
宁德时代被小鹏“拉黑”4年,为何曾毓群先低头访小鹏?

宁德时代被小鹏“拉黑”4年,为何曾毓群先低头访小鹏?

BT财经
2026-01-08 07:00:03
“睡遍顶流”的司晓迪身份被扒,曾就读淄博中学!毕业照很清纯!

“睡遍顶流”的司晓迪身份被扒,曾就读淄博中学!毕业照很清纯!

娱乐团长
2026-01-05 16:23:19
荷兰安世这下彻底懵了!中国子公司正式换国内供应商,不再合作

荷兰安世这下彻底懵了!中国子公司正式换国内供应商,不再合作

扶苏聊历史
2026-01-07 18:07:04
不是鲁能也不是申花!斯坦重返中超新东家浮出水面,球迷直言意外

不是鲁能也不是申花!斯坦重返中超新东家浮出水面,球迷直言意外

张丽说足球
2026-01-08 10:11:45
吃完了酒席,李在明启程离京,临走前终于对华改口,一个时代告终

吃完了酒席,李在明启程离京,临走前终于对华改口,一个时代告终

米果说识
2026-01-07 22:06:59
11胜5负!联盟第2!恭喜火箭队,一打强队就来劲,雷霆掘金皆逊色

11胜5负!联盟第2!恭喜火箭队,一打强队就来劲,雷霆掘金皆逊色

篮球看比赛
2026-01-08 12:24:18
北京首钢VS山东男篮!许利民拒绝输球,贝利CBA首秀,央视直播

北京首钢VS山东男篮!许利民拒绝输球,贝利CBA首秀,央视直播

体坛瞎白话
2026-01-08 08:13:38
台飞行员出事失踪已15小时,妻子绝望崩溃!台网友:这兵谁还敢当

台飞行员出事失踪已15小时,妻子绝望崩溃!台网友:这兵谁还敢当

李健政观察
2026-01-07 23:49:11
2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

林雁飞
2026-01-06 13:15:06
以色列称与叙利亚恢复外交对话

以色列称与叙利亚恢复外交对话

澎湃新闻
2026-01-07 12:16:03
郑爽近照曝光容貌变化太大遭热议,本人回应:大家就是想看我笑话

郑爽近照曝光容貌变化太大遭热议,本人回应:大家就是想看我笑话

上官晚安
2026-01-08 12:40:58
元旦表演后,商家曝光多地学生退踩脏的演出服,校方回应

元旦表演后,商家曝光多地学生退踩脏的演出服,校方回应

极目新闻
2026-01-07 12:00:17
中方向全世界宣布:对美合作终止,不接受任何相关谈判请求!

中方向全世界宣布:对美合作终止,不接受任何相关谈判请求!

华人星光
2026-01-08 11:14:40
看了王洪泽不敢投篮被杜锋骂哭的名场面,才发现,阿旺到底强在哪

看了王洪泽不敢投篮被杜锋骂哭的名场面,才发现,阿旺到底强在哪

后仰大风车
2026-01-08 09:05:08
新华社快讯:委内瑞拉内政部长说,美方强行带离总统马杜罗的军事行动造成包括平民在内的100人死亡

新华社快讯:委内瑞拉内政部长说,美方强行带离总统马杜罗的军事行动造成包括平民在内的100人死亡

新华社
2026-01-08 10:00:06
2026年1月,银行存款利率又要大改!存银行一万元,一年有多少利息?很多人不清楚!

2026年1月,银行存款利率又要大改!存银行一万元,一年有多少利息?很多人不清楚!

新浪财经
2026-01-07 21:14:52
惠州这些道路建设征地超66万平方米,涉及多个村!

惠州这些道路建设征地超66万平方米,涉及多个村!

南方都市报
2026-01-08 12:18:12
美军登上俄罗斯油轮并扣押船只,护航的俄潜艇和军舰毫无动作

美军登上俄罗斯油轮并扣押船只,护航的俄潜艇和军舰毫无动作

山河路口
2026-01-07 23:08:51
布伦森26+7胜快船!哈登小卡48分尽力,祖巴茨砍22+11,真该替补

布伦森26+7胜快船!哈登小卡48分尽力,祖巴茨砍22+11,真该替补

你的篮球频道
2026-01-08 10:49:45
2026-01-08 13:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
11985文章数 176357关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

委内瑞拉外长:感谢中方支持

头条要闻

委内瑞拉外长:感谢中方支持

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

数码
旅游
亲子
本地
公开课

数码要闻

鹰角网络×八位堂Retro 87复古键盘新春周边套装发布,499元

旅游要闻

报告:预计2025-2026冬季,我国冰雪旅游休闲收入有望达到4500亿元

亲子要闻

“她真丢了就好了!”宝妈称厌恶10岁女儿,引众多网友共鸣!

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版