网易首页 > 网易号 > 正文 申请入驻

大模型有个盲区:文档中间的内容,它根本不看,准确率暴跌20%

0
分享至

把一份长文档丢给大模型,让它总结或回答问题,结果往往出人意料——模型确实"读"完了全文,但答案明显偏向开头和结尾。中间部分?基本被忽略了。

这不是坊间传闻。2023年,斯坦福和加州大学伯克利分校的研究者在论文《Lost in the Middle: How Language Models Use Long Contexts》中系统验证了这一现象。这项发现至今仍是应用大模型科学中最重要、却最被低估的研究之一。


研究者设计了对照实验:将多文档问答的答案藏在检索文档中的不同位置——开头、中间或末尾——然后观察模型表现。结果很明确:即使总长度远未超出模型标称的上下文窗口,只要答案位于中间,准确率就会骤降。

性能曲线呈U型:答案靠近位置1(开头)或最后位置时准确率高,中间区域则明显下凹。某些配置下,中间位置的准确率比两端低20个百分点以上。

问题的根源在于注意力机制在长序列中的分布方式。两种偏置相互拉扯:

一是近因偏置。末尾的标记最接近模型生成下一个标记的位置。在自回归架构中,近期标记往往获得更高注意力权重——这既因为位置邻近,也因为大量训练任务(如下一标记预测、指令遵循)隐式奖励对近期上下文的敏感度。

二是首因偏置。提示最开头的标记——尤其是系统指令——在预训练和微调阶段获得异常高的注意力,因为它们设定了对话框架。经过指令调优的模型被深度条件化,将上下文开头视为权威来源。

中间区域两头不靠。它不够近,无法享受近因偏置的红利;又不在模型学习遵循指令时就位,无法获得首因偏置的优待。在注意力分数分布中,中间序列标记获得的总体注意力往往低于其信息价值所应得。

这对实际应用有直接影响,尤其是检索增强生成(RAG)系统的设计:

重排序比检索顺序更重要。如果检索器把最相关的片段放在5个结果中的第3位,其表现会弱于放在第1位的同一检索器——即使模型技术上"看到"了全部五个。调整检索顺序不只是美观问题,而是准确率问题。

别把关键信息埋在中间。如果你让模型"基于以下10段摘录作答",而答案藏在第6段,你实际上是在与模型的注意力分布作对。把关键信息前置,或至少通过重排序确保高相关性片段占据首尾位置。

上下文窗口的"有效长度"比标称长度短得多。一个号称支持128K标记的模型,其实际可靠处理长度可能远低于此——不是因为它无法加载这么多文本,而是因为中间部分的信号会严重衰减。

这一发现也解释了为什么一些长上下文应用表现不佳:法律文档分析、长篇小说理解、多轮对话中的早期上下文引用——这些场景都依赖模型对中间位置信息的准确提取,而恰恰是这里存在系统性盲区。

研究者并未提出根本性的架构解决方案,但他们的实验设计为评估和缓解这一问题提供了基准。当前工业界的应对策略主要集中在工程层面:更智能的检索排序、上下文压缩、分层摘要——本质上都是把关键信息搬到模型"看得见"的位置。

这提醒我们一个常被忽视的真相:大模型的能力边界不仅由参数规模和上下文窗口的标称长度决定,更由注意力机制的实际动态塑造。理解这些动态,比追逐更大的数字更能提升实际应用效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“你管这面相叫聪慧明理?”宝妈写小作文偏袒小儿子,被网友群嘲

“你管这面相叫聪慧明理?”宝妈写小作文偏袒小儿子,被网友群嘲

妍妍教育日记
2026-05-09 14:41:48
刘三姐“全裸演出”引争议,张艺谋惹怒全网

刘三姐“全裸演出”引争议,张艺谋惹怒全网

营销头版
2026-05-10 20:09:26
王楠夫妇深夜发声:对于陈梦他们不再慷慨,金牌归属又引起争议

王楠夫妇深夜发声:对于陈梦他们不再慷慨,金牌归属又引起争议

拳击时空
2026-05-12 06:01:18
舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

寒士之言本尊
2026-01-28 16:12:08
南海棉兰老岛:面积约 10 万平方公里,一旦独立,后果中菲都难承受

南海棉兰老岛:面积约 10 万平方公里,一旦独立,后果中菲都难承受

健身狂人
2026-05-11 19:20:13
伊朗高层突然害怕了:再逼女性戴头巾,可能又出大事

伊朗高层突然害怕了:再逼女性戴头巾,可能又出大事

桂系007
2026-05-10 00:00:03
不再藏着掖着让人猜了! 中国自由泳天后和蛙泳世界名将恋情公开

不再藏着掖着让人猜了! 中国自由泳天后和蛙泳世界名将恋情公开

威猛孟巍
2026-05-11 01:44:19
噱头并不读xuè tóu,也不读xuē tóu,超多人读错还浑然不知!

噱头并不读xuè tóu,也不读xuē tóu,超多人读错还浑然不知!

未央看点
2026-05-10 22:54:56
铜价无视中东逼近历史新高,花旗:一旦霍尔木兹解封,将直奔15000美元

铜价无视中东逼近历史新高,花旗:一旦霍尔木兹解封,将直奔15000美元

华尔街见闻官方
2026-05-11 15:28:38
四川家长怒了:学校别再办成人礼了,太恶心人了

四川家长怒了:学校别再办成人礼了,太恶心人了

复转这些年
2026-05-11 16:28:54
淘汰意大利!波黑公布世界杯26人名单+成48强首队:40岁传奇领衔

淘汰意大利!波黑公布世界杯26人名单+成48强首队:40岁传奇领衔

我爱英超
2026-05-11 21:51:20
爱德华兹:文班下场后马刺更难打了 因为他们每个人都放开了手脚

爱德华兹:文班下场后马刺更难打了 因为他们每个人都放开了手脚

北青网-北京青年报
2026-05-11 16:26:06
震惊!网传南昌某楼盘业主群集体抬价、下架房源,称团结就是力量

震惊!网传南昌某楼盘业主群集体抬价、下架房源,称团结就是力量

火山詩话
2026-05-10 06:17:24
国际足联被曝愿作出“重大让步”:报价降低50%以上 争取让央视买下版权

国际足联被曝愿作出“重大让步”:报价降低50%以上 争取让央视买下版权

快科技
2026-05-12 07:26:08
靴子落地!南昌大学前书记落马,师生全无同情,口碑自在人心间

靴子落地!南昌大学前书记落马,师生全无同情,口碑自在人心间

鬼菜生活
2026-05-12 06:16:01
1.48亿糖友沸腾!全球首款“双靶点”降糖笔获批,糖化血红蛋白直降2.15%的真相是?

1.48亿糖友沸腾!全球首款“双靶点”降糖笔获批,糖化血红蛋白直降2.15%的真相是?

健康管理师吉吉
2026-05-11 21:41:09
47岁韩国影后西湖夜跑!独自逛超市,没戴帽子口罩,全程无人认出

47岁韩国影后西湖夜跑!独自逛超市,没戴帽子口罩,全程无人认出

艺能八卦局
2026-05-12 06:41:42
广东要建设一批核电,又一台投资200亿元核电机组开工

广东要建设一批核电,又一台投资200亿元核电机组开工

第一财经资讯
2026-05-11 20:28:16
大学生驱车1300公里,送校友回家奔丧:自费5200多元,事后收到很多转账均婉拒

大学生驱车1300公里,送校友回家奔丧:自费5200多元,事后收到很多转账均婉拒

潇湘晨报
2026-05-11 16:50:57
第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

澎湃新闻
2026-05-09 21:40:28
2026-05-12 09:23:00
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
2581文章数 23关注度
往期回顾 全部

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

特朗普要来了,我们且淡定

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

健康
房产
数码
游戏
旅游

干细胞能让人“返老还童”吗

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

数码要闻

苹果iPadOS 17.7.11正式版发布

魔兽世界:时光服包片消失,玩家神吐槽,均分团哪里去了?

旅游要闻

首航售罄,账本承压:“长江行·揽月”号驶入三峡旅游的深水区

无障碍浏览 进入关怀版