网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型有个盲区：文档中间的内容，它根本不看，准确率暴跌20%

2026-05-11 13:08:09　来源: 算力游侠

北京举报

0

分享至

把一份长文档丢给大模型，让它总结或回答问题，结果往往出人意料——模型确实"读"完了全文，但答案明显偏向开头和结尾。中间部分？基本被忽略了。

这不是坊间传闻。2023年，斯坦福和加州大学伯克利分校的研究者在论文《Lost in the Middle: How Language Models Use Long Contexts》中系统验证了这一现象。这项发现至今仍是应用大模型科学中最重要、却最被低估的研究之一。

研究者设计了对照实验：将多文档问答的答案藏在检索文档中的不同位置——开头、中间或末尾——然后观察模型表现。结果很明确：即使总长度远未超出模型标称的上下文窗口，只要答案位于中间，准确率就会骤降。

性能曲线呈U型：答案靠近位置1（开头）或最后位置时准确率高，中间区域则明显下凹。某些配置下，中间位置的准确率比两端低20个百分点以上。

问题的根源在于注意力机制在长序列中的分布方式。两种偏置相互拉扯：

一是近因偏置。末尾的标记最接近模型生成下一个标记的位置。在自回归架构中，近期标记往往获得更高注意力权重——这既因为位置邻近，也因为大量训练任务（如下一标记预测、指令遵循）隐式奖励对近期上下文的敏感度。

二是首因偏置。提示最开头的标记——尤其是系统指令——在预训练和微调阶段获得异常高的注意力，因为它们设定了对话框架。经过指令调优的模型被深度条件化，将上下文开头视为权威来源。

中间区域两头不靠。它不够近，无法享受近因偏置的红利；又不在模型学习遵循指令时就位，无法获得首因偏置的优待。在注意力分数分布中，中间序列标记获得的总体注意力往往低于其信息价值所应得。

这对实际应用有直接影响，尤其是检索增强生成（RAG）系统的设计：

重排序比检索顺序更重要。如果检索器把最相关的片段放在5个结果中的第3位，其表现会弱于放在第1位的同一检索器——即使模型技术上"看到"了全部五个。调整检索顺序不只是美观问题，而是准确率问题。

别把关键信息埋在中间。如果你让模型"基于以下10段摘录作答"，而答案藏在第6段，你实际上是在与模型的注意力分布作对。把关键信息前置，或至少通过重排序确保高相关性片段占据首尾位置。

上下文窗口的"有效长度"比标称长度短得多。一个号称支持128K标记的模型，其实际可靠处理长度可能远低于此——不是因为它无法加载这么多文本，而是因为中间部分的信号会严重衰减。

这一发现也解释了为什么一些长上下文应用表现不佳：法律文档分析、长篇小说理解、多轮对话中的早期上下文引用——这些场景都依赖模型对中间位置信息的准确提取，而恰恰是这里存在系统性盲区。

研究者并未提出根本性的架构解决方案，但他们的实验设计为评估和缓解这一问题提供了基准。当前工业界的应对策略主要集中在工程层面：更智能的检索排序、上下文压缩、分层摘要——本质上都是把关键信息搬到模型"看得见"的位置。

这提醒我们一个常被忽视的真相：大模型的能力边界不仅由参数规模和上下文窗口的标称长度决定，更由注意力机制的实际动态塑造。理解这些动态，比追逐更大的数字更能提升实际应用效果。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

机器之心Pro 2026-05-11 14:28:29
0 跟贴 0
OpenClaw终于长出手和眼！Peter正式发布Peekaboo v3，一日三更

新智元 2026-05-11 18:33:09
202 跟贴 202

Agent评测的下半场：为什么需要一个「活的」Benchmark？

新智元 2026-05-11 13:08:40
0 跟贴 0

别再把长文切碎了，HiLight让AI直接在原文里划重点

机器之心Pro 2026-05-11 10:39:41
0 跟贴 0
「思考用时100秒」成历史？AI推理太耗时，伯克利整了个大活儿

雷科技 2026-05-10 16:59:53
2 跟贴 2

13年不写代码，5天花200美元重建400万美元产品——YC掌门人是怎么做到的？

华尔街见闻官方 2026-05-11 10:52:07
26 跟贴 26

一汽修店主只修特斯拉：其他新能源车三电不修怕被告

第一财经资讯 2026-05-11 16:52:11
54750 跟贴 54750
ChatGPT、豆包集体翻车：AI没有价值观，只有「求生欲」

雷科技 2026-05-11 21:18:29
23 跟贴 23

π0.7的泛化能力有多强？零样本纯靠口述就能用空气炸锅

DeepTech深科技 2026-04-17 21:34:56
0 跟贴 0
从参数到外观：汽车行业的最后一场竞争

基地边缘BaseEdge 2026-05-08 17:48:10
1 跟贴 1
叙利亚重新接入全球支付系统刷卡机“吐出”小票现场爆发掌声

海外网 2026-05-11 13:40:32
1103 跟贴 1103
龙哥见状赶紧打出手势，树上的狙击手接到指令后

由你玩四年 2026-05-09 12:04:54
0 跟贴 0
估值200亿美元？快手是否会分拆可灵AI

华尔街见闻官方 2026-05-11 21:35:41
0 跟贴 0
视频版Vision-Banana来了？大一统框架UniVidX刷新视频任务SOTA

机器之心Pro 2026-05-11 16:59:36
0 跟贴 0
车内自卫术，男子教女子遇袭后的应对策略，你往后躺啊

班子爱生活 2026-05-11 11:13:52
3 跟贴 3
SM公司策略揭秘：后辈必修前辈作品，肥水不流外人田

今夜繁星坠落 2026-05-11 03:33:12
1 跟贴 1
为避税老人把房过户给孙子，不料导致亲情决裂

看看新闻Knews 2026-05-11 17:44:08
778 跟贴 778
女生晒出男友每次给自己饮料前，都会先撕一个小标记再拧开

乐活咔嚓 2026-05-11 09:36:28
4 跟贴 4
王励勤总结世乒赛：男队阵容不是最强但最拼，女队经受对手超水平发挥考验，点赞孙颖莎王楚钦力挽狂澜

红网 2026-05-11 11:59:00
1045 跟贴 1045
从被动补救到主动预警，AI大模型重塑“好房子”底线逻辑

华夏时报 2026-05-12 08:09:02
0 跟贴 0
上海诞生"新币王"5083万元成交目前存世仅七枚

看看新闻Knews 2026-05-11 22:19:07
1297 跟贴 1297
大学生驱车1300公里，送校友回家奔丧：自费5200多元，事后收到很多转账均婉拒

潇湘晨报 2026-05-11 16:50:57
532 跟贴 532
奢侈品牌MIU MIU多款产品被指也有“限购区”，杭州多个街道地址无法下单

澎湃新闻 2026-05-11 10:22:28
5587 跟贴 5587
吴宜泽：能进攻时我从来不会防守为此付出过很多代价

环球网资讯 2026-05-11 13:26:15
275 跟贴 275
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
299 跟贴 299
Forza Horizon 6提前泄露，官方反手封禁7973年

雾野寻踪2 2026-05-11 23:25:36
0 跟贴 0
新闻要点，伊朗最高领袖会见，武装部队司令并下达指令！

搞笑的大耳朵 2026-05-11 16:34:59
0 跟贴 0
2026程序员求职真相：代码写得好不如审得准

硬核玩家2哈 2026-05-12 08:15:04
0 跟贴 0
比利时将向乌克兰提供全部F-16战机

参考消息 2026-05-11 14:37:08
1648 跟贴 1648
九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
2218 跟贴 2218
武汉一男子钓48斤大鱼，挂车后绕城2小时显摆，

武汉发布 2026-05-11 10:01:53
178 跟贴 178
创意DIY 利用胶带卷芯制作模型玩具

趣味创意DIY 2026-05-10 08:07:29
3 跟贴 3
腾讯跟投阶跃25亿美元融资；机构：预估2030年Micro LED CPO光收发模块产值近8.5亿美元｜数智早参

每日经济新闻 2026-05-12 07:16:02
0 跟贴 0
天津一广场“胸口碎大石”表演锤头突然脱把飞出一孩童被砸，当地政府：小朋友没什么大问题

观威海 2026-05-11 21:50:11
689 跟贴 689
信立泰JK07心衰临床研究基本达到预期目标

雷达财经 2026-05-11 11:59:26
1 跟贴 1
美国再次欠费，WTO新闻发言人答一财

第一财经资讯 2026-05-11 15:00:12
154 跟贴 154
花滑女神完美身姿勾勒出的动人曲线，一个动作就让我反复看了10遍

奶油蜜桃 2026-05-09 19:07:25
0 跟贴 0
眼花了？蛇在直线行走吗？网友：走直线是散步走曲线是赶路

河南都市频道 2026-05-10 16:52:52
33 跟贴 33
越南富国监狱，人体模型展示了囚犯如何用勺子和罐子挖隧道逃跑！

长安一片月 2026-05-11 01:23:28
0 跟贴 0
大众在华三家合资公司新能源序列命名是乱码么？

凡兮说 2026-05-11 18:46:48
0 跟贴 0

“你管这面相叫聪慧明理？”宝妈写小作文偏袒小儿子，被网友群嘲

“你管这面相叫聪慧明理？”宝妈写小作文偏袒小儿子，被网友群嘲

妍妍教育日记

2026-05-09 14:41:48

刘三姐“全裸演出”引争议，张艺谋惹怒全网

刘三姐“全裸演出”引争议，张艺谋惹怒全网

营销头版

2026-05-10 20:09:26

王楠夫妇深夜发声：对于陈梦他们不再慷慨，金牌归属又引起争议

王楠夫妇深夜发声：对于陈梦他们不再慷慨，金牌归属又引起争议

拳击时空

2026-05-12 06:01:18

舒马赫妻子科琳娜，照顾丈夫12年，花费超20亿，如今终于等到奇迹

舒马赫妻子科琳娜，照顾丈夫12年，花费超20亿，如今终于等到奇迹

寒士之言本尊

2026-01-28 16:12:08

南海棉兰老岛：面积约 10 万平方公里，一旦独立，后果中菲都难承受

南海棉兰老岛：面积约 10 万平方公里，一旦独立，后果中菲都难承受

健身狂人

2026-05-11 19:20:13

伊朗高层突然害怕了：再逼女性戴头巾，可能又出大事

伊朗高层突然害怕了：再逼女性戴头巾，可能又出大事

桂系007

2026-05-10 00:00:03

不再藏着掖着让人猜了！中国自由泳天后和蛙泳世界名将恋情公开

不再藏着掖着让人猜了！中国自由泳天后和蛙泳世界名将恋情公开

威猛孟巍

2026-05-11 01:44:19

噱头并不读xuè tóu，也不读xuē tóu，超多人读错还浑然不知！

噱头并不读xuè tóu，也不读xuē tóu，超多人读错还浑然不知！

未央看点

2026-05-10 22:54:56

铜价无视中东逼近历史新高，花旗：一旦霍尔木兹解封，将直奔15000美元

铜价无视中东逼近历史新高，花旗：一旦霍尔木兹解封，将直奔15000美元

华尔街见闻官方

2026-05-11 15:28:38

四川家长怒了：学校别再办成人礼了，太恶心人了

四川家长怒了：学校别再办成人礼了，太恶心人了

复转这些年

2026-05-11 16:28:54

淘汰意大利！波黑公布世界杯26人名单+成48强首队：40岁传奇领衔

淘汰意大利！波黑公布世界杯26人名单+成48强首队：40岁传奇领衔

我爱英超

2026-05-11 21:51:20

爱德华兹：文班下场后马刺更难打了因为他们每个人都放开了手脚

爱德华兹：文班下场后马刺更难打了因为他们每个人都放开了手脚

北青网-北京青年报

2026-05-11 16:26:06

震惊！网传南昌某楼盘业主群集体抬价、下架房源，称团结就是力量

震惊！网传南昌某楼盘业主群集体抬价、下架房源，称团结就是力量

火山詩话

2026-05-10 06:17:24

国际足联被曝愿作出“重大让步”：报价降低50%以上争取让央视买下版权

国际足联被曝愿作出“重大让步”：报价降低50%以上争取让央视买下版权

快科技

2026-05-12 07:26:08

靴子落地！南昌大学前书记落马，师生全无同情，口碑自在人心间

靴子落地！南昌大学前书记落马，师生全无同情，口碑自在人心间

鬼菜生活

2026-05-12 06:16:01

1.48亿糖友沸腾！全球首款“双靶点”降糖笔获批，糖化血红蛋白直降2.15%的真相是？

1.48亿糖友沸腾！全球首款“双靶点”降糖笔获批，糖化血红蛋白直降2.15%的真相是？

健康管理师吉吉

2026-05-11 21:41:09

47岁韩国影后西湖夜跑！独自逛超市，没戴帽子口罩，全程无人认出

47岁韩国影后西湖夜跑！独自逛超市，没戴帽子口罩，全程无人认出

艺能八卦局

2026-05-12 06:41:42

广东要建设一批核电，又一台投资200亿元核电机组开工

广东要建设一批核电，又一台投资200亿元核电机组开工

第一财经资讯

2026-05-11 20:28:16

大学生驱车1300公里，送校友回家奔丧：自费5200多元，事后收到很多转账均婉拒

大学生驱车1300公里，送校友回家奔丧：自费5200多元，事后收到很多转账均婉拒

潇湘晨报

2026-05-11 16:50:57

第1现场｜俄乌对峙下的红场阅兵：36年来首次未见坦克

第1现场｜俄乌对峙下的红场阅兵：36年来首次未见坦克

澎湃新闻

2026-05-09 21:40:28

游走在API与报错之间，用魔法（AI）打败魔法的非硬核玩家。

2581文章数 23关注度

往期回顾全部

科技要闻

纳德拉法庭爆料：拒当“AI时代的IBM”

头条要闻

牛弹琴：特朗普要来了可以肯定这不是一次寻常的访问

头条要闻

牛弹琴：特朗普要来了可以肯定这不是一次寻常的访问

体育要闻

梁靖崑：可能是最后一届了，想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

特朗普要来了，我们且淡定

汽车要闻

吉利银河“TT”申报图曝光电动尾翼+激光雷达

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

房产

数码

游戏

旅游

干细胞能让人“返老还童”吗

房产要闻

产业赋能教育！翰林府与北师大的这场签约，绝不那么简单！

数码要闻

苹果iPadOS 17.7.11正式版发布

魔兽世界：时光服包片消失，玩家神吐槽，均分团哪里去了？

旅游要闻

首航售罄，账本承压：“长江行·揽月”号驶入三峡旅游的深水区

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版