网易首页 > 网易号 > 正文 申请入驻

人类本质是上下文窗口只有7的大模型,幻觉比GPT还严重

0
分享至

人类本质是上下文窗口只有7的大模型,幻觉比GPT还严重

去年有个事让我愣了很久。

OpenAI发布o1模型的时候,所有人都盯着它的推理能力——思维链、多步推理、“慢思考”。没几个人注意到一个细节:o1在长上下文里找信息,中间部分经常漏掉。

2023年斯坦福那篇论文中提到:模型在处理长文本时,开头和结尾的信息记住得多,中间的经常丢。作者给它起了个名字叫“Lost in the Middle”。

我看到这篇论文的第一反应不是“模型真蠢”,而是——这不就是我吗?

开会的时候,前面十分钟讲了什么,后面要讨论什么,我都记得。中间那二十分钟的细节?全丢了。你要是让我复述一下刚才第三个发言人说的核心观点,我只能给你编一个听起来很合理的。

像不像一个上下文溢出的大模型在瞎编?

一、你的工作记忆,就是一台4个token的上下文窗口



1956年,认知心理学家George Miller发了一篇论文,标题很出名:《神奇的数字7±2》。他发现人类短期记忆的容量大约是7个信息单元,多一个都装不下。

后来2001年,Cowan把数字修正得更狠了——4±1。4个组块。不是7个,是4个。

你想想这意味着什么。当下最弱的大模型,上下文窗口也有4096个token。人类呢?4个。四个。

你做心算的时候,脑子里能同时保持几个中间结果?你读长句子的时候,前半句到后半句之间,能维持多少信息不丢失?你跟人吵架的时候,对方三分钟前说的话你还能一字不差地复述吗?

IBM对上下文窗口的定义是:模型在任意时刻能“注意到”和操作的信息量。把“模型”换成“人”,把“token”换成“组块”,这个定义一个字都不用改。

智源社区去年有篇长文说得很透:上下文窗口就是大模型的工作记忆(RAM),而context engineering的作用就是精心设计哪些信息能进入工作内存。然后文章笔锋一转——人类的记忆总是在不断更新,睡觉便是我们对当天信息处理最重要的过程,选择遗忘,或者把重要信息转化为长期记忆。

你看,人类自己也得做上下文压缩和缓存刷新。只不过我们管它叫“睡觉”,不叫“context window compaction”。

二、Hinton说对了:你所谓的记忆,跟AI幻觉是同一个病

去年Geoffrey Hinton说了一句话,很多人没当回事。他说AI的“幻觉”不应该叫hallucination,应该叫confabulation——虚构。

这个词是从神经科学借来的。confabulation指的是:大脑在记忆有缺口的时候,自动生成一个看起来合理的故事来填补空白。当事人不是在撒谎,他真心相信自己记得的就是这样。

Hinton举了水门事件的例子。John Dean在水门事件中作证,详细描述了白宫办公室里的各种会议。后来录音带曝光,人们发现他说的很多会议根本没发生过。但他不是在撒谎——他是真心“记得”那些会议的。他的大脑把碎片信息拼成了一个连贯的故事,细节都是补出来的。

Hinton的原话是:“We don’t store memories; we generate them.”我们不存储记忆,我们生成记忆。

这不就是大模型的下一token预测吗?给定前面的上下文,预测下一个最可能的内容。人类“回忆”的过程,和模型“生成”的过程,底层逻辑是一样的:都不是在检索一个精确的存储,而是在根据已有模式拼凑一个最合理的输出。

去年武大新闻与传播评论上有篇论文专门分析了这个类比。文章区分了感官幻觉和认知幻觉——感官幻觉是幻听幻视,认知幻觉是大脑在信息处理中自动产生的错误逻辑建构,对碎片信息进行不合理填充。后者才是我们每天都在干的事。

你有没有过这种经历:你确信某人说过某句话,结果翻聊天记录发现人家根本没说?你笃定某个数据是2024年的,结果一查是2023年的?你信誓旦旦地跟人讲一个“亲眼所见”的故事,细节生动到画面感都有了,后来发现那个场景你是从别人嘴里听来的,不是自己经历的?

恭喜你,你刚才confabulate了。跟GPT编出一个不存在的论文引用,是一模一样的机制。

三、系统1就是贪婪采样,系统2就是思维链推理



Kahneman的《思考,快与慢》大家应该都看过。系统1是直觉,快、省力、自动化。系统2是理性,慢、费力、需要主动启动。

你把这套框架套到大模型上试试:

系统1是什么?就是模型直接输出下一个token,不经过任何额外推理。贪婪采样,拿到概率最高的那个token就吐出去。快、省算力、自动化。

系统2是什么?就是思维链推理。让模型“慢慢想”,把中间步骤展开写出来,一步一步推导。慢、费token、需要额外的计算资源。

Kahneman说系统2很懒,大部分时候直接用系统1的答案。大模型也一样——不加思维链的时候,它也懒得“想”,直接给你一个最可能的输出。

更有意思的是,Kahneman说系统1容易产生认知偏差——锚定效应、确认偏误、可得性偏差,全是系统1的锅。大模型呢?COLING 2025上有一篇论文专门测了LLM的认知偏差,发现首因偏差(primacy bias)、近因偏差(recency bias)、多数类偏差(majority class bias)一应俱全。华东师大心理学系的实验更狠:他们给Gemini 1.5 Pro和DeepSeek做框架效应测试,发现这两个模型在信息呈现方式不同时,做出的决策完全不同——跟人类被试的表现几乎一模一样。

人类大脑的默认模式是系统1,不是系统2。大模型的默认模式也是直接生成,不是思维链推理。

这不是巧合。这是同一个架构下的同一个瓶颈:推理资源有限,所以大脑和模型都不约而同地选择了“够用就行”的快速路径。

四、但你跟大模型之间,差着一个关键的东西



说到这里你可能会觉得:既然人类和大模型这么像,那我们是不是就没什么特别的了?

不是。差着一个根本性的东西。

今年OpenReview上有篇论文,标题直接就判了死刑:《Language Models Do Not Have Human-Like Working Memory》。作者设计了三个任务——数字猜测、是非推导、数学魔术——专门隔离模型的内部表征和外部上下文。

结果:17个前沿模型,四个模型家族,全部翻车。模型在面对需要“在脑子里维持和操作信息”的任务时,表现出不理性、自相矛盾的行为。

核心发现是:人类的工作记忆不只是“暂存”信息,而是能“操作”信息。你在脑子里做心算的时候,不光是记住数字,你还在对数字做加减乘除。大模型呢?它能访问上下文窗口里的信息(就像开卷考试),但当你把上下文拿走、让它纯靠“内部状态”来推理的时候——它做不到。

说得再直白一点:大模型的“记忆”是外挂的,靠上下文窗口驱动。人类的记忆是内化的,靠神经元连接的物理改变来维持。你可以闭着眼睛在脑子里做一道三位数乘法,大模型不行——它必须把中间步骤写出来才能继续。

这就像两个人参加考试:一个可以翻笔记(开卷),但笔记一收就懵了;另一个虽然笔记不如前者全,但脑子里真的记住了东西。前者是大模型,后者是人类。

Context engineering这件事之所以重要,说白了就是在帮大模型补这个短板——既然你的“内部记忆”不够,那就用工程手段把最相关的信息塞进上下文窗口。这也正是智源那篇文章的核心论点:大模型不思考,上下文替它思考。

五、所以呢?别笑话AI了,先看看自己



写到这里,我想说一个可能让你不太舒服的结论。

我们笑AI幻觉、笑AI上下文丢失、笑AI被提示词操控,但我们自己呢?

工作记忆4个组块——比最弱的大模型都短。记忆靠拼凑——跟AI幻觉是同一个机制。默认走捷径——跟AI不加思维链的行为一模一样。被信息框架操控——跟AI的primacy/recency bias如出一辙。

Hinton说了一句很狠的话:人类也一直在幻觉,我们只是管它叫“意见”。

Reddit上有个帖子说得更绝:人类幻觉,我们只是不叫它幻觉,叫它观点、信念、回忆。

你回忆一下上次跟人争论的场景。对方说了一堆,你只记住了开头和结尾,中间全漏了——Lost in the Middle。你根据自己的印象“重构”了对方的观点,然后对着这个重构版本一顿输出——Confabulation。你下意识地找支持自己立场的证据,忽略反例——Confirmation Bias。

你跟一个上下文溢出、开始幻觉、又拒绝开启思维链的大模型,有什么本质区别?

唯一的区别是:大模型的上下文窗口在变大,幻觉在减少,思维链在被更广泛地使用。而你的工作记忆容量,从出生那天起就被锁死在4个组块了。

六、真正值得想的事



我不是在说人类没用。我想说的是另一件事。

如果我们承认人类认知跟大模型运行机制有深层的结构相似性,那很多事情就变得不一样了。

比如,你为什么需要一个“第二大脑”?因为你的上下文窗口太小了,需要外部存储来扩展。Obsidian、Notion、RAG系统——本质上都是人类的外挂上下文。

比如,你为什么会犯错?不是因为你不聪明,是因为你的推理带宽有限,默认走系统1的快速路径。写下来、画出来、跟人讨论——这些全是在做“思维链展开”,逼自己从系统1切到系统2。

比如,为什么团队比个人强?因为不同人的训练数据不一样,上下文窗口里装的东西不一样。你幻觉的部分,别人可能记得清楚。交叉验证,本质上就是多模型ensemble。

Karpathy说LLM Wiki的核心是让知识“留下来”——因为人类太容易遗忘了。现在我想补一句:人类不只是容易遗忘,人类本质上就是一个上下文极短、记忆靠编、走捷径成瘾的系统。承认这一点,才是所有认知工具设计的起点。

你不是在用工具弥补能力的不足。你是在用工具弥补架构的缺陷。

这个缺陷是刻在基因里的。4个组块,7±2的容量上限,一百年前的心理学实验就量出来了。到今天,从Miller到Cowan到Kahneman,数字只会越来越小,不会越来越大。

但好消息是:大模型走过的路——从短上下文到长上下文、从裸生成到思维链、从幻觉到RAG检索——人类已经走过一遍了。我们管它叫:写字、做笔记、画思维导图、开复盘会。

名字不一样,底层是同一套工程。

关注我的公众号:萝卜啊。每天获取AI落地实战案例。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳“卷尺哥”:1000多次“找茬”之后

深圳“卷尺哥”:1000多次“找茬”之后

新京报
2026-06-02 08:01:43
为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

另子维爱读史
2026-06-02 10:51:07
杨迪回应爬山过程中朋友被救护车拉走,称“自己也快到极限”,提醒各位网友→

杨迪回应爬山过程中朋友被救护车拉走,称“自己也快到极限”,提醒各位网友→

封面新闻
2026-06-02 09:34:51
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
还以为搁置了!“南天门计划”突然上新,央视这次放的不是科幻

还以为搁置了!“南天门计划”突然上新,央视这次放的不是科幻

闻识
2026-06-01 21:41:33
台岛以东执法巡查的三个“历史首次”

台岛以东执法巡查的三个“历史首次”

上观新闻
2026-06-02 10:44:03
吃完嫩的吃老的,山西儿媳出轨公公10年,亲自给丈夫生下一个妹妹

吃完嫩的吃老的,山西儿媳出轨公公10年,亲自给丈夫生下一个妹妹

莫地方
2026-06-02 00:10:26
以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

环球网资讯
2026-06-02 07:03:18
深圳又一知名商场宣布停业!开业26年,曾是一代人的青春记忆

深圳又一知名商场宣布停业!开业26年,曾是一代人的青春记忆

阅微札记
2026-06-01 22:22:11
211院校降为普通本科!

211院校降为普通本科!

老吕教你考MBA
2026-06-02 11:57:50
乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

上观新闻
2026-06-02 12:23:28
知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

鲁中晨报
2026-06-02 07:15:05
别摘、别碰!全株有毒,深圳正值盛放期!有女子拍照后中毒,只因这动作

别摘、别碰!全株有毒,深圳正值盛放期!有女子拍照后中毒,只因这动作

南方都市报
2026-06-02 08:43:36
网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

小徐讲八卦
2026-06-02 09:17:26
“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

北纬的咖啡豆
2026-06-01 19:33:09
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
马斯克亲口承认,要不是自己儿子做了变性手术,现在美国总统也不会是特朗普

马斯克亲口承认,要不是自己儿子做了变性手术,现在美国总统也不会是特朗普

不掉线电波
2026-06-01 20:02:08
6月2日,人社部关于2026年调整退休人员基本养老金通知公布了吗?

6月2日,人社部关于2026年调整退休人员基本养老金通知公布了吗?

社保小达人
2026-06-02 12:05:21
沈南鹏,捐3亿

沈南鹏,捐3亿

新京报
2026-06-01 21:02:19
太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

慧翔百科
2026-06-02 08:40:47
2026-06-02 14:00:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
944文章数 8608关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

手机
家居
房产
健康
游戏

手机要闻

618 10款机型大幅跳水:苹果、华为、小米都破底价,有你看中的吗?

家居要闻

流线型轮廓 包容多元身形

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

干细胞临床研究向患者收费?别踩坑

靠大尺度MOD火了!游戏官方:成人内容越多越好

无障碍浏览 进入关怀版