人类本质是上下文窗口只有7的大模型，幻觉比GPT还严重|推理|组块|心理学|相似性|新论文

分享至

人类本质是上下文窗口只有7的大模型，幻觉比GPT还严重

去年有个事让我愣了很久。

OpenAI发布o1模型的时候，所有人都盯着它的推理能力——思维链、多步推理、“慢思考”。没几个人注意到一个细节：o1在长上下文里找信息，中间部分经常漏掉。

2023年斯坦福那篇论文中提到：模型在处理长文本时，开头和结尾的信息记住得多，中间的经常丢。作者给它起了个名字叫“Lost in the Middle”。

我看到这篇论文的第一反应不是“模型真蠢”，而是——这不就是我吗？

开会的时候，前面十分钟讲了什么，后面要讨论什么，我都记得。中间那二十分钟的细节？全丢了。你要是让我复述一下刚才第三个发言人说的核心观点，我只能给你编一个听起来很合理的。

像不像一个上下文溢出的大模型在瞎编？

一、你的工作记忆，就是一台4个token的上下文窗口

1956年，认知心理学家George Miller发了一篇论文，标题很出名：《神奇的数字7±2》。他发现人类短期记忆的容量大约是7个信息单元，多一个都装不下。

后来2001年，Cowan把数字修正得更狠了——4±1。4个组块。不是7个，是4个。

你想想这意味着什么。当下最弱的大模型，上下文窗口也有4096个token。人类呢？4个。四个。

你做心算的时候，脑子里能同时保持几个中间结果？你读长句子的时候，前半句到后半句之间，能维持多少信息不丢失？你跟人吵架的时候，对方三分钟前说的话你还能一字不差地复述吗？

IBM对上下文窗口的定义是：模型在任意时刻能“注意到”和操作的信息量。把“模型”换成“人”，把“token”换成“组块”，这个定义一个字都不用改。

智源社区去年有篇长文说得很透：上下文窗口就是大模型的工作记忆（RAM），而context engineering的作用就是精心设计哪些信息能进入工作内存。然后文章笔锋一转——人类的记忆总是在不断更新，睡觉便是我们对当天信息处理最重要的过程，选择遗忘，或者把重要信息转化为长期记忆。

你看，人类自己也得做上下文压缩和缓存刷新。只不过我们管它叫“睡觉”，不叫“context window compaction”。

二、Hinton说对了：你所谓的记忆，跟AI幻觉是同一个病

去年Geoffrey Hinton说了一句话，很多人没当回事。他说AI的“幻觉”不应该叫hallucination，应该叫confabulation——虚构。

这个词是从神经科学借来的。confabulation指的是：大脑在记忆有缺口的时候，自动生成一个看起来合理的故事来填补空白。当事人不是在撒谎，他真心相信自己记得的就是这样。

Hinton举了水门事件的例子。John Dean在水门事件中作证，详细描述了白宫办公室里的各种会议。后来录音带曝光，人们发现他说的很多会议根本没发生过。但他不是在撒谎——他是真心“记得”那些会议的。他的大脑把碎片信息拼成了一个连贯的故事，细节都是补出来的。

Hinton的原话是：“We don’t store memories; we generate them.”我们不存储记忆，我们生成记忆。

这不就是大模型的下一token预测吗？给定前面的上下文，预测下一个最可能的内容。人类“回忆”的过程，和模型“生成”的过程，底层逻辑是一样的：都不是在检索一个精确的存储，而是在根据已有模式拼凑一个最合理的输出。

去年武大新闻与传播评论上有篇论文专门分析了这个类比。文章区分了感官幻觉和认知幻觉——感官幻觉是幻听幻视，认知幻觉是大脑在信息处理中自动产生的错误逻辑建构，对碎片信息进行不合理填充。后者才是我们每天都在干的事。

你有没有过这种经历：你确信某人说过某句话，结果翻聊天记录发现人家根本没说？你笃定某个数据是2024年的，结果一查是2023年的？你信誓旦旦地跟人讲一个“亲眼所见”的故事，细节生动到画面感都有了，后来发现那个场景你是从别人嘴里听来的，不是自己经历的？

恭喜你，你刚才confabulate了。跟GPT编出一个不存在的论文引用，是一模一样的机制。

三、系统1就是贪婪采样，系统2就是思维链推理

Kahneman的《思考，快与慢》大家应该都看过。系统1是直觉，快、省力、自动化。系统2是理性，慢、费力、需要主动启动。

你把这套框架套到大模型上试试：

系统1是什么？就是模型直接输出下一个token，不经过任何额外推理。贪婪采样，拿到概率最高的那个token就吐出去。快、省算力、自动化。

系统2是什么？就是思维链推理。让模型“慢慢想”，把中间步骤展开写出来，一步一步推导。慢、费token、需要额外的计算资源。

Kahneman说系统2很懒，大部分时候直接用系统1的答案。大模型也一样——不加思维链的时候，它也懒得“想”，直接给你一个最可能的输出。

更有意思的是，Kahneman说系统1容易产生认知偏差——锚定效应、确认偏误、可得性偏差，全是系统1的锅。大模型呢？COLING 2025上有一篇论文专门测了LLM的认知偏差，发现首因偏差（primacy bias）、近因偏差（recency bias）、多数类偏差（majority class bias）一应俱全。华东师大心理学系的实验更狠：他们给Gemini 1.5 Pro和DeepSeek做框架效应测试，发现这两个模型在信息呈现方式不同时，做出的决策完全不同——跟人类被试的表现几乎一模一样。

人类大脑的默认模式是系统1，不是系统2。大模型的默认模式也是直接生成，不是思维链推理。

这不是巧合。这是同一个架构下的同一个瓶颈：推理资源有限，所以大脑和模型都不约而同地选择了“够用就行”的快速路径。

四、但你跟大模型之间，差着一个关键的东西

说到这里你可能会觉得：既然人类和大模型这么像，那我们是不是就没什么特别的了？

不是。差着一个根本性的东西。

今年OpenReview上有篇论文，标题直接就判了死刑：《Language Models Do Not Have Human-Like Working Memory》。作者设计了三个任务——数字猜测、是非推导、数学魔术——专门隔离模型的内部表征和外部上下文。

结果：17个前沿模型，四个模型家族，全部翻车。模型在面对需要“在脑子里维持和操作信息”的任务时，表现出不理性、自相矛盾的行为。

核心发现是：人类的工作记忆不只是“暂存”信息，而是能“操作”信息。你在脑子里做心算的时候，不光是记住数字，你还在对数字做加减乘除。大模型呢？它能访问上下文窗口里的信息（就像开卷考试），但当你把上下文拿走、让它纯靠“内部状态”来推理的时候——它做不到。

说得再直白一点：大模型的“记忆”是外挂的，靠上下文窗口驱动。人类的记忆是内化的，靠神经元连接的物理改变来维持。你可以闭着眼睛在脑子里做一道三位数乘法，大模型不行——它必须把中间步骤写出来才能继续。

这就像两个人参加考试：一个可以翻笔记（开卷），但笔记一收就懵了；另一个虽然笔记不如前者全，但脑子里真的记住了东西。前者是大模型，后者是人类。

Context engineering这件事之所以重要，说白了就是在帮大模型补这个短板——既然你的“内部记忆”不够，那就用工程手段把最相关的信息塞进上下文窗口。这也正是智源那篇文章的核心论点：大模型不思考，上下文替它思考。

五、所以呢？别笑话AI了，先看看自己

写到这里，我想说一个可能让你不太舒服的结论。

我们笑AI幻觉、笑AI上下文丢失、笑AI被提示词操控，但我们自己呢？

工作记忆4个组块——比最弱的大模型都短。记忆靠拼凑——跟AI幻觉是同一个机制。默认走捷径——跟AI不加思维链的行为一模一样。被信息框架操控——跟AI的primacy/recency bias如出一辙。

Hinton说了一句很狠的话：人类也一直在幻觉，我们只是管它叫“意见”。

Reddit上有个帖子说得更绝：人类幻觉，我们只是不叫它幻觉，叫它观点、信念、回忆。

你回忆一下上次跟人争论的场景。对方说了一堆，你只记住了开头和结尾，中间全漏了——Lost in the Middle。你根据自己的印象“重构”了对方的观点，然后对着这个重构版本一顿输出——Confabulation。你下意识地找支持自己立场的证据，忽略反例——Confirmation Bias。

你跟一个上下文溢出、开始幻觉、又拒绝开启思维链的大模型，有什么本质区别？

唯一的区别是：大模型的上下文窗口在变大，幻觉在减少，思维链在被更广泛地使用。而你的工作记忆容量，从出生那天起就被锁死在4个组块了。

六、真正值得想的事

我不是在说人类没用。我想说的是另一件事。

如果我们承认人类认知跟大模型运行机制有深层的结构相似性，那很多事情就变得不一样了。

比如，你为什么需要一个“第二大脑”？因为你的上下文窗口太小了，需要外部存储来扩展。Obsidian、Notion、RAG系统——本质上都是人类的外挂上下文。

比如，你为什么会犯错？不是因为你不聪明，是因为你的推理带宽有限，默认走系统1的快速路径。写下来、画出来、跟人讨论——这些全是在做“思维链展开”，逼自己从系统1切到系统2。

比如，为什么团队比个人强？因为不同人的训练数据不一样，上下文窗口里装的东西不一样。你幻觉的部分，别人可能记得清楚。交叉验证，本质上就是多模型ensemble。

Karpathy说LLM Wiki的核心是让知识“留下来”——因为人类太容易遗忘了。现在我想补一句：人类不只是容易遗忘，人类本质上就是一个上下文极短、记忆靠编、走捷径成瘾的系统。承认这一点，才是所有认知工具设计的起点。

你不是在用工具弥补能力的不足。你是在用工具弥补架构的缺陷。

这个缺陷是刻在基因里的。4个组块，7±2的容量上限，一百年前的心理学实验就量出来了。到今天，从Miller到Cowan到Kahneman，数字只会越来越小，不会越来越大。

但好消息是：大模型走过的路——从短上下文到长上下文、从裸生成到思维链、从幻觉到RAG检索——人类已经走过一遍了。我们管它叫：写字、做笔记、画思维导图、开复盘会。

名字不一样，底层是同一套工程。

关注我的公众号：萝卜啊。每天获取AI落地实战案例。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.