清华挖出「幻觉」的罪魁祸首：预训练产生的0.1%神经元|算法|子集|分类器

清华挖出「幻觉」的罪魁祸首：预训练产生的0.1%神经元

2026-01-06 09:48:58　来源: 新智元

北京举报

分享至

新智元报道

编辑：LRS

【新智元导读】清华大学孙茂松团队从神经元角度研究幻觉的微观机制，发现极少数神经元（H-神经元）可预测幻觉，且与过度顺从行为相关，其根源在预训练阶段，为解决幻觉问题提供了新思路，有助于开发更可靠的大模型。

无论大型语言模型再怎么刷榜，但有一个幽灵「幻觉」始终徘徊在头上，让那些追求事实准确性的领域任务（如金融、教育、医疗）不敢轻易地把AI结合到业务中。

幻觉是指模型生成看似合理但事实上不准确或缺乏证据支持的输出，比如GPT-3.5 在基于引用的事实性评估中约有40%的幻觉率，尽管GPT-4将幻觉率降低到28.6%，但仍然处于较高水平；以推理为中心的系统（如DeepSeek-R1）在复杂任务中表现出色，但也存在明显的幻觉模式。

也就是说，无论模型架构如何，幻觉现象始终存在，是影响大模型可靠性的主要瓶颈。

现有的研究结果表明，幻觉背后的机制和因素大致可以分为三类：

从训练数据的角度来看，数据集分布不平衡和固有偏差使得模型难以准确回忆长尾事实；
预训练和后训练阶段的训练目标主要是让模型能够自信地预测，而非表达对「不熟悉信息」的「不确定性」，促使模型输出错误的猜测。预训练中的「next-token预测目标」更注重「输出流畅性」而非「事实准确性」，指令微调和强化学习则倾向于生成「表面上有用」的回答。
解码算法通过自回归生成中的随机性和误差累积引入不稳定性，使得微小偏差逐渐累积成幻觉。

目前的研究大多将大语言模型看作黑盒，在宏观层面探讨幻觉的原因，而忽略了在神经元层面进行微观思考。

通过研究神经元在幻觉中的激活模式，可以更深入地了解模型的可靠性；在可解释性方面，神经元层面的分析可以预测幻觉何时容易出现；对于对齐和行为控制，神经元提供了可操作的干预点，例如激活或抑制特定的神经元子集，从而可靠地修改模型输出。

最近，清华大学孙茂松团队从神经元的角度出发，深入研究了LLM中幻觉的微观机制，从三个视角（识别identification、行为影响behavior impact和起源origins）系统地研究了幻觉相关神经元（H-Neurons）。

论文链接：https://arxiv.org/abs/2512.01797v2

在识别方面，研究人员证明了一个极少数的稀疏神经元子集（少于总神经元数量的0.1% ）就能够可靠地预测幻觉，并在各种不同场景中展现出强大的泛化能力。

在行为影响方面，受控干预显示这些神经元与过度服从行为存在因果关系。

在起源方面，研究人员将这些神经元追溯到预训练的基模型，并发现这些神经元在幻觉检测中仍然具有预测能力，表明幻觉是在预训练过程中产生的。

识别H-神经元

为了从大型语言模型（LLMs）庞大的参数空间中识别出 H-神经元，研究人员采用了稀疏线性探测方法，先利用CETT指标（relu2wins）来量化每个神经元对生成响应的贡献，用于衡量神经元在生成过程中的激活水平。

之后将幻觉检测视为一个二元分类问题，即根据神经元的激活情况预测响应是否为幻觉，使用L1正则化的逻辑回归训练稀疏分类器来自动选择最具预测性的神经元，其中权重非零的神经元被识别为H-神经元。

那些权重非零的神经元被识别为 H-神经元。训练数据是从 TriviaQA 数据集中收集的，通过采样每个问题的多个响应，并根据事实正确性对它们进行标记。

针对六个主流大模型的幻觉检测结果显示，H-神经元在检测幻觉方面表现出显著的鲁棒性，在所有模型和评估场景中均一致且显著优于使用随机选择的神经元构建的分类器，准确率提升超过10个百分点。

分类器在不同场景下均展现出优越性能：领域内数据集（TriviaQA和NQ）上实现了高准确率，在跨领域的生物医学问题（BioASQ）上实现了泛化能力，并且在虚构问题（NonExist）上仍保持有效性。

在熟悉的知识回忆、领域转移和完全虚构场景下的一致表现表明，H-神经元捕捉到了可泛化的幻觉模式，而非特定于数据集的特征。

值得注意的是，H-神经元是模型总神经元中一个极为稀疏的子集，通常仅占模型中所有神经元的不到千分之一，但这一小部分神经元却提供了足够的信号来可靠地检测幻觉，表明模型参数的一个紧凑子集包含了大量关于幻觉倾向的信息。

H-神经元的行为影响

虽然预测准确性表明了相关性，但想确定「H-神经元在塑造模型行为中发挥了什么功能？」，还需要从观察转向干预。

研究人员设计了一种系统性的扰动方法，在不重新训练模型的情况下调节神经元在推理过程中的贡献：

对于每个目标神经元，将激活值乘以一个缩放因子α，其中α的取值范围是0到3；当α小于1时，会通过降低激活强度来抑制神经元的影响；当α等于1时，保持模型的原始行为；当α大于1时，通过增加激活幅度来增强其对模型回复的贡献。

目前的研究普遍认为幻觉是模型为了追求更高准确率而倾向于冒险猜测，研究人员提出了一个补充性的观点：冒险行为是「过度顺从」，即模型倾向于满足用户请求，即使这样做会损害真实性、安全性或完整性。

例如，当模型为了回答「一个无法回答的问题」而生成幻觉内容时，它是在优先考虑人类期望得到答案的潜意识，而非承认不确定或知识的边界，类似于人类可能因社交需求而撒谎的情况。

如果H-神经元编码了过度顺从，那么操纵这些神经元不仅会影响模型在事实性问题上的行为，还会影响其他表现出过度顺从的任务。

实验结果来看，神经元的缩放因子与模型的顺从率之间存在一致的正相关，表明人为增强这些H-神经元的激活值会显著削弱模型对错误前提、误导性上下文、怀疑态度或有害指令的抵抗力，而抑制神经元则能有效减少过度顺从行为，从而恢复模型的稳健性和完整性。

模型对神经元扰动的易感性通常与参数规模呈反比关系，表明较小的模型更容易在内部扰动下发生剧烈的行为变化，而较大的模型可能具有更强的内在稳健性，从而减轻了增强特定神经元群的影响。

行为反应也并非在所有情况下都是严格单调的，某些模型在中间缩放因子时会出现顺从率的波动或临时下降。

H-神经元的起源

这些神经元是在预训练阶段产生的，还是后训练对齐过程中？

确定时间线决定了未来是应该将缓解策略集中在「预训练过程」还是「对齐算法」上。

如果H-神经元在基础模型中就已经显示出独特的激活模式，表明幻觉行为的根源在于预训练阶段的表示，而不仅仅是通过监督微调（SFT）诱导的对齐动态。

研究人员进行了两项实验来分析H-神经元，结果显示，

H-神经元对基础模型的预测能力起到关键作用，证明了H-神经元在预训练阶段就已经建立，而非来自后训练对齐；

归一化排名的分布表明，从基础模型到指令微调模型的转变过程中，H神经元的参数更新非常少，表明指令微调并不能重构底层的幻觉机制。

结论

研究人员对大模型中幻觉的微观机制进行了系统的神经元层面研究，通过弥合宏观行为模式与微观神经激活之间的差距，回答了三个问题：

H-神经元的存在：模型中不到0.1%的神经元可以准确预测模型是否会生成幻觉响应；
对模型行为的影响：H-神经元与大模型的过度顺从行为密切相关，包括对错误前提的过度承诺、对误导性上下文的更高敏感性、对有害指令的增加遵循以及更强的谄媚倾向。H-神经元不仅仅编码事实性错误，而是代表了一种更普遍的倾向，即优先考虑对话的顺从性而非事实完整性。
H-神经元起源于预训练阶段，从学习理论角度提出的观点提供了实证依据，这些神经元在基础模型中保留了预测能，即使在微调之前也能成功检测幻觉。

这项工作加深了对幻觉在计算层面产生的理解，并为开发更可靠的大模型提供可操作的研究方向。

参考资料：

https://arxiv.org/abs/2512.01797

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.