网易首页 > 网易号 > 正文 申请入驻

清华挖出「幻觉」的罪魁祸首:预训练产生的0.1%神经元

0
分享至


新智元报道

编辑:LRS

【新智元导读】清华大学孙茂松团队从神经元角度研究幻觉的微观机制,发现极少数神经元(H-神经元)可预测幻觉,且与过度顺从行为相关,其根源在预训练阶段,为解决幻觉问题提供了新思路,有助于开发更可靠的大模型。

无论大型语言模型再怎么刷榜,但有一个幽灵「幻觉」始终徘徊在头上,让那些追求事实准确性的领域任务(如金融、教育、医疗)不敢轻易地把AI结合到业务中。

幻觉是指模型生成看似合理但事实上不准确或缺乏证据支持的输出,比如GPT-3.5 在基于引用的事实性评估中约有40%的幻觉率,尽管GPT-4将幻觉率降低到28.6%,但仍然处于较高水平;以推理为中心的系统(如DeepSeek-R1)在复杂任务中表现出色,但也存在明显的幻觉模式。

也就是说,无论模型架构如何,幻觉现象始终存在,是影响大模型可靠性的主要瓶颈。

现有的研究结果表明,幻觉背后的机制和因素大致可以分为三类:

  1. 从训练数据的角度来看,数据集分布不平衡和固有偏差使得模型难以准确回忆长尾事实;

  2. 预训练和后训练阶段的训练目标主要是让模型能够自信地预测,而非表达对「不熟悉信息」的「不确定性」,促使模型输出错误的猜测。预训练中的「next-token预测目标」更注重「输出流畅性」而非「事实准确性」,指令微调和强化学习则倾向于生成「表面上有用」的回答。

  3. 解码算法通过自回归生成中的随机性和误差累积引入不稳定性,使得微小偏差逐渐累积成幻觉。

目前的研究大多将大语言模型看作黑盒,在宏观层面探讨幻觉的原因,而忽略了在神经元层面进行微观思考。

通过研究神经元在幻觉中的激活模式,可以更深入地了解模型的可靠性;在可解释性方面,神经元层面的分析可以预测幻觉何时容易出现;对于对齐和行为控制,神经元提供了可操作的干预点,例如激活或抑制特定的神经元子集,从而可靠地修改模型输出。

最近,清华大学孙茂松团队从神经元的角度出发,深入研究了LLM中幻觉的微观机制,从三个视角(识别identification、行为影响behavior impact和起源origins)系统地研究了幻觉相关神经元(H-Neurons)。


论文链接:https://arxiv.org/abs/2512.01797v2

在识别方面,研究人员证明了一个极少数的稀疏神经元子集(少于总神经元数量的0.1% )就能够可靠地预测幻觉,并在各种不同场景中展现出强大的泛化能力。

在行为影响方面,受控干预显示这些神经元与过度服从行为存在因果关系。

在起源方面,研究人员将这些神经元追溯到预训练的基模型,并发现这些神经元在幻觉检测中仍然具有预测能力,表明幻觉是在预训练过程中产生的。

识别H-神经元


为了从大型语言模型(LLMs)庞大的参数空间中识别出 H-神经元,研究人员采用了稀疏线性探测方法,先利用CETT指标(relu2wins)来量化每个神经元对生成响应的贡献,用于衡量神经元在生成过程中的激活水平。

之后将幻觉检测视为一个二元分类问题,即根据神经元的激活情况预测响应是否为幻觉,使用L1正则化的逻辑回归训练稀疏分类器来自动选择最具预测性的神经元,其中权重非零的神经元被识别为H-神经元。

那些权重非零的神经元被识别为 H-神经元。训练数据是从 TriviaQA 数据集中收集的,通过采样每个问题的多个响应,并根据事实正确性对它们进行标记。


针对六个主流大模型的幻觉检测结果显示,H-神经元在检测幻觉方面表现出显著的鲁棒性,在所有模型和评估场景中均一致且显著优于使用随机选择的神经元构建的分类器,准确率提升超过10个百分点。

分类器在不同场景下均展现出优越性能:领域内数据集(TriviaQA和NQ)上实现了高准确率,在跨领域的生物医学问题(BioASQ)上实现了泛化能力,并且在虚构问题(NonExist)上仍保持有效性。

在熟悉的知识回忆、领域转移和完全虚构场景下的一致表现表明,H-神经元捕捉到了可泛化的幻觉模式,而非特定于数据集的特征。

值得注意的是,H-神经元是模型总神经元中一个极为稀疏的子集,通常仅占模型中所有神经元的不到千分之一,但这一小部分神经元却提供了足够的信号来可靠地检测幻觉,表明模型参数的一个紧凑子集包含了大量关于幻觉倾向的信息。

H-神经元的行为影响

虽然预测准确性表明了相关性,但想确定「H-神经元在塑造模型行为中发挥了什么功能?」,还需要从观察转向干预。

研究人员设计了一种系统性的扰动方法,在不重新训练模型的情况下调节神经元在推理过程中的贡献:

对于每个目标神经元,将激活值乘以一个缩放因子α,其中α的取值范围是0到3;当α小于1时,会通过降低激活强度来抑制神经元的影响;当α等于1时,保持模型的原始行为;当α大于1时,通过增加激活幅度来增强其对模型回复的贡献。

目前的研究普遍认为幻觉是模型为了追求更高准确率而倾向于冒险猜测,研究人员提出了一个补充性的观点:冒险行为是「过度顺从」,即模型倾向于满足用户请求,即使这样做会损害真实性、安全性或完整性。

例如,当模型为了回答「一个无法回答的问题」而生成幻觉内容时,它是在优先考虑人类期望得到答案的潜意识,而非承认不确定或知识的边界,类似于人类可能因社交需求而撒谎的情况。

如果H-神经元编码了过度顺从,那么操纵这些神经元不仅会影响模型在事实性问题上的行为,还会影响其他表现出过度顺从的任务。


实验结果来看,神经元的缩放因子与模型的顺从率之间存在一致的正相关,表明人为增强这些H-神经元的激活值会显著削弱模型对错误前提、误导性上下文、怀疑态度或有害指令的抵抗力,而抑制神经元则能有效减少过度顺从行为,从而恢复模型的稳健性和完整性。

模型对神经元扰动的易感性通常与参数规模呈反比关系,表明较小的模型更容易在内部扰动下发生剧烈的行为变化,而较大的模型可能具有更强的内在稳健性,从而减轻了增强特定神经元群的影响。

行为反应也并非在所有情况下都是严格单调的,某些模型在中间缩放因子时会出现顺从率的波动或临时下降。

H-神经元的起源

这些神经元是在预训练阶段产生的,还是后训练对齐过程中?

确定时间线决定了未来是应该将缓解策略集中在「预训练过程」还是「对齐算法」上。

如果H-神经元在基础模型中就已经显示出独特的激活模式,表明幻觉行为的根源在于预训练阶段的表示,而不仅仅是通过监督微调(SFT)诱导的对齐动态。


研究人员进行了两项实验来分析H-神经元,结果显示,

H-神经元对基础模型的预测能力起到关键作用,证明了H-神经元在预训练阶段就已经建立,而非来自后训练对齐;

归一化排名的分布表明,从基础模型到指令微调模型的转变过程中,H神经元的参数更新非常少,表明指令微调并不能重构底层的幻觉机制。

结论

研究人员对大模型中幻觉的微观机制进行了系统的神经元层面研究,通过弥合宏观行为模式与微观神经激活之间的差距,回答了三个问题:

  1. H-神经元的存在:模型中不到0.1%的神经元可以准确预测模型是否会生成幻觉响应;

  2. 对模型行为的影响:H-神经元与大模型的过度顺从行为密切相关,包括对错误前提的过度承诺、对误导性上下文的更高敏感性、对有害指令的增加遵循以及更强的谄媚倾向。H-神经元不仅仅编码事实性错误,而是代表了一种更普遍的倾向,即优先考虑对话的顺从性而非事实完整性。

  3. H-神经元起源于预训练阶段,从学习理论角度提出的观点提供了实证依据,这些神经元在基础模型中保留了预测能,即使在微调之前也能成功检测幻觉。

这项工作加深了对幻觉在计算层面产生的理解,并为开发更可靠的大模型提供可操作的研究方向。

参考资料:

https://arxiv.org/abs/2512.01797

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

黯泉
2026-02-10 22:00:47
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
昔日全美第一高中生,曾被夸“上乔下科”,如今场均13分泯然众人

昔日全美第一高中生,曾被夸“上乔下科”,如今场均13分泯然众人

弄月公子
2026-02-22 12:43:21
深度:为什么说特朗普是中国千年难遇的贵人?倒逼中国打破内卷?

深度:为什么说特朗普是中国千年难遇的贵人?倒逼中国打破内卷?

鲸探所长
2026-02-23 14:18:29
齐思钧发文官宣分手,刘梦章首度回应:没有背叛,只是道路不同

齐思钧发文官宣分手,刘梦章首度回应:没有背叛,只是道路不同

喜欢历史的阿繁
2026-02-22 19:31:51
吕端做了什么"明白事",被写进"大事不糊涂"的成语里?

吕端做了什么"明白事",被写进"大事不糊涂"的成语里?

全国党媒信息公共平台
2026-02-23 12:26:37
天津南市,房价从2010年18500涨到58000,如今走完一轮涨跌周期

天津南市,房价从2010年18500涨到58000,如今走完一轮涨跌周期

科学发掘
2026-02-23 09:40:40
全国首例!上海地铁3号、4号线改造封神,TACS黑科技解决共线难题

全国首例!上海地铁3号、4号线改造封神,TACS黑科技解决共线难题

三农老历
2026-02-23 21:09:12
最新通知!上班时间调整

最新通知!上班时间调整

随州派
2026-02-23 21:24:43
爆:中国电信员工晒2025年终奖工资单!

爆:中国电信员工晒2025年终奖工资单!

通信头条
2026-02-20 20:42:28
墨西哥贩毒集团报复行动致27名安全人员死亡

墨西哥贩毒集团报复行动致27名安全人员死亡

新华社
2026-02-24 04:40:04
快船队伦纳德近距离展现统治力,魔术球员称赞其为联盟最佳球员

快船队伦纳德近距离展现统治力,魔术球员称赞其为联盟最佳球员

好火子
2026-02-24 04:49:13
反常识?技术门槛很低的增程技术,为什么越卖越贵?

反常识?技术门槛很低的增程技术,为什么越卖越贵?

少数派报告Report
2026-02-21 07:58:37
《细胞》子刊:茶叶代谢产物或能促炎,可能加重特定疾病症状

《细胞》子刊:茶叶代谢产物或能促炎,可能加重特定疾病症状

医学新视点
2026-02-23 17:34:35
“后坐力”太大!闫学晶又被爆出猛料,她和儿子已经一个也跑不了

“后坐力”太大!闫学晶又被爆出猛料,她和儿子已经一个也跑不了

来科点谱
2026-01-22 08:53:11
英女王最宠的儿子:高大英俊照片被女王放钱包随身携带,如今被王室切割

英女王最宠的儿子:高大英俊照片被女王放钱包随身携带,如今被王室切割

小鱼爱鱼乐
2026-02-21 22:45:41
随着赵心童球员锦标赛夺冠,目前还有这五大重要赛事未能夺冠!

随着赵心童球员锦标赛夺冠,目前还有这五大重要赛事未能夺冠!

田先生篮球
2026-02-23 22:29:19
你懂球迷分享皇马邮件回复:赫伊森已通过中国社交网络道歉

你懂球迷分享皇马邮件回复:赫伊森已通过中国社交网络道歉

懂球帝
2026-02-23 23:53:44
中国驻刚果(金)使馆再次提醒中国公民和企业切勿在刚东非法采矿

中国驻刚果(金)使馆再次提醒中国公民和企业切勿在刚东非法采矿

环球网资讯
2026-02-24 07:25:08
毛主席在湖南接见韦国清,谈话时突然问:你和韦拔群是不是一家

毛主席在湖南接见韦国清,谈话时突然问:你和韦拔群是不是一家

大运河时空
2026-02-23 07:50:03
2026-02-24 07:56:50
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14577文章数 66636关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

特朗普发起新一轮无差别攻击 外媒:中国巴西受益最大

头条要闻

特朗普发起新一轮无差别攻击 外媒:中国巴西受益最大

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

速览!假期这些大事影响节后市场

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

时尚
手机
健康
亲子
艺术

今年春天一定要拥有的针织,这样穿减龄又好看!

手机要闻

小米海外版新机曝光,Logo变了

转头就晕的耳石症,能开车上班吗?

亲子要闻

孩子长得慢长得矮,查查这四项

艺术要闻

雍正帝御笔春条

无障碍浏览 进入关怀版