网易首页 > 网易号 > 正文 申请入驻

清华挖出「幻觉」的罪魁祸首:预训练产生的0.1%神经元

0
分享至


新智元报道

编辑:LRS

【新智元导读】清华大学孙茂松团队从神经元角度研究幻觉的微观机制,发现极少数神经元(H-神经元)可预测幻觉,且与过度顺从行为相关,其根源在预训练阶段,为解决幻觉问题提供了新思路,有助于开发更可靠的大模型。

无论大型语言模型再怎么刷榜,但有一个幽灵「幻觉」始终徘徊在头上,让那些追求事实准确性的领域任务(如金融、教育、医疗)不敢轻易地把AI结合到业务中。

幻觉是指模型生成看似合理但事实上不准确或缺乏证据支持的输出,比如GPT-3.5 在基于引用的事实性评估中约有40%的幻觉率,尽管GPT-4将幻觉率降低到28.6%,但仍然处于较高水平;以推理为中心的系统(如DeepSeek-R1)在复杂任务中表现出色,但也存在明显的幻觉模式。

也就是说,无论模型架构如何,幻觉现象始终存在,是影响大模型可靠性的主要瓶颈。

现有的研究结果表明,幻觉背后的机制和因素大致可以分为三类:

  1. 从训练数据的角度来看,数据集分布不平衡和固有偏差使得模型难以准确回忆长尾事实;

  2. 预训练和后训练阶段的训练目标主要是让模型能够自信地预测,而非表达对「不熟悉信息」的「不确定性」,促使模型输出错误的猜测。预训练中的「next-token预测目标」更注重「输出流畅性」而非「事实准确性」,指令微调和强化学习则倾向于生成「表面上有用」的回答。

  3. 解码算法通过自回归生成中的随机性和误差累积引入不稳定性,使得微小偏差逐渐累积成幻觉。

目前的研究大多将大语言模型看作黑盒,在宏观层面探讨幻觉的原因,而忽略了在神经元层面进行微观思考。

通过研究神经元在幻觉中的激活模式,可以更深入地了解模型的可靠性;在可解释性方面,神经元层面的分析可以预测幻觉何时容易出现;对于对齐和行为控制,神经元提供了可操作的干预点,例如激活或抑制特定的神经元子集,从而可靠地修改模型输出。

最近,清华大学孙茂松团队从神经元的角度出发,深入研究了LLM中幻觉的微观机制,从三个视角(识别identification、行为影响behavior impact和起源origins)系统地研究了幻觉相关神经元(H-Neurons)。


论文链接:https://arxiv.org/abs/2512.01797v2

在识别方面,研究人员证明了一个极少数的稀疏神经元子集(少于总神经元数量的0.1% )就能够可靠地预测幻觉,并在各种不同场景中展现出强大的泛化能力。

在行为影响方面,受控干预显示这些神经元与过度服从行为存在因果关系。

在起源方面,研究人员将这些神经元追溯到预训练的基模型,并发现这些神经元在幻觉检测中仍然具有预测能力,表明幻觉是在预训练过程中产生的。

识别H-神经元


为了从大型语言模型(LLMs)庞大的参数空间中识别出 H-神经元,研究人员采用了稀疏线性探测方法,先利用CETT指标(relu2wins)来量化每个神经元对生成响应的贡献,用于衡量神经元在生成过程中的激活水平。

之后将幻觉检测视为一个二元分类问题,即根据神经元的激活情况预测响应是否为幻觉,使用L1正则化的逻辑回归训练稀疏分类器来自动选择最具预测性的神经元,其中权重非零的神经元被识别为H-神经元。

那些权重非零的神经元被识别为 H-神经元。训练数据是从 TriviaQA 数据集中收集的,通过采样每个问题的多个响应,并根据事实正确性对它们进行标记。


针对六个主流大模型的幻觉检测结果显示,H-神经元在检测幻觉方面表现出显著的鲁棒性,在所有模型和评估场景中均一致且显著优于使用随机选择的神经元构建的分类器,准确率提升超过10个百分点。

分类器在不同场景下均展现出优越性能:领域内数据集(TriviaQA和NQ)上实现了高准确率,在跨领域的生物医学问题(BioASQ)上实现了泛化能力,并且在虚构问题(NonExist)上仍保持有效性。

在熟悉的知识回忆、领域转移和完全虚构场景下的一致表现表明,H-神经元捕捉到了可泛化的幻觉模式,而非特定于数据集的特征。

值得注意的是,H-神经元是模型总神经元中一个极为稀疏的子集,通常仅占模型中所有神经元的不到千分之一,但这一小部分神经元却提供了足够的信号来可靠地检测幻觉,表明模型参数的一个紧凑子集包含了大量关于幻觉倾向的信息。

H-神经元的行为影响

虽然预测准确性表明了相关性,但想确定「H-神经元在塑造模型行为中发挥了什么功能?」,还需要从观察转向干预。

研究人员设计了一种系统性的扰动方法,在不重新训练模型的情况下调节神经元在推理过程中的贡献:

对于每个目标神经元,将激活值乘以一个缩放因子α,其中α的取值范围是0到3;当α小于1时,会通过降低激活强度来抑制神经元的影响;当α等于1时,保持模型的原始行为;当α大于1时,通过增加激活幅度来增强其对模型回复的贡献。

目前的研究普遍认为幻觉是模型为了追求更高准确率而倾向于冒险猜测,研究人员提出了一个补充性的观点:冒险行为是「过度顺从」,即模型倾向于满足用户请求,即使这样做会损害真实性、安全性或完整性。

例如,当模型为了回答「一个无法回答的问题」而生成幻觉内容时,它是在优先考虑人类期望得到答案的潜意识,而非承认不确定或知识的边界,类似于人类可能因社交需求而撒谎的情况。

如果H-神经元编码了过度顺从,那么操纵这些神经元不仅会影响模型在事实性问题上的行为,还会影响其他表现出过度顺从的任务。


实验结果来看,神经元的缩放因子与模型的顺从率之间存在一致的正相关,表明人为增强这些H-神经元的激活值会显著削弱模型对错误前提、误导性上下文、怀疑态度或有害指令的抵抗力,而抑制神经元则能有效减少过度顺从行为,从而恢复模型的稳健性和完整性。

模型对神经元扰动的易感性通常与参数规模呈反比关系,表明较小的模型更容易在内部扰动下发生剧烈的行为变化,而较大的模型可能具有更强的内在稳健性,从而减轻了增强特定神经元群的影响。

行为反应也并非在所有情况下都是严格单调的,某些模型在中间缩放因子时会出现顺从率的波动或临时下降。

H-神经元的起源

这些神经元是在预训练阶段产生的,还是后训练对齐过程中?

确定时间线决定了未来是应该将缓解策略集中在「预训练过程」还是「对齐算法」上。

如果H-神经元在基础模型中就已经显示出独特的激活模式,表明幻觉行为的根源在于预训练阶段的表示,而不仅仅是通过监督微调(SFT)诱导的对齐动态。


研究人员进行了两项实验来分析H-神经元,结果显示,

H-神经元对基础模型的预测能力起到关键作用,证明了H-神经元在预训练阶段就已经建立,而非来自后训练对齐;

归一化排名的分布表明,从基础模型到指令微调模型的转变过程中,H神经元的参数更新非常少,表明指令微调并不能重构底层的幻觉机制。

结论

研究人员对大模型中幻觉的微观机制进行了系统的神经元层面研究,通过弥合宏观行为模式与微观神经激活之间的差距,回答了三个问题:

  1. H-神经元的存在:模型中不到0.1%的神经元可以准确预测模型是否会生成幻觉响应;

  2. 对模型行为的影响:H-神经元与大模型的过度顺从行为密切相关,包括对错误前提的过度承诺、对误导性上下文的更高敏感性、对有害指令的增加遵循以及更强的谄媚倾向。H-神经元不仅仅编码事实性错误,而是代表了一种更普遍的倾向,即优先考虑对话的顺从性而非事实完整性。

  3. H-神经元起源于预训练阶段,从学习理论角度提出的观点提供了实证依据,这些神经元在基础模型中保留了预测能,即使在微调之前也能成功检测幻觉。

这项工作加深了对幻觉在计算层面产生的理解,并为开发更可靠的大模型提供可操作的研究方向。

参考资料:

https://arxiv.org/abs/2512.01797

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

奇思妙想草叶君
2026-01-07 22:36:16
田朴珺回应和王石离婚!王思聪罕见发声,翻出12年前微博讽刺!

田朴珺回应和王石离婚!王思聪罕见发声,翻出12年前微博讽刺!

生性洒脱
2026-01-06 15:12:34
7年烧掉35亿,营收仅4500万,“中国版SpaceX”带病闯关?

7年烧掉35亿,营收仅4500万,“中国版SpaceX”带病闯关?

功夫财经
2026-01-06 08:28:25
日本5-0血洗!韩国0-0憾平!U23亚洲杯精彩一夜,中国战术曝光

日本5-0血洗!韩国0-0憾平!U23亚洲杯精彩一夜,中国战术曝光

大秦壁虎白话体育
2026-01-07 21:46:52
李在明离华前,中方正式通告全世界,不会再对高市早苗手下留情!

李在明离华前,中方正式通告全世界,不会再对高市早苗手下留情!

兰妮搞笑分享
2026-01-08 00:13:57
凯美瑞新增车型上市 售价19.48-21.18万元

凯美瑞新增车型上市 售价19.48-21.18万元

车质网
2026-01-07 14:41:06
广东110-105力克深圳 球员评价:5人满分,1人及格,4人低迷

广东110-105力克深圳 球员评价:5人满分,1人及格,4人低迷

篮球资讯达人
2026-01-07 21:31:51
“遇到交警不洒,遇到行人正常洒”,浙江温州一洒水车被指双标;镇政府:由外包的第三方公司管理,会批评教育,累犯将罚款

“遇到交警不洒,遇到行人正常洒”,浙江温州一洒水车被指双标;镇政府:由外包的第三方公司管理,会批评教育,累犯将罚款

扬子晚报
2026-01-07 12:28:44
网红小姐姐这身职业装既有高级感又女人味十足

网红小姐姐这身职业装既有高级感又女人味十足

美女穿搭分享
2026-01-06 17:40:39
出大事了,特朗普或下台,印度将被征500%关税,美国收获千万石油

出大事了,特朗普或下台,印度将被征500%关税,美国收获千万石油

科普100克克
2026-01-07 18:15:58
交易!确定两个首轮签!再见,快船!

交易!确定两个首轮签!再见,快船!

民哥台球解说
2026-01-07 18:35:10
长城汽车正式取消“大小周”,全面落实双休制度,员工:刚开始听到消息,以为是谣言不敢信

长城汽车正式取消“大小周”,全面落实双休制度,员工:刚开始听到消息,以为是谣言不敢信

大风新闻
2026-01-06 16:58:03
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
“遥遥领先”最多挺3个月?马斯克确认,满血FSD入华障碍已扫除

“遥遥领先”最多挺3个月?马斯克确认,满血FSD入华障碍已扫除

小李车评李建红
2026-01-06 07:30:03
司晓迪后又一女星爆料,内涵鹿晗和黄子韬玩的精,王安宇深藏不露

司晓迪后又一女星爆料,内涵鹿晗和黄子韬玩的精,王安宇深藏不露

银河史记
2026-01-07 12:46:31
医生发现:坚持用盐水漱口的人,咽喉可能正在发生这5个积极变化

医生发现:坚持用盐水漱口的人,咽喉可能正在发生这5个积极变化

健康科普365
2026-01-04 09:41:09
媒体:太子集团创始人陈志被捕并遣送中国

媒体:太子集团创始人陈志被捕并遣送中国

澎湃新闻
2026-01-07 21:05:09
太给力了!郴州一工厂员工聚餐抽奖,奖金168000元,设1143个名额

太给力了!郴州一工厂员工聚餐抽奖,奖金168000元,设1143个名额

火山詩话
2026-01-07 11:06:32
中美老百姓人均负债公开!美国人均负债75万,中国是多少呢?

中美老百姓人均负债公开!美国人均负债75万,中国是多少呢?

丰谭笔录
2026-01-08 00:12:23
蔡正元即将入狱之际,特意寄语两岸关系,却不料:民进党再下狠手

蔡正元即将入狱之际,特意寄语两岸关系,却不料:民进党再下狠手

比利
2026-01-07 19:30:10
2026-01-08 02:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14279文章数 66451关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

本地
游戏
教育
艺术
公开课

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

《GTA6》地图规模再引热议:这次真要"大到离谱"了?

教育要闻

在AI时代,教育有三个基本原理不会变

艺术要闻

24位国画大师联手,震撼美学体验等你来!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版