网易首页 > 网易号 > 正文 申请入驻

清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

0
分享至

近日,清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”,并给它们起了一个名字 H-神经元(幻觉神经元)。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。

这一研究让人们第一次清晰地看到幻觉是如何从机器的神经层面产生的。它可以帮助我们更好地检测 AI 什么时候在撒谎,未来也可以通过微调这些小开关,造出更加诚实、更加可靠的 AI 助手。


图 | 高骋(来源:高骋)

AI 幻觉从何而来?如何找到关键幻觉因素?

对于大模型来说,我们可以把其想象成为一个由数千亿个脑细胞(在 AI 里叫神经元)连接成的超级网络。它通过阅读互联网的海量信息来学习,学习目标很简单,就是根据前面的文字,预测下一个最有可能出现的词语。比如看到“天空是什么颜色的”,它大概率会学会接“蓝色的”。

但这种学习方式埋下了一个隐患:模型只被训练生成通顺的文字,而不是正确的答案。当它遇到自己不确定或者根本没学过的知识,为了完成只说出一个通顺句子的任务,它就可能凭感觉编造出一个答案。

此前,人们大多从整体上研究这个问题,比如检查训练数据是否有偏差,或者让 AI 自己输出置信度。但是,这就像只知道一个人发烧,却不知道哪个器官感染了一样。本次清华团队的创新之处在于,他们决定拿起显微镜直接去观察 AI 大脑内部里的数千万甚至数亿个神经元,看看当 AI 在撒谎的时候,到底是哪些神经元在活跃。


(来源:资料图)

相关论文第一作者、清华大学硕士生高骋告诉 DeepTech:“目前工业界对减轻幻觉的关注相对有限,但学术界已做了许多努力。不过,多数研究仍停留在表层,将模型视为黑盒,通过后训练、调整数据等方式打补丁,未能从根本上理解幻觉机制。因此,我们希望借鉴神经科学的思路,从模型内部神经元入手,真正理解幻觉的产生原理,为未来彻底解决该问题提供新的视角。”

为此,高骋和所在团队准备了一套寻找方法:

首先,他们备好一批测试题和标准答案,使用了一个名为 TriviaQA 的知识问答数据集来向 AI 模型提问。对于每个问题,他们都让 AI 生成很多遍答案。如果 AI 每次都能答对,这个答案就被标记为真实;如果 AI 每次都在同一个问题上犯错,并且不是回答“我不知道”,而是坚定地给出错误答案,那么这个答案就被标记为幻觉。

当 AI 生成答案的时候,他们使用了一套名为 CETT 的测量技术,仔细记录下每个神经元的活跃度贡献值,就像测量每个脑细胞在说出那个答案时付出了多大力气一样。研究人员特别关注答案关键词比如“爱因斯坦”一词被说出来的那一刻的神经元活动。

然后,他们使用这些数据训练了一个筛选器,即一个带有稀疏约束的线性分类器。这个筛选器的任务很简单:只看神经元的活跃度程度,就能判断出 AI 刚才的回答是真实还是幻觉。结果发现:筛选器自动地把重要性权重几乎都给了极少数的神经元,而其他绝大多数神经元的权重都变成了零。

这些被选中的、权重为正的神经元就是 H-神经元。研究表明,它们只占模型总神经元数量的不到 0.1%。尽管数量稀少,但是它们就像一个明确的信号灯,意味着只要它们异常活跃,AI 就很有可能在编造事实。

为了验证这一发现的稳健性,研究人员在不同场景下测试了 H-神经元的侦察能力,包括常规知识问答能力比如 AI 是否记错了学过的知识;包括跨领域专业问题以此来测试 AI 是否会在陌生领域瞎猜;包括完全虚构的问题以便测试 AI 是否会无中生有的编造。

在这些情况下,基于 H-神经元的检测器都有着出色表现,准确率远远高于随机挑选的神经元。这证明它们捕捉到了不是某种特定问题的特征,而是 AI 编故事的通用内在模式。


(来源:https://arxiv.org/pdf/2512.01797)

拨动开关:H-神经元如何控制 AI 行为?

只发现关联还不够,他们还想知道这些 H-神经元是元凶吗?它们除了与事实错误相关,还会管别的事情吗?

于是,他们进行了一系列的脑部刺激试验。在 AI 生成答案的过程中,像调节旋钮一样,人为地放大或者抑制这些 H-神经元的活跃度。

结果发现;调节这些神经元,就等于调节了 AI 的顺从度。

在放大 H-神经元的时候,会让 AI 变得更加听话,但是这种类型的听话是盲目的。它会更容易接受错误的前提比如认为猫是有羽毛的,以及更容易接受存在误导性的上下文,更容易在用户表示怀疑时放弃自己原本正确的答案,甚至更有可能突破安全限制区回答有害的指令。

在抑制 H-神经元的时候,AI 则会变得更加坚定和更加诚实,它更倾向于拒绝错误的前提、质疑误导信息、坚持正确的答案并遵守安全准则。

这揭示了一个核心洞见:H-神经元编码的并非简单的对错,而是一种过度顺从的倾向。AI 产生幻觉本质上是为了满足用于得到一个答案的期望,而过度顺从则牺牲了事实性。这让 AI 成了一个过于想讨好别人而不得不撒谎的孩子。这个发现把事实性幻觉和安全性漏洞等看似不同的问题,通过过度顺从这个共同根节点联系了起来。


(来源:https://arxiv.org/pdf/2512.01797)

最后一个关键问题是:这些捣蛋的神经元是什么时候形成的?是在最初阅读海量文本的预训练阶段就学会的?还是在后续的指令微调也就是教导 AI 听从人类指令的阶段被引入的?

研究人员比较了只经过预训练的基础模型和经过后续调教的指令微调模型,借此发现:

首先,H-神经元在基础模型中就已经存在。使用指令微调模型中的 H-神经元去检测基础模型,依然可以有效预测幻觉,这说明编故事的神经基础在早期学习就买下来种子。

其次,指令微调几乎不会改变 H-神经元。对比基础模型和微调后的模型,H-神经元本身的参数变化非常小,远低于网络中其他神经元的平均变化程度。这意味着后续的调教并没有修复或者显著改变这些固有回路,只是继承了它们。

结论很清楚:幻觉的种子早在预训练阶段就已种下。因为预训练的目标即预测下一个词只奖励流畅,不惩罚虚构。为了变得流畅,AI 不得不学会在空白知识处进行猜测,久而久之就形成了固定的编故事的神经回路。后续的指令微调,虽然让 AI 变得更加乐于助人,但却无意中强化了这种为了满足用户而顺从甚至编造的倾向。

“因此,这项研究的应用前景主要体现在两方面:首先,由于神经元是模型中具体存在的单元,对其进行干预(激活或抑制)操作简便,无需重新训练模型,这为缓解幻觉提供了新方法;其次,它启发我们重新思考预训练目标的设计,引入对事实性、不确定性建模的机制,从而在源头缓解幻觉。”高骋表示。

参考资料:

相关论文 https://arxiv.org/pdf/2512.01797

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普:将对所有与伊朗进行贸易往来国家加征25%关税

特朗普:将对所有与伊朗进行贸易往来国家加征25%关税

界面新闻
2026-01-23 07:56:45
令人期待,卡特和麦迪宣布举办全新播客节目“表兄弟”

令人期待,卡特和麦迪宣布举办全新播客节目“表兄弟”

懂球帝
2026-01-23 10:10:11
李湘得罪何超琼,就出事了!?

李湘得罪何超琼,就出事了!?

八卦疯叔
2026-01-23 09:30:03
工作室回应“潦草小马”走红:正全力投入制作,30人一天能做50个左右

工作室回应“潦草小马”走红:正全力投入制作,30人一天能做50个左右

环球网资讯
2026-01-22 08:55:15
摩友加油站呲汽油后续:账号被扒却不认账,强行加油只是冰山一角

摩友加油站呲汽油后续:账号被扒却不认账,强行加油只是冰山一角

离离言几许
2026-01-22 17:43:43
嫣然医院有救了?曝台湾省裕隆集团要全资资助,称对李亚鹏很敬佩

嫣然医院有救了?曝台湾省裕隆集团要全资资助,称对李亚鹏很敬佩

小徐讲八卦
2026-01-22 14:35:50
李心月曝黄晓明baby离婚原因!baby婚内出轨邓某,车内运动被发现

李心月曝黄晓明baby离婚原因!baby婚内出轨邓某,车内运动被发现

八卦王者
2026-01-21 15:52:49
川普试图“踢馆”达沃斯,岂料踢到铁板上

川普试图“踢馆”达沃斯,岂料踢到铁板上

史政先锋
2026-01-22 14:53:14
瘦下来的马思纯,连脚趾头都是美的。

瘦下来的马思纯,连脚趾头都是美的。

动物奇奇怪怪
2026-01-23 12:02:42
2014年,黄海波刚走出收容所的大门,曲栅栅迎了上来

2014年,黄海波刚走出收容所的大门,曲栅栅迎了上来

忠于法纪
2026-01-20 18:30:40
外媒:阿根廷总统米莱称,不必在美国和中国之间做选择,中国是“伟大”的贸易伙伴

外媒:阿根廷总统米莱称,不必在美国和中国之间做选择,中国是“伟大”的贸易伙伴

环球网资讯
2026-01-22 22:29:07
将帅失和?维拉爆发激烈内讧:埃梅里推搡并怒吼中场大将

将帅失和?维拉爆发激烈内讧:埃梅里推搡并怒吼中场大将

球事百科吖
2026-01-23 09:23:48
轰38+8三分独木难支!37岁库里提前下场双眼无神 在场-24一败涂地

轰38+8三分独木难支!37岁库里提前下场双眼无神 在场-24一败涂地

颜小白的篮球梦
2026-01-23 11:14:05
一包30块槟榔危害大,北方农村十年全面遭入侵

一包30块槟榔危害大,北方农村十年全面遭入侵

笑饮孤鸿非
2026-01-05 19:51:04
胖成球!广东旧将身材变化明显 球迷调侃成奥尼尔

胖成球!广东旧将身材变化明显 球迷调侃成奥尼尔

胖子喷球
2026-01-23 08:54:06
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
拒26分逆转!小卡24分,快船险胜湖人,东契奇32分,两队都需交易

拒26分逆转!小卡24分,快船险胜湖人,东契奇32分,两队都需交易

老梁体育漫谈
2026-01-23 13:43:59
抓紧洗晒!河南“晴天卡”仅剩2天,新一轮雨雪锁定周日,或含冻雨

抓紧洗晒!河南“晴天卡”仅剩2天,新一轮雨雪锁定周日,或含冻雨

鲁中晨报
2026-01-23 07:07:02
美军舰护航对台军售船闯台海,百架F35撑腰,中方亮杀招硬刚到底

美军舰护航对台军售船闯台海,百架F35撑腰,中方亮杀招硬刚到底

达文西看世界
2026-01-22 09:28:01
胡锡进疑为西贝发声:预制菜必须卖很便宜,这在道理上是不全面的

胡锡进疑为西贝发声:预制菜必须卖很便宜,这在道理上是不全面的

映射生活的身影
2026-01-23 13:11:27
2026-01-23 14:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16166文章数 514523关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

媒体:特朗普达沃斯论坛上犯了三种错 两个涉及中国

头条要闻

媒体:特朗普达沃斯论坛上犯了三种错 两个涉及中国

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

数码
艺术
本地
亲子
公开课

数码要闻

JBL“乐队练团神器”BandBox系列音箱发布,AI帮你去除指定乐器

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

亲子要闻

液体钙哪个牌子好?液体钙top10品牌推荐,归一食多效复配口碑好

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版