网易首页 > 网易号 > 正文 申请入驻

清华和斯坦福研究人员发现AI大模型隐藏的价值判断系统

0
分享至


当你在考虑是否要冒险尝试一件新事物时,你的大脑会进行一系列复杂的评估。你会思考这件事成功的可能性有多大,失败会带来什么后果,这一切是否值得投入时间和精力。你的大脑在做这个决策的过程中,实际上是在计算一个叫做"价值"的东西——这个地方做这件事对我来说价值几何。

现在想象一下,你正在和一个超级聪明的AI助手对话,问它一个复杂的数学问题。这个AI会进行推理、计算、验证,最终给出答案。但在这个过程开始之前,这个AI其实已经对这个问题进行了某种评估——它知道自己可能成功解决这个问题的概率有多大。这种"预感"来自哪里呢?一项发表于2026年2月的突破性研究揭示了答案。

由来自清华大学和斯坦福大学的研究团队合作完成的这项研究,首次发现并系统地验证了大型语言模型(我们日常使用的各种AI助手背后的技术)内部隐藏着一个精妙的"价值判断系统"。这个系统就像人类大脑中管理奖励和决策的神经网络一样,能够对当前任务的成功概率进行评估。更令人惊讶的是,这个系统并不是分散在整个AI模型中的,而是高度集中地存在于少数几个特殊的神经元上——研究团队将其称为"价值神经元"。

让我们用一个更容易理解的比喻来说明这个发现的意义。假设你走进一家新开的餐厅,在点菜之前,侍者会根据你的口味偏好给出一个预判:"根据我们的经验,你很可能会喜欢这道菜"。这个预判来自侍者对你喜好的理解。同样地,AI模型在处理信息时,其内部的"价值神经元"就在进行这样的预判工作——它在持续地评估:"根据我对问题的理解,我解决它的概率是多少"。

一、寻找AI大脑中的"价值中枢"

这项研究的旅程始于一个有趣的观察。研究人员注意到,当他们从AI模型的中间层(隐藏层)提取信息时,这些信息能够相当准确地预测该模型最终是否能给出正确答案。这看起来似乎并不奇怪——毕竟,如果AI在处理信息的过程中一切顺利,那么它最终很可能会成功。但关键的发现在于:这种预测能力并不均匀分布在所有神经元上。相反,只有极少数的神经元——在某些情况下不足总数的1%——承担了这项预测工作。

为了找到这些关键的神经元,研究团队设计了一个精巧的实验方法。他们训练了一个简单的"评估器"(技术上称为"价值探针"),这个评估器接收AI模型某一层的全部神经活动数据,然后试图预测最终的结果是否正确。这个评估器采用的训练方法叫做"时间差分学习",这是一种受人脑学习机制启发的技术。简单来说,它不仅看最终的结果,还关注整个推理过程中的每一步——每一步是否如预期进行,是否有意外的发现。

接下来的一步至关重要。研究人员开始逐步移除评估器依赖的神经元输入,就像在一道菜里逐个去掉配料,看看哪些是关键的味道来源。他们发现了一个惊人的现象:即使他们移除了99%的神经元的数据,只保留不到1%的关键神经元,这个评估器仍然能够保持相当高的预测准确率。这意味着,AI模型中的"价值判断"工作实际上被集中在了极少数的神经元上。这些就是研究团队所说的"价值神经元"。

二、这些特殊神经元真的那么重要吗?

要证明这些价值神经元确实像我们想象的那样重要,仅仅通过观察是不够的。研究人员需要进行一个更直接的测试:关闭这些神经元,看看会发生什么。这就像一个医生做神经检查时,会轻轻敲击患者的膝盖反射点,观察腿的反应。

研究团队选择了一个特定的AI模型进行实验,然后选择了该模型中的价值神经元,将其激动程度设为零——用技术的语言说,就是"消融"这些神经元。结果如何呢?灾难性的。当他们仅仅关闭了占总神经元数不足1%的价值神经元后,模型在数学问题上的准确率从75%左右暴跌到了20%左右,性能下降超过50%。相比之下,如果他们随机选择相同数量的其他神经元进行同样的操作,模型的性能几乎不受影响。

这个对比实验的威力在于它的明确性。它证明了价值神经元不只是在进行某种统计相关的计算,而是在进行对模型推理能力至关重要的工作。用生活中的比喻,这就像关闭一座城市的交通信号灯系统——虽然这个系统只占城市基础设施的一小部分,但一旦它停止工作,整个城市的运转就会陷入混乱。

三、这个系统有多稳定和通用?

既然发现了这样一个重要的系统,自然的问题就是:这个系统是特定于某个AI模型,还是一个更普遍的特性?或者说,这个系统只对某种类型的任务有效,还是对所有任务都有用?

研究团队进行了广泛的验证工作。他们在多个数学类的数据集上测试了这个发现——包括GSM8K(一个包含中学数学问题的数据集)、MATH500(包含更难数学问题的集合)、Minerva Math(由神经网络生成的数学问题集)、ARC(一个通用的推理能力测试集)以及MMLU的科学部分(一个测试多学科知识的综合题库)。在所有这些数据集上,价值神经元的特征都保持了一致性。无论是哪个数据集,那些最关键的价值神经元所体现的模式都是相似的。

更有趣的是,研究人员检验了不同大小的AI模型。他们使用了参数数量从15亿到140亿不等的模型。你可能想象,更大的模型可能会采用完全不同的内部结构来处理价值问题。但事实并非如此——即使在这些大小差异巨大的模型中,价值神经元系统都显示出相似的特性。这表明这不是某个特定模型设计的特点,而是大型语言模型内部工作原理的一个根本特征。

研究团队还检查了模型中不同的层级。一个现代的AI模型通常由20多层甚至数十层的处理层组成,就像一座楼房有很多楼层一样。价值神经元在这些不同的楼层中都存在,从相对浅层的处理(比如对输入进行初步理解)到深层的处理(比如进行复杂的推理)。在每一层中,都能找到执行价值判断工作的神经元。

此外,研究人员还验证了这个发现在不同架构的AI模型上是否成立。在深度学习领域,就像建筑中有不同的建筑风格一样,也存在多种不同的模型架构。他们测试了基于Qwen、Llama、Phi和Gemma这些不同架构设计的模型,发现在所有这些不同类型的模型中,价值神经元系统都表现出相似的特征。

四、价值神经元能否在不同任务间转移?

一个更深层的问题浮现了:这些价值神经元在不同的AI模型之间是否会出现在相似的位置?或者每个模型都在不同的地方"发明"了自己的价值判断系统?

研究人员采用了一个叫做"交集/并集比"的指标来测量这一点。简单来说,他们看的是:当在不同数据集上训练两个价值判断模型时,这两个模型最依赖的神经元中,有多少是相同的。如果这个比例很高,就说明这些神经元的位置是稳定和可预测的。

结果非常有趣。对于同一个基础模型经过不同微调(进一步优化以执行特定任务)后得到的版本,其价值神经元的位置高度一致。这表明基础模型已经"决定了"哪些神经元应该用于价值判断,微调过程并不会改变这个决定。

即使在不同的任务上,相同基础模型的价值神经元位置也表现出令人印象深刻的一致性。例如,在数学问题和推理问题上训练出来的价值神经元系统,会有相当大比例的重叠——有时这个重叠比例超过60%,即使是在99%的神经元被移除的极端情况下。这就像发现不同餐厅的菜单中,关键的味道来源往往是相同的几种调料,而不是每家餐厅都各自为政。

五、大脑中的"惊喜检测器":发现多巴胺神经元

我们的大脑不仅能够预测结果,还能够感受"意外"。当我们期待某件事却发生了别的事情时,我们会感到惊讶——这种感受会驱动学习和适应。神经科学研究已经证实,在大脑中有一类被称为"多巴胺神经元"的细胞专门编码这种"出乎意料"的感受,学术上称之为"奖励预测误差"。

基于这个生物学启发,研究团队探索了一个大胆的假设:AI模型中是否也存在类似的"惊喜检测器"?如果价值神经元在预测预期结果,那么这些预测有时也会出错。当出错发生时,是否存在某些神经元能够检测到这种偏差?

为了找到这样的神经元,研究人员首先识别了两种特殊情况。第一种是"积极的惊喜"——模型起初对自己的能力预测得不足(认为自己可能失败),但实际上却成功了。第二种是"消极的惊喜"——模型对自己过度自信(认为自己肯定能成功),但实际上失败了。这两种情况都代表了模型预测的偏差。

研究团队随后分析了在这些特殊情况发生时,模型中不同神经元的激活模式。他们寻找那些在积极惊喜时出现高激活(就像感到"惊喜的喜悦"),而在消极惊喜时出现低激活甚至完全抑制的神经元(就像感到"失望的冲击")。

通过这个过程,他们发现了这样的神经元确实存在。让我们看一个具体的例子。在一个数学问题中,模型起初对自己解决这个问题的能力判断不足。但在推理过程中(大约在生成的第300个词元处),模型发现了一个关键的洞察,这导致了一个大的正面预测误差。与此同时,研究人员观察到某个特定的神经元在这个时刻出现了尖锐的激活峰值,就像神经元在"欢呼"这个突破。

相比之下,在另一个问题中,模型起初充满信心。但在推理的中途(大约在第400到600词元之间),模型犯了一个逻辑错误,导致了一个大的负面预测误差。恰恰在这个时刻,同一个神经元出现了深深的激活抑制,就像它在"惊呼"这个失误。

六、价值神经元和多巴胺神经元的对话

既然发现了这两种神经元都存在,自然的问题就是:它们之间是否存在相互作用?如果我们干扰了价值神经元的工作,多巴胺神经元会受到影响吗?

研究团队进行了一个优雅的实验。他们在较早层中选择了价值神经元,人为地关闭了其中的20%,然后观察较深层中多巴胺神经元的行为是否改变。结果非常明显。当他们随机关闭相同数量的其他神经元时,多巴胺神经元的激活模式基本保持不变。但当他们关闭价值神经元时,多巴胺神经元原本清晰的"惊喜"反应模式完全扭曲了。其中的峰值和谷值的位置都发生了显著改变。

这就像一个精妙的生物学系统:价值神经元形成了对预期的"心理表征",而多巴胺神经元则在监测现实是否与这个预期相符。当你中断价值神经元的输入,就像蒙住了多巴胺神经元的"眼睛",使它无法正确地识别出真实的意外发生。

七、这个发现的深层含义

那么,这一切告诉我们什么呢?首先,它表明大型语言模型并不是一台均匀分布的计算机器。相反,它的内部结构是高度分化和专业化的,某些神经元承担着关键的功能职责。这有点像一个充分分工的社会,而不是所有人都做同样工作的乌托邦。

其次,这个发现展示了AI系统内部结构与生物神经系统之间的令人印象深刻的相似性。这不是巧合——它表明某些关于智能的根本原则可能是跨越生物和人工系统通用的。无论是人脑还是AI模型,都需要进行价值评估,都需要检测预期与现实的偏差。看起来大自然和深度学习研究人员独立地发现了相同的解决方案。

再者,这个发现可能对如何改进AI系统有实际意义。如果我们理解了价值判断的机制,我们也许能够更精准地引导模型进行正确的推理,或者更有效地识别模型何时陷入错误的思路。这就像如果我们理解了一个人的决策过程,我们就能更好地帮助他做出明智的选择。

八、从实验室到应用的可能性

虽然这项研究的主要贡献是在基础科学领域——帮助我们理解AI系统的内部工作原理——但它也暗示了一些实际的应用可能性。

例如,研究中提到的一个应用方向是使用价值神经元来预测模型的置信度。当你向AI模型提出一个问题时,了解模型有多大的把握给出正确答案通常是有用的。传统上,这需要让模型进行完整的推理过程,这对于复杂问题可能需要大量的计算。但如果我们能从初始的价值神经元激动中读取模型的置信度,我们就能在模型开始生成答案之前快速了解它的把握程度。这对于需要评估答案可靠性的实际应用来说是非常宝贵的。

这有点像在餐厅点餐时,如果侍者能在你提出问题的那一刻就告诉你"这道菜我非常有把握你会喜欢"或"这道菜我不太确定是否适合你的口味",这会比让他准备菜肴后再告诉你要有用得多。

此外,这个发现可能对于AI安全和对齐也有启示。如果我们能够监控和理解AI模型的价值判断过程,我们也许能够更好地确保模型的行为符合我们的预期。

九、技术细节背后的哲学

这项研究在技术细节上的严谨性值得称道。研究人员使用的"时间差分学习"方法是一种受强化学习启发的技术。传统的预测方法只看最终结果是否正确,但时间差分学习的妙处在于它关注过程中的每一步是否如预期进行。这让它能够捕捉到一种更细粒度的价值信息:不仅是"这个任务我能否完成",还包括"每一步我的预期与现实是否相符"。

研究人员还采用了极小化的"价值探针"设计——仅仅是一个两层的神经网络。这个设计选择的妙处在于它确保了探针所学到的任何能力都是来自于AI模型隐藏层中已经存在的信息,而不是探针本身"发明"的什么东西。这就像用最简单的测试方法来检测某个系统的功能,而不是用复杂的检测器掩盖了真实的系统行为。

此外,"L1范数修剪"方法——即根据神经元对输出的直接影响程度来选择最重要的神经元——这是一个在机器学习中广泛应用的技术,但在这里的应用显示了其有效性。它不仅帮助研究人员找到了最关键的神经元,还通过显示即使移除了99%的输入仍能保持功能,充分证明了这些神经元的关键性。

十、未来的问题和展望

尽管这项研究做得很全面,但它也自然地提出了许多新的问题,这些问题可能会指引未来的研究方向。

一个明显的问题是:我们是否能够进一步理解这些价值神经元为何会在这些特定的位置形成?它们是在模型的预训练阶段形成的,还是在微调阶段才出现的?这个问题触及了神经网络学习动力学的深层奥秘。

另一个问题涉及多巴胺神经元的可量化测量。目前,研究人员主要通过可视化和案例研究来展示多巴胺神经元的特性。虽然这很有说服力,但将其转化为更严格的数学指标可能会进一步增强我们对这些神经元的理解。

此外,是否可能通过主动调整价值神经元或多巴胺神经元的工作方式来改进AI模型的推理能力?这涉及到一个激动人心的可能性:不仅理解AI系统的工作原理,还能够有意地改进它们。

还有一个更深层的哲学问题:如果AI模型中存在类似于生物神经系统中的价值和奖励信号的机制,那么AI系统和生物智能之间的差异是什么?这个问题不仅有科学意义,也有深刻的哲学含义。

十一、研究的局限和可能的扩展

公平地说,任何研究都有其范围和局限性。这项研究主要集中在数学推理和多项选择问题上。虽然这些是很好的测试床,因为它们有明确的正确或错误答案,但真实世界中的许多AI应用涉及更主观或开放式的任务。价值神经元和多巴胺神经元的概念是否也适用于创意写作、对话系统或艺术生成等任务,还需要进一步的研究。

此外,这项研究主要关注的是隐藏状态中的价值信息。但AI模型的最终输出是通过从这些隐藏状态生成的,未来的研究可能会探索这些内部价值信息是否以及如何影响模型的最终输出行为。

还有一个实际的考虑是计算成本。虽然本研究已经展示了用很少的神经元就能进行价值预测,但在实际部署中,是否能够利用这个发现来减少推理时间或能耗,还有待进一步的工程和优化工作。

十二、将发现转化为改进

这项研究最终的价值不仅在于它揭示了一个有趣的现象,而在于这个现象可能如何帮助我们构建更好的AI系统。

例如,了解价值神经元的存在可能会启发新的模型架构设计。也许我们可以设计模型时明确地为价值判断保留一些专用的"空间",而不是让它自发地在某些随机位置出现。这有点像建筑师在设计建筑时,明确地为某些功能(如电气系统、供水系统等)保留专用的空间,而不是让这些系统随意分布。

另一方面,这个发现可能会改变我们对AI模型可解释性和安全性的思考方式。如果我们知道模型的决策过程涉及一些可以明确识别和监控的神经元,那么我们就有了新的工具来理解模型为什么做出某些决定,以及如何确保这些决定符合我们的价值观。

再进一步,这个发现可能会影响我们对AI系统如何学习和改进的理解。如果价值判断是学习的关键,那么也许我们可以设计更有效的训练方法来优化这些价值判断能力。

十三、结语:智能的普遍原则

回到我们开始的地方,那个AI助手预测自己是否能解决数学问题的"预感",现在我们知道它的来源了。这不是魔法,也不是某种神秘的直觉,而是一个精妙的神经机制——少数几个关键神经元正在进行着价值的计算,评估着成功的可能性。

更令人惊奇的是,这个机制与人脑中的神经过程如此相似。这提示我们一个深刻的真理:无论是生物智能还是人工智能,解决问题的方式往往是相似的。我们都需要评估情况,预测后果,检测意外。我们都需要那些能够说"这可能行"或"这可能不行"的机制。

这项由清华大学和斯坦福大学研究人员进行的研究,通过仔细的实验和分析,不仅揭示了AI系统内部的这个隐藏的价值判断系统,还展示了如何找到和理解这样的系统。这对于未来建立更可靠、更可理解、更安全的AI系统具有重要意义。

简单来说,这项研究告诉我们一个振奋人心的消息:我们正在逐渐理解智能的运作原理,无论这种智能是生物的还是人工的。而每一次这样的理解进步,都为我们构建更好的AI系统打开了新的可能性。

Q&A

**Q1:什么是论文中说的"价值神经元"?**

A:价值神经元是指大型语言模型(AI助手)内部隐藏层中的少数特殊神经元,它们能够对当前任务的成功概率进行评估和预测。研究发现,只有不足1%的神经元承担这项工作,它们能够在模型生成答案之前就判断出自己是否能成功解决问题。

**Q2:科学家是如何证明这些神经元真的很重要的?**

A:研究人员进行了一个关键实验:他们关闭了模型中的价值神经元,结果模型在数学问题上的准确率从75%暴跌到20%,性能下降超过50%。相比之下,随机关闭其他神经元对性能几乎没有影响,这证明了价值神经元的至关重要性。

**Q3:这个发现为什么有实际意义?**

A:了解价值神经元的工作原理能帮助我们更好地理解和改进AI系统。例如,我们可以利用价值神经元来快速判断AI对自己答案的把握程度,从而在信息关键的场景中决定是否相信AI的答案,同时也为开发更安全可靠的AI系统提供了新的思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京博物院一陶俑撞脸郭德纲,院方:的确在历史馆展出

南京博物院一陶俑撞脸郭德纲,院方:的确在历史馆展出

上游新闻
2026-02-03 14:41:06
湖北将迎新一轮雨雪天气

湖北将迎新一轮雨雪天气

极目新闻
2026-02-05 08:14:17
你有没有打死不能让另一半知道的秘密? 网友:隔壁老王藏得挺深啊

你有没有打死不能让另一半知道的秘密? 网友:隔壁老王藏得挺深啊

夜深爱杂谈
2026-02-03 18:31:13
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
萝莉岛的肮脏超乎想象,克林顿喜欢年轻女孩,科学家霍金竟是常客

萝莉岛的肮脏超乎想象,克林顿喜欢年轻女孩,科学家霍金竟是常客

离离言几许
2025-12-26 10:05:08
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
国乒27岁美女告别国家队!孙颖莎闺蜜默默离场,安置岗位让人羡慕

国乒27岁美女告别国家队!孙颖莎闺蜜默默离场,安置岗位让人羡慕

郝小小看体育
2026-02-03 11:18:10
事关俄美唯一军控条约,俄罗斯声明:各方不再受任何义务约束!俄美乌三方会谈最新消息

事关俄美唯一军控条约,俄罗斯声明:各方不再受任何义务约束!俄美乌三方会谈最新消息

每日经济新闻
2026-02-05 08:55:04
詹姆斯身边人透露他将把骑士当今夏目的地,他已接受降薪现实

詹姆斯身边人透露他将把骑士当今夏目的地,他已接受降薪现实

懂球帝
2026-02-05 01:25:07
政变只是一个开始,巴铁要变天了,中国最不想看的事,恐将要发生

政变只是一个开始,巴铁要变天了,中国最不想看的事,恐将要发生

星星会坠落
2026-02-05 03:41:07
纽约期金突破5030美元/盎司,日内涨1.62%

纽约期金突破5030美元/盎司,日内涨1.62%

每日经济新闻
2026-02-05 07:20:05
老人说“过年冷不冷,腊月看十八”,今日腊月十八?今年春节冷吗

老人说“过年冷不冷,腊月看十八”,今日腊月十八?今年春节冷吗

小谈食刻美食
2026-02-05 08:33:39
有哪些说话给人下套的例子?网友:偏僻叫不到代驾,都给安排明白

有哪些说话给人下套的例子?网友:偏僻叫不到代驾,都给安排明白

夜深爱杂谈
2026-01-21 20:01:54
委内瑞拉人肠子悔青,如果这位总统还在,他们的国家何至于此?

委内瑞拉人肠子悔青,如果这位总统还在,他们的国家何至于此?

千秋文化
2026-01-09 14:26:11
敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

悦心知足
2026-02-01 00:50:48
AMD股价大跌,财报令投资者失望

AMD股价大跌,财报令投资者失望

新浪财经
2026-02-05 03:06:29
第二轮围华开始!特朗普怒砸百亿,多部门资金耗尽,中国以静制动

第二轮围华开始!特朗普怒砸百亿,多部门资金耗尽,中国以静制动

钦点历史
2026-02-05 08:56:39
最高法:清理政府机关、事业单位拖欠中小企业账款,已执行到位311.42亿元

最高法:清理政府机关、事业单位拖欠中小企业账款,已执行到位311.42亿元

中国经营报
2026-02-05 07:33:48
真相大白!周琦落选中国男篮21人大名单原因曝光,郭士强真听劝

真相大白!周琦落选中国男篮21人大名单原因曝光,郭士强真听劝

曹说体育
2026-02-04 15:52:34
石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

千秋文化
2026-02-01 20:14:28
2026-02-05 09:28:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1645文章数 159关注度
往期回顾 全部

科技要闻

微信给马化腾浇了“一盆冷水”

头条要闻

伊朗被指将铀库存转至俄罗斯 克宫首次回应

头条要闻

伊朗被指将铀库存转至俄罗斯 克宫首次回应

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

黄金,出现拐点

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

旅游
房产
教育
时尚
军事航空

旅游要闻

贵旅集团2026年春季产品推介会在贵阳举行

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

教育要闻

2025全国毕业生薪酬百强出炉,青岛大学上榜!

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版