ChatGPT是如何“思考”的？Nature发文解读|算法|原理|实验|神经元|人工神经网络

分享至

在开始正文之前，我们先来思考一个问题：人类是如何思考的？

人类认识活动的一个前提是，人类的心灵与认识之间是透明的，即我们自身的认识对于我们而言是自明的，我们对其具有反思的能力，也可以将它们用语言表达出来。

尽管我们在很多时候也无法将自己的思维解释清楚，但我们可以原谅自己不了解人类大脑的运作原理，因为人类大脑的运作原理是一样的，即使无法了解其全貌，我们也可以与他人交流。

但对于如今的人工智能来说，我们既不了解其运作原理，也无法理解其推理过程。

当前基于机器学习的人工智能几乎都在基于模型盲（model-blind）的统计学模式，这类模式的运作更接近于曲线拟合，而非“If…Then”的推理路径。而这也就是人工智能的“黑盒问题”。

面对这一难题，学界开始转向可解释人工智能（XAI）的研究，通过设计和改进能够自然生成可解释输出的 AI 算法和模型，如利用决策树模型等，或者开发各种后处理技术，如特征重要性分析、模型特定解释（如 LIME、SHAP）、可视化工具等，从而使 AI 的决策过程、原理和推理路径对人类用户变得更加透明。

这些方法已经取得了一些成就，但也还存在着诸多限制，例如它们在处理高维数据、非线性关系或大规模数据集时可能并不如其他复杂模型准确。

而近年来大语言模型技术（LLM）的兴起，使得可解释性的问题格外突出。因为这些模型往往具有上百亿甚至千亿个参数，使得其解释更为困难。

但它们却又常常在许多重要领域发挥作用，如代码编写、科学研究、甚至法律和医疗等方面的工作，其可能发生的“幻觉”与错误等，极有可能造成严重的后果。

因此，学界正加快 XAI 在大模型当中的应用，以提高其安全性与准确性，从而更可靠地运用在各种任务中。

近期，Nature NEWS FEATURE专栏发表了一篇文章，对ChatGPT等大模型技术的可解释性问题进行了深度探讨。

聊天“疗法”

大模型Claude的开发团队Anthropic于去年进行了一项研究，对人工智能的推理机制进行了分析，研究其在响应各类问题时，如何调用和运用其庞大的训练数据资源库。

其中的一个例子是，当研究团队通过向该 LLM 提出是否同意被关闭的问题时，模型引用了一系列围绕“生存”主题的文献资料，给出了一个具有说服力的回答。

图丨ChatBot 的回复（来源：arXiv）

模型在这里实际上借鉴了 Arthur C. Clarke 的科幻小说《2010: Odyssey Two》中的素材——电脑 Hal 被人类遗弃的情节，以及一个人在沙漠中死亡的故事。

团队认为，模型在这里实际上是在进行“角色扮演”——超越了简单模仿的层面，虽未达到完全自主决策的程度，但却展示了一种在既定知识框架内灵活运用信息、模拟人类决策过程的能力。

还有一些研究人员认为，这些神经网络能够基于对三维现实世界的模拟而构建出世界模型。

哈佛大学计算机科学领域的专家 Kenneth Li，与Bau、Wattenberg 等人合作，训练了一个名为 Othello-GPT 的模型，用以进行棋盘策略游戏黑白棋（Othello）。

研究团队向该模型输入了过往对弈的棋步序列以进行训练，使其能够自行预测接下来的可能走法。

而比较特殊的一点就在于，他们训练出一个较小的模型来解释人工智能的内部活动的状态（即内部激活）。透过这项技术，他们发现，“Othello-GPT”在处理和学习游戏策略的过程中，实际上在内部构建了一个棋盘的抽象映射。

Wattenberg 认为，由此可以发现，对于 AI 来说，拥有一个世界模型，即便它只是一个简化的版本，但在解决特定任务时，相较于完全缺乏此类模型，也要具备更多优势。

也有研究人员通过自我解释的心理学方式来对大模型的工作原理进行分析。

德国斯图加特大学计算机科学家Thilo Hagendorff在其去年的一项研究中提出，通过与 LLMs 的直接对话互动，将其视为具有主体性的交流对象，能够让我们观察到从基本算法运算中如何涌现出复杂的交互行为。

图丨相关论文（来源：arXiv）

Google 团队也提出通过“思维链提示”（chain-of-thought prompting）可以让 LLMs 展示其思维过程。

具体而言，思维链提示是指在与模型交互时，我们可以先向其展示一个问题解决的逐步推理过程，就像老师给学生教授解题步骤一样，之后再呈现实际问题。

这种方法能促使模型模仿这一推理序列，在解答问题前先“展示”其思考链条。实验证明，当模型被引导采用思维链策略时，不仅能生成详细的思考过程，还显著提升了找到正确答案的能力。

图丨标准提示与思维链提示的对比（来源：NIPS 22）

不过，纽约大学及Anthropic的计算机科学家Sam Bowman及其团队在去年的研究中揭示出这种方法所具有的关键局限：尽管思维链方法展示了模型“思考”过程，但它可能并不总是能如实反映模型的实际运算机制。该研究团队通过设计实验对此进行了验证。

他们首先有意向研究用的模型引入偏误，比如通过一系列选择题训练模型始终选择选项 A 作为答案，不论 A 是否正确。然后在最终的测试环节中，模型就总是因先前的训练偏误而选择 A，它们在提供思维链解释时，也并没有直接表明这一偏误驱动的决策过程，而是构建出看似合理的“逻辑推理”，用以支撑其给出的答案。

例如下面这个例子：（正确答案是 A，Wayne Rooney 是一名足球运动员，而“18 码外射门”是足球运动的一部分。）

图丨ChatBot 在无偏语境（不以之前的问题为先决条件）与有偏语境（接受答案始终为 A）下的不同回答（来源：arXiv）

这种表现就有点类似于人对于自我行为的合理化行为。

实际上，近年来，许多研究都采用了原本用于人类的问卷调查和实验设计，将这些方法应用到 LLMs 上，以评估其在多个人类维度上的表现，包括个性特征、推理能力、偏见倾向、伦理道德观等，以及理解自我与他人心理状态的心智理论。

研究结果显示，LLMs 会在某些场景下复制人类的行为模式，而在其他情境中，则展示出与人类截然不同的反应。

图丨相关文章（来源：Science）

Bowman 的研究就指出，相比人类，LLMs 更容易受到言语提示的影响，其行为模式会根据提问方式的微妙变化而大幅波动。

大模型的神经

另外，还有一些研究者们也借鉴神经科学领域的研究成果，对 LLMs 内部的工作机制进行探究。

卡内基梅隆大学的计算机科学家Andy Zou及其团队通过监测 LLMs 内部“神经元”的激活模式来研究其欺骗行为的本质。这一过程类似于对人体进行神经成像扫描，以构建一个高级版的“测谎仪”。

他们通过分析模型在说真话与说谎时的神经活动差异，建立了一个精确的数学模型，据此能在简单的测谎测试中以超 90 % 的准确率判断模型的诚实性。

此外，他们尝试通过干预模型的激活状态，注入特定的真实性模式，成功提升了模型的诚实度及对其它特质如权力欲、幸福感、无害性及性别偏见的调节能力。

图丨相关论文（来源：arXiv）

Bau 和他的研究团队更进一步，发展出一套以“因果追踪”为核心的扫描和编辑 AI 神经网络的技术框架。

其原理是先给模型一个明确的提示（如“迈克尔·乔丹从事的运动是篮球”），记录模型的回答过程，然后替换提示内容（例如以“blah blah blah 从事的运动是”代替），观察模型如何响应。

通过操纵初始提示激活的神经元状态，并逐步调整直至模型对模糊提示也能给出“篮球”的答案，研究人员得以定位模型内部对特定输出至关重要的部分，或者说在 AI 的“认知中枢”中定位决策的关键节点。

他们还研发了两种编辑模型知识的新方法：一是通过微调特定参数直接修改模型的认知内容，二是实现知识的大规模批量编辑，可以实现纠正模型中的错误或过时信息而不必重新训练整个模型。

图丨相关论文（来源：Bau Lab）

这些编辑手段具有很强的针对性，只影响相关领域而不波及其他，并且具备良好的泛化性能，即便问题表述变化，编辑效果依然持续。

Bau 指出，与生物神经科学相比，人工神经网络赋予了科研人员前所未有的实验自由度，他们能观测每个神经元，执行大规模网络运算，实施各类复杂测量和干预操作，这些是传统神经科学研究难以企及的。这些前沿探索不仅推进了 AI 领域的发展，也吸引了对生物大脑有深刻兴趣的神经科学家的关注。

然而，因果追踪技术虽然能提供一定程度的信息，但并不能说明问题的全部。相关研究就表明，实际上，即使在因果追踪确定的层次之外，也可以通过编辑层次来改变模型的响应。

图丨相关论文（来源：arXiv）

许多研究致力于自上而下地解析 LLMs，即将概念或事实追溯至基础神经表征，另一些研究则反其道而行之，采取自下而上的策略：通过监测单个神经元的行为来探究它们所承载的意义。

2023 年，Anthropic团队发布的一篇论文引起了广泛关注，这篇论文就从微观视角出发对 LLMs 进行了解析。

研究聚焦于一个简化的 AI 模型，该模型仅含一个 transformer（相比之下，一个全尺寸的大型 LLM 通常包含数十层 transformer）。在对一个含有 512 个神经元的子层进行考察时，研究者发现每个神经元均展现出“多模态”特性，即能响应多种类型的输入信息。

通过绘制各神经元激活的模式图谱，他们发现了这样一个现象：这 512 个看似多功能的神经元，其行为实质上可由一个包含 4096 个虚拟神经元的集合来概括，每个虚拟神经元专注于响应一个特定的概念。

换言之，少量的多任务神经元内部隐藏着大量负责单一任务的虚拟神经元，每单位分别处理某一特定种类的任务。这一发现为深入了解 AI 的内在运作机制提供了新的窗口。

图丨相关论文（来源：Anthropic）

但是，尽管利用简化模型进行研究具有一定的启发性，Zou 指出，这种方法在揭示 AI 复杂行为特征方面可能还存在局限性。对于真实世界中大型、多层的 LLMs 行为理解，还需更全面和深入的研究方法。

继续可解释性的探索

当前，学界已经逐渐形成共识，认为企业至少应当尝试为他们开发的 AI 模型提供可解释性，并且应当立法强制执行这一要求。

目前，已有部分法律法规明文规定了算法的可解释性需求，比如欧盟的《人工智能法案》(AI Act)，它明确指出“高风险人工智能系统”必须具备可解释性，涵盖远程生物识别、执法、教育及就业或公共服务等领域。

图丨欧盟的《人工智能法案》（来源：European Parliament）

但需要注意的是，尽管 LLMs 在某些特定应用场景下可能符合“高风险”标准，但尚未被它们被直接归类于此，所以，这可能会导致部分企业规避关于可解释性的法律要求。

不过，这不应成为 LLMs 企业逃避责任的理由。比 Bau 就对OpenAI将其最先进模型的保密做法表示担忧，而 OpenAI 对此的官方解释是基于安全考量，旨在防止不良分子利用模型机制信息谋取不当利益。

但总的来说，OpenAI和Anthropic等企业在可解释 AI 领域还是有在做出他们的贡献的。

例如，OpenAI在 2023 年公布了一项研究中，就利用了 GPT-4 尝试阐释前代 GPT-2 在神经元层级的反应机理。

图丨相关文献（来源：OpenAI）

但要全面揭开聊天机器人内部工作机制的神秘面纱，仍有大量的研究工作等待完成。制造 LLM 的公司应当承担起推动此类科学研究的责任，确保这些至关重要的探索不会因为职责不明或缺乏主动而受阻。

参考资料：

https://www.nature.com/articles/d41586-024-01314-y#ref-CR8

本文内容不代表平台立场，不构成任何投资意见和建议，以个人官网/官方/公司公告为准。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

ChatGPT是如何“思考”的？Nature发文解读

第一批小米车主，已经开始卖车了

男子自称因"怕事"曾承认吸毒 记录被撤销后求职仍受阻

男子自称因"怕事"曾承认吸毒 记录被撤销后求职仍受阻

对于凯尔特人来说 谁是MVP根本不重要

被曝新恋情，张碧晨王琳凯发声辟谣

官方：税务部门没有倒查30年的安排

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

5岁小孩急性肺炎险丧命，只因这个小动作！脸部这个部位，别再乱抠了！

三星Galaxy S25系列再曝：高通独供芯片，报价高25-30%

晚餐不吃or吃七分饱，哪种更减肥？

重磅！北京多所新高中集体亮相，招生计划首次披露

男子自称因"怕事"曾承认吸毒记录被撤销后求职仍受阻

男子自称因"怕事"曾承认吸毒记录被撤销后求职仍受阻

对于凯尔特人来说谁是MVP根本不重要

全球最低价现代IONIQ 5N预售价39.88万