自然·人类行为：大语言模型如何调控人类语言网络|语法|语料库

分享至

导语

这篇发表于 Nature Human Behaviour 的研究提出了一个相当前沿、也颇具冲击力的问题：如果大语言模型（large language models, LLMs）不仅能模仿人类语言行为、预测阅读时的大脑反应，那么它是否还能进一步“反过来”帮助我们设计语言刺激，去有方向地增强或减弱大脑语言网络（language network）的活动？本文给出的答案是：可以，而且已经在功能磁共振成像（functional MRI, fMRI）实验中做到了。

关键词：大语言模型（large language models, LLMs）；语言网络（language network）；功能磁共振成像（functional MRI, fMRI）；编码模型（encoding model）；惊异度（surprisal）；语法良构性（grammatical well-formedness）；可解释性（plausibility）；闭环控制（closed-loop control）

彭晨丨作者

论文题目：Driving and suppressing the human language network using large language models 发表时间：2024年1月3日论文地址：https://www.nature.com/articles/s41562-023-01783-7 论文期刊：Nature Human Behaviour

过去几年，认知神经科学中一个很重要的发现是：大语言模型并不只是工程工具，它们在某种程度上也成了研究人类语言加工的计算模型。尤其是像 GPT 这类单向 Transformer，它们生成的内部表征，居然能够较好地预测人在阅读语言时的大脑活动。问题在于，以往大多数研究都停留在开环（open-loop）阶段，也就是研究者先给受试者看一组自然句子，再观察模型能否解释这些脑反应。模型是被动拟合数据的，而不是主动生成刺激去验证自己。

这项研究真正的突破，就在于把这个思路推进到了闭环控制（closed-loop control）。研究者不再满足于“模型能不能预测”，而是进一步追问：模型能不能告诉我们，什么样的句子会使得语言网络产生更高的激活水平，什么样的句子又会让它相对沉寂？如果模型真的能做到这一点，那么它就不只是语言行为的模仿者，而是成了连接语言计算与神经机制的实验工具。

用 GPT2-XL 建立人脑语言网络的编码模型

研究首先构建了一个面向左半球语言网络的编码模型。实验中，5 名训练受试者阅读了 1,000 条经过精心筛选、具有高度语言多样性的六词句子。研究者使用 fMRI 记录这些句子在语言网络中诱发的血氧水平依赖信号（blood-oxygen-level-dependent, BOLD），再将这些脑反应与 GPT2-XL 的句子表征对应起来，利用岭回归（ridge regression）训练出一个模型，用来预测“任意一句话”会引起多强的语言网络活动（图 1）。

这一步并不是简单地把句子输入模型就结束了。研究者专门比较了 GPT2-XL 不同层的表征，最终选取第 22 层作为最佳特征来源，因为它在交叉验证中具有最高的脑预测性能。这个编码模型在留出句子上的预测相关达到 r = 0.38，而该数据条件下的噪声上限（noise ceiling, NC）约为 r = 0.56。换言之，模型已经捕捉到相当大一部分真正与刺激相关的可解释神经方差。研究者还进一步测试了不同表征提取方式以及 BERT-large 等替代架构，发现总体结论相当稳健。

图 1. a. 开发了一个针对人类大脑左半球语言网络的编码模型（M），旨在识别能最大程度或最小程度激活该语言网络的新型句子。五名参与者（训练参与者）在快速的事件相关设计中阅读了一个大规模样本（n = 1000），该样本是从六词语料库中提取的句子，这是基准集（采样以最大化语言多样性；补充信息部分 1）；同时，他们的大脑活动通过 fMRI 进行记录。在每个训练参与者的大脑网络中的各个体素上记录的血氧水平变化响应被在每个参与者之间进行平均，从而得出针对这 1000 个基准集句子的平均语言网络响应。我们从双向注意力 Transformer 语言模型 GPT2-XL 的表示中训练了一个岭回归模型，该模型对应于 1000 个平均的 fMRI 响应。由于 GPT2-XL 能够为任何句子生成表示，所以编码模型（M）能够预测任意句子的左半球语言网络响应。为了给编码模型挑选出表现最佳的层，对 GPT2-XL 的所有 49 个层进行了评估，并选择了在针对未使用数据集句子的脑反应预测性能方面表现最优的那层。b，为了评估编码模型（M），研究确定了一组句子，能够以最大程度地激活语言网络（驱动句子）或以最小程度激活（抑制句子）。为此，我们从各种大型文本语料库中获取了约 180 万句 GPT2-XL 的嵌入，生成了预测的语言网络响应，并对这些响应进行排序，以选择那些相对于基线集预测会增加或减少脑反应的句子。最后，研究在新的参与者（评估参与者）中采集了对这些新句子的脑反应数据。

在语料中寻找“最能激活”与“最能抑制”的句子

有了编码模型之后，研究团队从 9 个大型文本语料库中搜集了大约 180 万条句子，然后让模型为每个句子生成一个“预测脑反应值”。在此基础上，他们筛选出两组新刺激：250 条被预测为最能驱动语言网络的句子，称为驱动句（drive sentences）；以及 250 条被预测为最能抑制语言网络活动的句子，称为抑制句（suppress sentences）。

这里的设计非常关键。研究不是在已有的 1,000 条训练句子里做分析，而是专门去寻找模型认为处在分布边缘的新句子，再拿这些全新的句子去测全新的受试者。这样做的意义在于，它真正考验了模型的泛化能力：模型捕捉到的，究竟只是训练数据中的统计模式，还是某些跨个体共享的语言—神经映射规律？

新受试者大脑反应的泛化预测

接下来，3 名新的受试者参加了事件相关（event-related）fMRI 实验。研究者把 250 条驱动句、250 条抑制句与原先的 1,000 条基线句（baseline sentences）随机混合呈现。结果非常清楚：驱动句引起的语言网络反应显著高于抑制句，也显著高于基线句；相反，抑制句的反应显著低于基线句。按未标准化的 BOLD 信号计算，驱动句比基线句高出 85.7%，而抑制句比基线句低了 97.5%。这种差异在统计上极为显著。

更重要的是，研究者又用 4 名新受试者做了块设计（blocked design）实验，结果仍然复现：驱动句最高，基线句居中，抑制句最低。虽然区块设计中差异幅度略小，但模式完全一致。这说明，模型引导的刺激筛选并不是某种偶然的分析产物，而是在不同实验范式下都能成立的稳健现象。

研究者还尝试了一种更具探索性的修改法（modify approach），即从随机句子出发，通过梯度方法直接生成可能引发高或低脑反应的新句子。结果显示，这一方法能一定程度上生成“高驱动”句子，但难以有效生成真正的“抑制”句子，原因很可能是这些自动改写后的句子常常接近词表堆砌，不在原始模型训练所覆盖的语言分布之内。这个细节恰好说明，所谓“调控大脑”并不意味着随便造一些句子就可以，语言刺激仍然必须保持某种可被语言系统识别的形式结构。

图 2. 模型选择能够有效地驱动、抑制语言网络中的反应的句子。a. 利用编码模型来挑选那些能在功能上明确的语言网络中引发最大反应（驱动型句子）或最小反应（抑制型句子）的句子。将左半球语言网络定义为这五个分区边界内的区域，这些区域在为每位参与者获取的功能定位实验中被激活（激活率前 10%）。b. 对于 n = 3 名新评估参与者，在 250 个驱动型句子、250 个抑制型句子和 1000 个基线句子的平均语言网络 fMRI 反应，以事件相关、单次试验的 fMRI 方式收集。激发的 BOLD 反应在驱动状态下比基线状态下高出 85.7%，而在抑制状态下则比基线状态低 97.5%。c. 对于 n = 4 位评估参与者，收集了 240 个驱动句、240 个抑制句和 240 个基线句（从 250 个驱动句、250 个抑制句和 1000 个基线句的超集中随机抽取）的平均语言网络 fMRI 反应，采用阻断式 fMRI 方式。激发的 BOLD 反应在驱动状态下比基线状态高 12.9%，而在抑制状态下比基线状态低 56.6%。d. 每种条件的示例句子。

模型可预测单个句子的脑反应

如果说前面的结果证明了模型能在条件层面区分“高驱动”和“低抑制”，那么接下来研究者考察的是更细粒度的问题：它能不能预测每一个具体句子的神经反应？在 1,500 条句子范围内，模型预测值与新受试者真实脑反应之间的相关达到 r = 0.43；即使只看 1,000 条自然语料中的基线句，相关也有 r = 0.30。进一步考虑到跨被试差异与测量噪声带来的理论上限，这一成绩已经接近可达到上限的七成到八成。

这意味着，GPT2-XL 所学到的表征并不是某种只在训练参与者身上成立的偶然映射，而是抓住了语言网络对句子加工时较稳定、跨个体共享的那部分神经规律。对认知神经科学来说，这一点尤其重要，因为它让我们第一次看到，大语言模型可以作为“神经可操作的语言空间”来使用。

图 3. 该编码模型对于来自三位新参与者的对偏离分布的句子的脑部反应仍能保持较高的预测准确性。句子级别的大脑反应随预测反应的变化情况以及相应的句子示例。预测的大脑反应来自编码模型。观察到的大脑反应是 n = 3 位评估参与者语言网络反应的平均值。蓝色点代表抑制句子，灰色点代表基线句子，红色点代表驱动句子。抑制和驱动句子的选择分别导致低或高的大脑反应，因此它们分别聚集在预测轴（x 轴）的低端和高端。预测的大脑反应来自编码模型（x 轴）。模拟的大脑反应（y 轴）是通过从代表经验性参与者间差异的噪声分布中采样而获得的。该图展示了在考虑到参与者间的差异以及功能性磁共振成像测量误差的情况下，所能达到的最高预测性能。

语言网络偏爱“意外”的语句

在成功操控脑反应之后，研究者进一步利用这组扩展后的句子集来问一个基础问题：语言网络究竟对什么样的语言输入最敏感？为此，他们为 2,000 条句子整理了 11 个特征指标。其中一项来自 GPT2-XL 本身，即句子概率的对数值，用来刻画惊异度；另外 10 项来自大规模行为评分，共有 3,600 名参与者参与，对句子的语法良构性（grammaticality）、可解释性/合理性（plausibility）、心理状态内容（mental states）、物体内容（physical objects）、地点内容（places）、情绪效价（valence）、唤醒度（arousal）、可视化程度（imageability）以及一般频率和对话频率进行打分。

结果显示，最稳定、最核心的规律之一是：越“出人意料”的句子，越会引发更强的语言网络活动。也就是说，低概率、高惊异度（surprisal）的句子让大脑语言系统工作得更厉害。这和过去心理语言学与脑成像研究中关于加工难度的认识是一致的。但研究并没有止步于“惊异度越高，反应越强”这样单线条的结论。更有意思的是，语法良构性和语义合理性也都对脑反应有独立贡献，而且呈现出一种倒 U 型关系：不是越不合语法、越不合理，反应就越强；相反，最强的反应往往出现在“中等良构、中等合理”的句子上。研究者据此提出两种同时存在的机制：第一，刺激需要先像“真正的语言”一样，足够符合语言经验，才能有效进入语言网络；第二，在达到这个最低门槛之后，越出乎预期、越需要额外加工的句子，越会进一步推高神经反应。

图 5. 惊讶感以及其他一些句子特性会调节语言网络中的反应。a) 左脑语言网络反应与五类共 2000 个句子的 11 个句子属性（列）之间的相关性。b) 所显示的句子属性之间的相关性，针对 n = 2000 个句子（左图）或 n = 1000 个句子（右图）。c) 句子级别的大脑反应随句子属性的变化情况。

“平淡、常见、好想象”的句子更安静

研究还发现，那些容易想象、内容涉及具体物体和地点、被认为更常见的句子，往往引起更低的语言网络反应。情绪上更积极的句子也略微对应更低的反应，而唤醒度本身则没有明显独立作用。尤其值得注意的是，“心理状态内容”并没有在控制惊异度之后解释更多方差，这与一个经典观点相一致：语言网络主要负责语言加工本身，而并不等同于负责心理理论（theory of mind）的社会认知网络。

从这个角度看，语言网络似乎并不偏爱那些“画面感很强、内容很具体、人人都熟悉”的句子。相反，它更容易被那些既像语言、又不那么容易一眼看穿的输入所吸引。也就是说，语言系统真正“兴奋”的，往往不是最简单最常见的话，而是那些仍在语言经验边界之内、却又要求额外整合和预测更新的句子。

结语

这项工作的意义，不只是又一次证明“大模型与大脑相关”。更重要的是，它把神经科学、心理语言学与人工智能之间的关系推进了一步：大模型不再只是“被拿来对照人脑”的对象，而成为主动设计实验刺激、探索脑区功能组织的工具。研究者指出，未来这样的编码模型可以作为“虚拟语言网络”（virtual language network），在计算机中高通量地模拟各种实验对比，快速提出假设，再在真实脑成像中闭环验证。对于临床应用，它也可能帮助更高效地定位语言回路，例如用于神经外科手术前评估。当然，研究也有明确边界。首先，它把左半球语言网络作为整体来研究，尚未深入区分网络内部更精细的功能异质性。其次，实验语言仅限英语。再次，fMRI 的时间分辨率有限，未来若结合颅内电生理，或许可以在逐词时间尺度上更精确地追踪模型表征与神经活动的关系。

如果说过去的大语言模型让我们惊讶于“机器越来越像人在说话”，那么这篇文章更进一步展示了另一层意义：模型所学到的语言表征，已经足以成为操控人脑语言反应的实验杠杆。它并没有真正“读取思想”，也没有神秘地“控制意识”，但它确实证明了一件事——当模型与大脑在表征空间中足够接近时，人工智能就能成为理解高阶认知系统的一把新钥匙。

计算神经科学读书会

人类大脑是一个由数以百亿计的神经元相互连接所构成的复杂系统，被认为是「已知宇宙中最复杂的物体」。本着促进来自神经科学、系统科学、信息科学、物理学、数学以及计算机科学等不同领域，对脑科学、类脑智能与计算、人工智能感兴趣的学术工作者的交流与合作，集智俱乐部联合国内外多所知名高校的专家学者发起神经、认知、智能系列读书会第三季——，涵盖复杂神经动力学、神经元建模与计算、跨尺度神经动力学、计算神经科学与AI的融合四大模块，并希望探讨计算神经科学对类脑智能和人工智能的启发。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

#速递

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.