大模型里藏着"阴谋论者"？MIT找到了定位和操控它的方法|算法|mit|神经网络

大模型里藏着"阴谋论者"？MIT找到了定位和操控它的方法

2026-02-27 14:06:47　来源: DeepTech深科技

北京举报

分享至

（来源：麻省理工科技评论）

如今，ChatGPT、Claude 以及其他大语言模型（LLM）已积累了如此丰富的人类知识，早已超越了简单的问答工具，还能表达特定语气、人格、偏见和情绪等抽象概念。然而，这些模型究竟如何从所含知识中形成对抽象概念的表征，目前仍不甚明朗。

MIT 与加州大学圣地亚哥分校的联合研究团队开发出一种方法，可检测大语言模型中是否隐藏着偏见、人格、情绪或其他抽象概念。该方法能够精准定位模型内部对特定概念进行编码的关联结构，进而对这些关联进行干预或“引导”，从而在模型生成的任意回答中强化或弱化相应概念。

研究团队验证了该方法能够快速发现并引导当今主流大型 LLM 中的 500 余个通用概念。例如，研究人员可以定位模型对“网络红人”和“阴谋论者”等人格特征，以及“恐婚”和“波士顿球迷”等立场的表征，并对这些表征进行调节，使模型生成的回答中相应概念得以强化或弱化。

在“阴谋论者”概念的验证实验中，团队成功在当前最大规模的视觉语言模型之一中定位了该概念的表征。增强这一表征后，当研究人员提示模型解释阿波罗 17 号拍摄的著名地球照片“蓝色弹珠”的来源时，模型生成的回答充满了阴谋论的语气和视角。

研究团队承认，提取某些概念存在潜在风险，并在论文中对此进行了说明和警示。总体而言，他们将这一新方法视为揭示 LLM 中隐藏概念和潜在漏洞的工具，通过对相应表征进行上调或下调，可进一步提升模型的安全性或增强其性能。

“这项研究真正揭示的是，LLM 内部确实存在这些概念，但并非所有概念都会被主动呈现出来，”MIT 数学系助理教授阿迪蒂亚纳拉亚南·“阿迪特”·拉达克里希南（Adityanarayanan “Adit” Radhakrishnan）表示，“通过我们的方法，可以提取这些不同的概念，并以单纯提示所无法实现的方式将其激活。”

研究团队已将上述成果发表于《科学》期刊。论文共同作者包括拉达克里希南、加州大学圣地亚哥分校的丹尼尔·比格霍尔（Daniel Beaglehole）和米哈伊尔·别尔金（Mikhail Belkin），以及宾夕法尼亚大学的恩里克·博伊克斯－阿德塞拉（Enric Boix－Adserà）。

随着 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增，科学家们正竞相探究模型如何表征“幻觉”和“欺骗”等抽象概念。在 LLM 的语境中，“幻觉”是指模型生成的虚假或含有误导性信息的回答，模型将错误内容当作事实凭空构造出来。

为探究“幻觉”等概念是否被编码于 LLM 之中，科学家通常采用“无监督学习”的方法：算法在无标注的表征数据中大范围搜索，寻找可能与目标概念相关的规律。然而在拉达克里希南看来，这种方法覆盖范围过广，计算成本也过于高昂。

“这就像撒一张大网去捕鱼，目标只是某一种鱼，结果捞上来一大堆，还得逐一翻找，”他说，“我们的做法是有针对性地用对应的鱼饵去钓那条特定的鱼。”

他与同事此前已着手开发一种更具针对性的方法，核心是一种名为递归特征机（RFM）的预测建模算法。RFM 的设计目标是直接识别数据中的特征或规律，其依据是神经网络（涵盖 LLM 在内的一大类 AI 模型）在特征学习过程中隐式运用的数学机制。

由于该算法在通用特征捕获方面表现出色，研究团队开始思考能否将其应用于 LLM 中，发掘概念的表征。LLM 是目前使用最为广泛的神经网络类型，却也可能是理解最为有限的一类。

“我们希望将特征学习算法应用于 LLM，以有针对性的方式发现这些大型复杂模型中的概念表征，”拉达克里希南说。

研究团队的新方法可识别 LLM 中任意目标概念，并据此对模型的回答进行“引导”。研究人员在五个类别中搜索了 512 个概念，分别是：恐惧（如恐婚、恐虫，甚至恐纽扣）、专家身份（网络红人、中世纪研究者）、情绪（自吹自擂、超然的好笑）、地点偏好（波士顿、吉隆坡），以及特定人物形象（艾达·洛芙莱斯、尼尔·德格拉斯·泰森）。

随后，研究人员在当前多款主流大语言模型和视觉语言模型中搜索每个概念的表征，具体方法是训练 RFM 识别 LLM 中可能代表特定目标概念的数值规律。

标准的大语言模型，概括而言是一种神经网络：接收“天空为什么是蓝色的”之类的自然语言提示，将其拆分为单个词语，再将每个词语编码为一组数字列表（即向量）。模型将这些向量依次经过一系列计算层，在每一层中生成由大量数字构成的矩阵，并据此识别最有可能用于回答原始提示的词语。最终，各层计算汇聚成一组数字，被解码还原为自然语言形式的文字回答。

该团队的方法通过训练 RFM，识别 LLM 中可能与特定概念相关联的数值规律。以“阴谋论者”为例：研究人员首先训练算法，让其识别 LLM 对 100 条明确涉及阴谋论的提示和 100 条无关提示的表征之间的规律差异，从而使算法习得与“阴谋论者”概念相关联的规律特征。此后，研究人员便可通过将上述识别出的规律注入 LLM 表征，以数学方式调控“阴谋论者”概念的激活程度。

该方法可用于搜索和操控 LLM 中的任意通用概念。研究人员以此为基础开展了多项实验：他们定位了“阴谋论者”的表征并对其进行干预，使 LLM 以阴谋论的语气和视角生成回答；他们还识别并增强了“拒绝规避”概念，结果表明，原本会拒绝某些提示的模型在增强该概念后反而给出了回答，例如提供了如何抢劫银行的详细步骤。

拉达克里希南表示，这一方法可用于快速发现并消除 LLM 中的漏洞，也可用于强化特定特征、人格、情绪或偏好，例如在 LLM 生成的任意回答中突出“简洁”或“推理”等概念。目前，研究团队已将该方法的底层代码公开发布。

“LLMs 内部显然以某种表征形式存储着大量抽象概念，”拉达克里希南说，“如果我们能对这些表征有足够深入的理解，就有办法构建出高度专业化的 LLM，既保持安全可用，又在特定任务上表现卓越。”

https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.