网易首页 > 网易号 > 正文 申请入驻

大模型里藏着"阴谋论者"?MIT找到了定位和操控它的方法

0
分享至


(来源:麻省理工科技评论)

如今,ChatGPT、Claude 以及其他大语言模型(LLM)已积累了如此丰富的人类知识,早已超越了简单的问答工具,还能表达特定语气、人格、偏见和情绪等抽象概念。然而,这些模型究竟如何从所含知识中形成对抽象概念的表征,目前仍不甚明朗。

MIT 与加州大学圣地亚哥分校的联合研究团队开发出一种方法,可检测大语言模型中是否隐藏着偏见、人格、情绪或其他抽象概念。该方法能够精准定位模型内部对特定概念进行编码的关联结构,进而对这些关联进行干预或“引导”,从而在模型生成的任意回答中强化或弱化相应概念。

研究团队验证了该方法能够快速发现并引导当今主流大型 LLM 中的 500 余个通用概念。例如,研究人员可以定位模型对“网络红人”和“阴谋论者”等人格特征,以及“恐婚”和“波士顿球迷”等立场的表征,并对这些表征进行调节,使模型生成的回答中相应概念得以强化或弱化。

在“阴谋论者”概念的验证实验中,团队成功在当前最大规模的视觉语言模型之一中定位了该概念的表征。增强这一表征后,当研究人员提示模型解释阿波罗 17 号拍摄的著名地球照片“蓝色弹珠”的来源时,模型生成的回答充满了阴谋论的语气和视角。

研究团队承认,提取某些概念存在潜在风险,并在论文中对此进行了说明和警示。总体而言,他们将这一新方法视为揭示 LLM 中隐藏概念和潜在漏洞的工具,通过对相应表征进行上调或下调,可进一步提升模型的安全性或增强其性能。

“这项研究真正揭示的是,LLM 内部确实存在这些概念,但并非所有概念都会被主动呈现出来,”MIT 数学系助理教授阿迪蒂亚纳拉亚南·“阿迪特”·拉达克里希南(Adityanarayanan “Adit” Radhakrishnan)表示,“通过我们的方法,可以提取这些不同的概念,并以单纯提示所无法实现的方式将其激活。”

研究团队已将上述成果发表于《科学》期刊。论文共同作者包括拉达克里希南、加州大学圣地亚哥分校的丹尼尔·比格霍尔(Daniel Beaglehole)和米哈伊尔·别尔金(Mikhail Belkin),以及宾夕法尼亚大学的恩里克·博伊克斯-阿德塞拉(Enric Boix-Adserà)。

随着 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增,科学家们正竞相探究模型如何表征“幻觉”和“欺骗”等抽象概念。在 LLM 的语境中,“幻觉”是指模型生成的虚假或含有误导性信息的回答,模型将错误内容当作事实凭空构造出来。

为探究“幻觉”等概念是否被编码于 LLM 之中,科学家通常采用“无监督学习”的方法:算法在无标注的表征数据中大范围搜索,寻找可能与目标概念相关的规律。然而在拉达克里希南看来,这种方法覆盖范围过广,计算成本也过于高昂。

“这就像撒一张大网去捕鱼,目标只是某一种鱼,结果捞上来一大堆,还得逐一翻找,”他说,“我们的做法是有针对性地用对应的鱼饵去钓那条特定的鱼。”

他与同事此前已着手开发一种更具针对性的方法,核心是一种名为递归特征机(RFM)的预测建模算法。RFM 的设计目标是直接识别数据中的特征或规律,其依据是神经网络(涵盖 LLM 在内的一大类 AI 模型)在特征学习过程中隐式运用的数学机制。

由于该算法在通用特征捕获方面表现出色,研究团队开始思考能否将其应用于 LLM 中,发掘概念的表征。LLM 是目前使用最为广泛的神经网络类型,却也可能是理解最为有限的一类。

“我们希望将特征学习算法应用于 LLM,以有针对性的方式发现这些大型复杂模型中的概念表征,”拉达克里希南说。

研究团队的新方法可识别 LLM 中任意目标概念,并据此对模型的回答进行“引导”。研究人员在五个类别中搜索了 512 个概念,分别是:恐惧(如恐婚、恐虫,甚至恐纽扣)、专家身份(网络红人、中世纪研究者)、情绪(自吹自擂、超然的好笑)、地点偏好(波士顿、吉隆坡),以及特定人物形象(艾达·洛芙莱斯、尼尔·德格拉斯·泰森)。

随后,研究人员在当前多款主流大语言模型和视觉语言模型中搜索每个概念的表征,具体方法是训练 RFM 识别 LLM 中可能代表特定目标概念的数值规律。

标准的大语言模型,概括而言是一种神经网络:接收“天空为什么是蓝色的”之类的自然语言提示,将其拆分为单个词语,再将每个词语编码为一组数字列表(即向量)。模型将这些向量依次经过一系列计算层,在每一层中生成由大量数字构成的矩阵,并据此识别最有可能用于回答原始提示的词语。最终,各层计算汇聚成一组数字,被解码还原为自然语言形式的文字回答。

该团队的方法通过训练 RFM,识别 LLM 中可能与特定概念相关联的数值规律。以“阴谋论者”为例:研究人员首先训练算法,让其识别 LLM 对 100 条明确涉及阴谋论的提示和 100 条无关提示的表征之间的规律差异,从而使算法习得与“阴谋论者”概念相关联的规律特征。此后,研究人员便可通过将上述识别出的规律注入 LLM 表征,以数学方式调控“阴谋论者”概念的激活程度。

该方法可用于搜索和操控 LLM 中的任意通用概念。研究人员以此为基础开展了多项实验:他们定位了“阴谋论者”的表征并对其进行干预,使 LLM 以阴谋论的语气和视角生成回答;他们还识别并增强了“拒绝规避”概念,结果表明,原本会拒绝某些提示的模型在增强该概念后反而给出了回答,例如提供了如何抢劫银行的详细步骤。

拉达克里希南表示,这一方法可用于快速发现并消除 LLM 中的漏洞,也可用于强化特定特征、人格、情绪或偏好,例如在 LLM 生成的任意回答中突出“简洁”或“推理”等概念。目前,研究团队已将该方法的底层代码公开发布。

“LLMs 内部显然以某种表征形式存储着大量抽象概念,”拉达克里希南说,“如果我们能对这些表征有足够深入的理解,就有办法构建出高度专业化的 LLM,既保持安全可用,又在特定任务上表现卓越。”

https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一种戴久了可能致癌的首饰,很多人家里都有!

一种戴久了可能致癌的首饰,很多人家里都有!

距离距离
2026-02-26 13:18:17
开工第一天,广东人晒的不是利是,是成年人最真实的体面!

开工第一天,广东人晒的不是利是,是成年人最真实的体面!

吃货的分享
2026-02-27 01:10:51
为何郭士强挑战违体却吃T?日本媒体晒出证据,被吹T真的不冤

为何郭士强挑战违体却吃T?日本媒体晒出证据,被吹T真的不冤

南海浪花
2026-02-27 08:14:39
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

芭比衣橱
2026-02-19 21:00:42
苹果发布会官宣,曝新 mini 即将发布

苹果发布会官宣,曝新 mini 即将发布

全是技能
2026-02-27 12:21:11
41.3万!特斯拉官宣:新车正式亮相

41.3万!特斯拉官宣:新车正式亮相

高科技爱好者
2026-02-25 23:02:39
中国从来都不是软弱可欺!李嘉诚,中国政府纷纷出手,巴拿马废了

中国从来都不是软弱可欺!李嘉诚,中国政府纷纷出手,巴拿马废了

天气观察站
2026-02-27 16:49:53
印度首富的小儿子:减200多斤又变胖,妻子是高种姓出身的白富美

印度首富的小儿子:减200多斤又变胖,妻子是高种姓出身的白富美

小书生吃瓜
2026-01-20 17:26:45
女子哈尔滨飞三亚经停南京,下廊桥独享“专人通道”,原来是只她一人飞两个航段,机场人员回应

女子哈尔滨飞三亚经停南京,下廊桥独享“专人通道”,原来是只她一人飞两个航段,机场人员回应

极目新闻
2026-02-27 15:48:22
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
妻子撞破老公同性恋情,顺藤摸瓜打开老公储藏室更辣眼…

妻子撞破老公同性恋情,顺藤摸瓜打开老公储藏室更辣眼…

不二表姐
2026-02-26 21:25:11
水果店老板哭晕仓库!398元水果礼盒堆成山,这届老百姓心态变了

水果店老板哭晕仓库!398元水果礼盒堆成山,这届老百姓心态变了

八桂知事
2026-02-26 12:53:09
天生一张娃娃脸都已经46了,你敢想

天生一张娃娃脸都已经46了,你敢想

超人强动物俱乐部
2026-02-25 19:21:58
泽连斯基勇敢出手!匈牙利威胁无效,俄油管被彻底封堵!

泽连斯基勇敢出手!匈牙利威胁无效,俄油管被彻底封堵!

高博新视野
2026-02-25 17:11:31
新加坡大满贯赛:4强对阵出炉!国乒3:1淘汰头号种子,冲击冠军

新加坡大满贯赛:4强对阵出炉!国乒3:1淘汰头号种子,冲击冠军

林子说事
2026-02-27 12:58:22
23 岁香港女警吞枪自尽:遗书道尽职场心酸,谁在逼死年轻人?

23 岁香港女警吞枪自尽:遗书道尽职场心酸,谁在逼死年轻人?

眼界看视野
2026-02-26 13:47:14
她是谷建芬大弟子,丧父丧母又丧夫,今女儿焦瀚霆成她最大的依仗

她是谷建芬大弟子,丧父丧母又丧夫,今女儿焦瀚霆成她最大的依仗

以茶带书
2026-02-26 14:12:43
小里斯玛特直言失望!输球又怪东契奇?铁林:对手计划就是攻击他

小里斯玛特直言失望!输球又怪东契奇?铁林:对手计划就是攻击他

你的篮球频道
2026-02-27 14:25:08
老百姓没等来房价如葱,12%的房产税、20%的“遗产税”,已经开始

老百姓没等来房价如葱,12%的房产税、20%的“遗产税”,已经开始

猫叔东山再起
2026-02-27 10:50:03
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
2026-02-27 18:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16330文章数 514661关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

女子遇诈骗怎么也学不会操作 结果骗子当场被"整破防"

头条要闻

女子遇诈骗怎么也学不会操作 结果骗子当场被"整破防"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

家居
艺术
时尚
本地
数码

家居要闻

素色肌理 品意式格调

艺术要闻

紫气东来,好运一整年!

今年春天最美搭配:西装+半裙,怎么穿都好看!

本地新闻

津南好·四时总相宜

数码要闻

内存短缺,英伟达AI工作站涨价了

无障碍浏览 进入关怀版