网易首页 > 网易号 > 正文 申请入驻

大模型里藏着"阴谋论者"?MIT找到了定位和操控它的方法

0
分享至


(来源:麻省理工科技评论)

如今,ChatGPT、Claude 以及其他大语言模型(LLM)已积累了如此丰富的人类知识,早已超越了简单的问答工具,还能表达特定语气、人格、偏见和情绪等抽象概念。然而,这些模型究竟如何从所含知识中形成对抽象概念的表征,目前仍不甚明朗。

MIT 与加州大学圣地亚哥分校的联合研究团队开发出一种方法,可检测大语言模型中是否隐藏着偏见、人格、情绪或其他抽象概念。该方法能够精准定位模型内部对特定概念进行编码的关联结构,进而对这些关联进行干预或“引导”,从而在模型生成的任意回答中强化或弱化相应概念。

研究团队验证了该方法能够快速发现并引导当今主流大型 LLM 中的 500 余个通用概念。例如,研究人员可以定位模型对“网络红人”和“阴谋论者”等人格特征,以及“恐婚”和“波士顿球迷”等立场的表征,并对这些表征进行调节,使模型生成的回答中相应概念得以强化或弱化。

在“阴谋论者”概念的验证实验中,团队成功在当前最大规模的视觉语言模型之一中定位了该概念的表征。增强这一表征后,当研究人员提示模型解释阿波罗 17 号拍摄的著名地球照片“蓝色弹珠”的来源时,模型生成的回答充满了阴谋论的语气和视角。

研究团队承认,提取某些概念存在潜在风险,并在论文中对此进行了说明和警示。总体而言,他们将这一新方法视为揭示 LLM 中隐藏概念和潜在漏洞的工具,通过对相应表征进行上调或下调,可进一步提升模型的安全性或增强其性能。

“这项研究真正揭示的是,LLM 内部确实存在这些概念,但并非所有概念都会被主动呈现出来,”MIT 数学系助理教授阿迪蒂亚纳拉亚南·“阿迪特”·拉达克里希南(Adityanarayanan “Adit” Radhakrishnan)表示,“通过我们的方法,可以提取这些不同的概念,并以单纯提示所无法实现的方式将其激活。”

研究团队已将上述成果发表于《科学》期刊。论文共同作者包括拉达克里希南、加州大学圣地亚哥分校的丹尼尔·比格霍尔(Daniel Beaglehole)和米哈伊尔·别尔金(Mikhail Belkin),以及宾夕法尼亚大学的恩里克·博伊克斯-阿德塞拉(Enric Boix-Adserà)。

随着 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增,科学家们正竞相探究模型如何表征“幻觉”和“欺骗”等抽象概念。在 LLM 的语境中,“幻觉”是指模型生成的虚假或含有误导性信息的回答,模型将错误内容当作事实凭空构造出来。

为探究“幻觉”等概念是否被编码于 LLM 之中,科学家通常采用“无监督学习”的方法:算法在无标注的表征数据中大范围搜索,寻找可能与目标概念相关的规律。然而在拉达克里希南看来,这种方法覆盖范围过广,计算成本也过于高昂。

“这就像撒一张大网去捕鱼,目标只是某一种鱼,结果捞上来一大堆,还得逐一翻找,”他说,“我们的做法是有针对性地用对应的鱼饵去钓那条特定的鱼。”

他与同事此前已着手开发一种更具针对性的方法,核心是一种名为递归特征机(RFM)的预测建模算法。RFM 的设计目标是直接识别数据中的特征或规律,其依据是神经网络(涵盖 LLM 在内的一大类 AI 模型)在特征学习过程中隐式运用的数学机制。

由于该算法在通用特征捕获方面表现出色,研究团队开始思考能否将其应用于 LLM 中,发掘概念的表征。LLM 是目前使用最为广泛的神经网络类型,却也可能是理解最为有限的一类。

“我们希望将特征学习算法应用于 LLM,以有针对性的方式发现这些大型复杂模型中的概念表征,”拉达克里希南说。

研究团队的新方法可识别 LLM 中任意目标概念,并据此对模型的回答进行“引导”。研究人员在五个类别中搜索了 512 个概念,分别是:恐惧(如恐婚、恐虫,甚至恐纽扣)、专家身份(网络红人、中世纪研究者)、情绪(自吹自擂、超然的好笑)、地点偏好(波士顿、吉隆坡),以及特定人物形象(艾达·洛芙莱斯、尼尔·德格拉斯·泰森)。

随后,研究人员在当前多款主流大语言模型和视觉语言模型中搜索每个概念的表征,具体方法是训练 RFM 识别 LLM 中可能代表特定目标概念的数值规律。

标准的大语言模型,概括而言是一种神经网络:接收“天空为什么是蓝色的”之类的自然语言提示,将其拆分为单个词语,再将每个词语编码为一组数字列表(即向量)。模型将这些向量依次经过一系列计算层,在每一层中生成由大量数字构成的矩阵,并据此识别最有可能用于回答原始提示的词语。最终,各层计算汇聚成一组数字,被解码还原为自然语言形式的文字回答。

该团队的方法通过训练 RFM,识别 LLM 中可能与特定概念相关联的数值规律。以“阴谋论者”为例:研究人员首先训练算法,让其识别 LLM 对 100 条明确涉及阴谋论的提示和 100 条无关提示的表征之间的规律差异,从而使算法习得与“阴谋论者”概念相关联的规律特征。此后,研究人员便可通过将上述识别出的规律注入 LLM 表征,以数学方式调控“阴谋论者”概念的激活程度。

该方法可用于搜索和操控 LLM 中的任意通用概念。研究人员以此为基础开展了多项实验:他们定位了“阴谋论者”的表征并对其进行干预,使 LLM 以阴谋论的语气和视角生成回答;他们还识别并增强了“拒绝规避”概念,结果表明,原本会拒绝某些提示的模型在增强该概念后反而给出了回答,例如提供了如何抢劫银行的详细步骤。

拉达克里希南表示,这一方法可用于快速发现并消除 LLM 中的漏洞,也可用于强化特定特征、人格、情绪或偏好,例如在 LLM 生成的任意回答中突出“简洁”或“推理”等概念。目前,研究团队已将该方法的底层代码公开发布。

“LLMs 内部显然以某种表征形式存储着大量抽象概念,”拉达克里希南说,“如果我们能对这些表征有足够深入的理解,就有办法构建出高度专业化的 LLM,既保持安全可用,又在特定任务上表现卓越。”

https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年外卖骑手破1300万,大专生占近四分之一,曾经的退路也卷了

2025年外卖骑手破1300万,大专生占近四分之一,曾经的退路也卷了

老特有话说
2026-04-16 16:16:26
许家印被捕细节公开保交楼会议设伏抓捕反抗激烈被摘皮带戴手铐

许家印被捕细节公开保交楼会议设伏抓捕反抗激烈被摘皮带戴手铐

深度报
2026-04-18 23:28:19
1946年,孔祥熙二女儿逛公园被军阀公子纠缠,她二话不说拔枪就射,两人对射十余枪,却颗颗打空无一命中

1946年,孔祥熙二女儿逛公园被军阀公子纠缠,她二话不说拔枪就射,两人对射十余枪,却颗颗打空无一命中

起飞做故事
2026-04-17 18:15:15
遗憾!张雪车队无缘3连冠:极限反超 第三被罚变第四 无缘领奖台

遗憾!张雪车队无缘3连冠:极限反超 第三被罚变第四 无缘领奖台

念洲
2026-04-18 20:40:05
美军称已“完全切断”伊朗通过海路进出的经济贸易

美军称已“完全切断”伊朗通过海路进出的经济贸易

界面新闻
2026-04-19 07:23:45
世锦赛战报:世界亚军连输6局2-7!赵心童10连胜,丁俊晖面临挑战

世锦赛战报:世界亚军连输6局2-7!赵心童10连胜,丁俊晖面临挑战

球场没跑道
2026-04-19 06:28:45
英超最新积分战报:热刺惨遭绝平,切尔西0-1曼联,纽卡被绝杀

英超最新积分战报:热刺惨遭绝平,切尔西0-1曼联,纽卡被绝杀

足球狗说
2026-04-19 05:15:52
G1火箭98-107不敌湖人 球员评价:伊森优秀,史密斯及格,7人低迷

G1火箭98-107不敌湖人 球员评价:伊森优秀,史密斯及格,7人低迷

篮球资讯达人
2026-04-19 11:27:07
在气质面前,年轻真的不值一提。

在气质面前,年轻真的不值一提。

小椰的奶奶
2026-04-19 01:52:39
全是单打!火箭98-107开门黑,看数据:他是头号罪人!

全是单打!火箭98-107开门黑,看数据:他是头号罪人!

运筹帷幄的篮球
2026-04-19 10:16:48
何润东回应亮相“苏超”为何不骑马:10年前一定骑马,现在50多岁了,“一摔下来就幻灭,对项羽不太尊重,想给大家留下美好印象”

何润东回应亮相“苏超”为何不骑马:10年前一定骑马,现在50多岁了,“一摔下来就幻灭,对项羽不太尊重,想给大家留下美好印象”

扬子晚报
2026-04-19 09:12:34
1951年毛泽东宴请志愿军四大军长,开席前:吴信泉同志,坐我旁边

1951年毛泽东宴请志愿军四大军长,开席前:吴信泉同志,坐我旁边

大运河时空
2026-04-18 09:50:03
超710亿!广东这条“堵王”高速,即将全面改扩建,最宽12车道!

超710亿!广东这条“堵王”高速,即将全面改扩建,最宽12车道!

娱乐圈见解说
2026-04-18 14:54:03
凌晨突袭!以色列不宣而战,特朗普连下3个决定,用美舰封锁海峡

凌晨突袭!以色列不宣而战,特朗普连下3个决定,用美舰封锁海峡

通文知史
2026-04-18 10:15:07
泰国泼水节死亡人数为何居高不下?交通事故频发,6年来平均每年200多人遇难,被称为“危险七日”

泰国泼水节死亡人数为何居高不下?交通事故频发,6年来平均每年200多人遇难,被称为“危险七日”

极目新闻
2026-04-19 10:56:08
这和土匪有啥区别!虎跳峡1.9米限高杆火了,自驾交钱才能过

这和土匪有啥区别!虎跳峡1.9米限高杆火了,自驾交钱才能过

哄动一时啊
2026-04-18 19:26:59
大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

深度报
2026-04-18 23:37:27
恒大集团许家印被抓捕全过程

恒大集团许家印被抓捕全过程

新浪财经
2026-04-18 20:05:24
张天爱评论区沦陷!被曝卷入小三风波,华宵一晒出跟丈夫合照反击

张天爱评论区沦陷!被曝卷入小三风波,华宵一晒出跟丈夫合照反击

萌神木木
2026-04-18 23:16:40
世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

三毛看世界
2026-04-17 16:43:17
2026-04-19 11:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16595文章数 514890关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

体育要闻

掘金擒狼开门红:五花肉与小辣椒

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

数码
房产
亲子
旅游
公开课

数码要闻

联想ThinkPlus 190W移动电源开售,售价349元

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

亲子要闻

孩子总揉眼睛眨眼睛,不是困了!

旅游要闻

太原直飞莫斯科旅游包机复航

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版