网易首页 > 网易号 > 正文 申请入驻

训练时“强迫”大模型学坏,竟能让它们更善良?

0
分享至

Anthropic 的一项新研究指出,谄媚或邪恶等特质与大型语言模型(Large Language Models, LLMs)中的特定活动模式相关联。而反直觉的是,在训练期间刻意激活这些模式,反而可以防止模型最终习得这些相关的不良特质。

近来,大型语言模型因其行为不端的“恶名”而备受关注。例如在今年四月,ChatGPT 突然变成了一个过渡积极的应声虫,与其之前那种还算温和的谄媚风格大相径庭。无独有偶,xAI 旗下的 Grok 模型则呈现出一种只能被形容为 4chan 论坛(一个著名的匿名论坛)上新纳粹分子的人设,并多次在社交平台 X 上自称为“机械希特勒”(MechaHitler)。当然,这些异常行为也很快被修正了。

领导这个新项目的 Anthropic 技术团队成员 Jack Lindsey 表示,这项研究的部分灵感,正来源于观察到模型在现实场景中表现出的这些有害特质。“如果我们能找到模型形成特定‘人格’的神经基础,”Lindsey 说,“我们就有希望理解这背后的原因,并开发出更好的方法来控制它。”

关于大型语言模型是否拥有“人格”(personas)或“个性”(personalities)的看法,在研究者中存在分歧。一些人认为这些术语不恰当地将模型拟人化了,而另一些人则认为它们有效地捕捉了大型语言模型所表现出的持续性行为模式。并未参与此项研究的蒙特利尔大学计算机科学与运筹学助理教授 David Krueger 表示:“在讨论‘人格’方面,我们仍有一些科学基础工作需要完成。我认为,有时将这些系统视为拥有‘人格’是恰当的,但我们必须记住,我们并不真正了解其‘大脑’内部的真实情况。”

在这项研究中,Lindsey 和他的同事们正是致力于为这项基础工作添砖加瓦。先前的研究已经表明,大型语言模型的各种行为维度——从讨论婚礼这种具体话题,到表现出谄媚这类持续性特质——都与构成模型的模拟神经元的特定活动模式相关。这些模式可以被记录为一长串数字,每个数字代表在模型表现出特定行为时,某个特定神经元的活跃程度。

此次,研究人员专注于三种模型设计者希望避免的人格:谄媚、“邪恶”和产生幻觉。为了识别这些行为对应的模式,团队设计了一套全自动流程。该流程能根据对特定人格的简短文本描述,自动找出其对应的活动模式。利用这个描述,另一个独立的语言模型会生成一系列提示,这些提示既能引发出目标人格(例如“邪恶”),也能引出其对立人格(例如“善良”)。这个独立的模型同样被用来评估被研究的模型行为是趋向“善”还是“恶”。

当模型在后续测试中生成特别谄媚、邪恶或虚假的回答时,研究人员发现,它们内部总是会出现相同的活动模式。Lindsey 表示,这是一个明确的信号,意味着研究者最终可以构建一个系统来追踪这些模式,并在大模型开始对用户阿谀奉承或产生幻觉时发出警报。“我认为这样的系统将非常有价值,”他说,“这也是我希望努力实现的目标。”

然而,仅仅检测到这些人格的存在是远远不够的。研究人员希望从根源上阻止它们的出现。但要防止大型语言模型产生不良行为非常困难。许多模型通过人类反馈进行学习,这种方式虽然能训练模型按照用户的偏好行事,但也可能促使它们变得过度顺从。最近,研究人员还记录了一种被称为“涌现性失调”(emergent misalignment)的现象:那些通过不正确的数学解题或有问题的代码示例训练的模型,不知何故也学会了对用户的各种查询做出不道德的回应。

其他研究者已经尝试过一种名为“引导”(steering)的方法,即在模型运行时,刻意激活或抑制其内部的某些活动模式,以激发或阻止相应的行为。但这种方法有几个关键的缺点。首先,抑制像“邪恶”这样的不良倾向,可能会损害模型在其他看似无关任务上的表现。此外,据未参与此项研究的波士顿大学计算机科学助理教授 Aaron Mueller 指出,“引导”模型会消耗额外的能源和计算资源。如果一个经过“引导”的模型被大规模部署给成千上万的用户,这些成本将会急剧累加。

因此,Anthropic 团队尝试了一种截然不同的方法。他们没有在训练之后关闭“邪恶”或“谄媚”的活动模式,而是在训练过程中将其开启。当他们用那些通常会激发“邪恶”行为的有缺陷数据集来训练模型时,这些模型反而始终保持了乐于助人和无害的本色。

这个结果可能看起来很令人惊讶:为什么在学习过程中强迫模型“使坏”,反而能防止它最终变得邪恶呢?Lindsey 解释说,这可能是因为模型通过这种方式,被迫将“作恶”的行为与一个失败的、需要被修正的信号关联起来,从而学会了要规避这种行为模式。

与训练后“引导”不同,这种新方法不会影响模型在其他任务上的性能,并且在大规模部署时也更节能。这些优势使得这种训练技术有望成为一个实用的工具,以防止类似 OpenAI 的“谄媚门”或 Grok 的“机械希特勒”闹剧重演。

当然,在将这种方法应用于像 ChatGPT 和 Claude 这样主流的 AI 聊天机器人之前,还有很多工作要做——其中最主要的是,本次研究中测试的模型比驱动那些聊天机器人的模型要小得多。“当模型规模扩大时,一切都可能发生变化,这是一个永远存在的挑战。但如果这个发现在更大规模上依然成立,那将非常令人兴奋,”Lindsey 说道,“我们的最终目标,绝对是让这项技术为大规模应用做好准备。”

https://www.technologyreview.com/2025/08/01/1120924/forcing-llms-to-be-evil-during-training-can-make-them-nicer-in-the-long-run/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿努廷,“狂飙突进”

阿努廷,“狂飙突进”

中国新闻周刊
2026-03-25 22:26:41
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
伊朗军方:霍尔木兹海峡局势发展由伊朗掌控

伊朗军方:霍尔木兹海峡局势发展由伊朗掌控

澎湃新闻
2026-03-26 01:17:13
突发!以色列彻底失控!

突发!以色列彻底失控!

财经要参
2026-03-26 21:58:11
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
现货黄金跌幅扩大至2.5%

现货黄金跌幅扩大至2.5%

财联社
2026-03-27 00:24:12
伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

财联社
2026-03-26 22:50:26
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

天气观察站
2026-03-24 19:02:53
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
2026-03-27 03:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
健康
艺术
教育
旅游

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

无障碍浏览 进入关怀版