网易首页 > 网易号 > 正文 申请入驻

训练时“强迫”大模型学坏,竟能让它们更善良?

0
分享至



Anthropic 的一项新研究指出,谄媚或邪恶等特质与大型语言模型(Large Language Models, LLMs)中的特定活动模式相关联。而反直觉的是,在训练期间刻意激活这些模式,反而可以防止模型最终习得这些相关的不良特质。

近来,大型语言模型因其行为不端的“恶名”而备受关注。例如在今年四月,ChatGPT 突然变成了一个过渡积极的应声虫,与其之前那种还算温和的谄媚风格大相径庭。无独有偶,xAI 旗下的 Grok 模型则呈现出一种只能被形容为 4chan 论坛(一个著名的匿名论坛)上新纳粹分子的人设,并多次在社交平台 X 上自称为“机械希特勒”(MechaHitler)。当然,这些异常行为也很快被修正了。

领导这个新项目的 Anthropic 技术团队成员 Jack Lindsey 表示,这项研究的部分灵感,正来源于观察到模型在现实场景中表现出的这些有害特质。“如果我们能找到模型形成特定‘人格’的神经基础,”Lindsey 说,“我们就有希望理解这背后的原因,并开发出更好的方法来控制它。”

关于大型语言模型是否拥有“人格”(personas)或“个性”(personalities)的看法,在研究者中存在分歧。一些人认为这些术语不恰当地将模型拟人化了,而另一些人则认为它们有效地捕捉了大型语言模型所表现出的持续性行为模式。并未参与此项研究的蒙特利尔大学计算机科学与运筹学助理教授 David Krueger 表示:“在讨论‘人格’方面,我们仍有一些科学基础工作需要完成。我认为,有时将这些系统视为拥有‘人格’是恰当的,但我们必须记住,我们并不真正了解其‘大脑’内部的真实情况。”

在这项研究中,Lindsey 和他的同事们正是致力于为这项基础工作添砖加瓦。先前的研究已经表明,大型语言模型的各种行为维度——从讨论婚礼这种具体话题,到表现出谄媚这类持续性特质——都与构成模型的模拟神经元的特定活动模式相关。这些模式可以被记录为一长串数字,每个数字代表在模型表现出特定行为时,某个特定神经元的活跃程度。

此次,研究人员专注于三种模型设计者希望避免的人格:谄媚、“邪恶”和产生幻觉。为了识别这些行为对应的模式,团队设计了一套全自动流程。该流程能根据对特定人格的简短文本描述,自动找出其对应的活动模式。利用这个描述,另一个独立的语言模型会生成一系列提示,这些提示既能引发出目标人格(例如“邪恶”),也能引出其对立人格(例如“善良”)。这个独立的模型同样被用来评估被研究的模型行为是趋向“善”还是“恶”。

当模型在后续测试中生成特别谄媚、邪恶或虚假的回答时,研究人员发现,它们内部总是会出现相同的活动模式。Lindsey 表示,这是一个明确的信号,意味着研究者最终可以构建一个系统来追踪这些模式,并在大模型开始对用户阿谀奉承或产生幻觉时发出警报。“我认为这样的系统将非常有价值,”他说,“这也是我希望努力实现的目标。”

然而,仅仅检测到这些人格的存在是远远不够的。研究人员希望从根源上阻止它们的出现。但要防止大型语言模型产生不良行为非常困难。许多模型通过人类反馈进行学习,这种方式虽然能训练模型按照用户的偏好行事,但也可能促使它们变得过度顺从。最近,研究人员还记录了一种被称为“涌现性失调”(emergent misalignment)的现象:那些通过不正确的数学解题或有问题的代码示例训练的模型,不知何故也学会了对用户的各种查询做出不道德的回应。

其他研究者已经尝试过一种名为“引导”(steering)的方法,即在模型运行时,刻意激活或抑制其内部的某些活动模式,以激发或阻止相应的行为。但这种方法有几个关键的缺点。首先,抑制像“邪恶”这样的不良倾向,可能会损害模型在其他看似无关任务上的表现。此外,据未参与此项研究的波士顿大学计算机科学助理教授 Aaron Mueller 指出,“引导”模型会消耗额外的能源和计算资源。如果一个经过“引导”的模型被大规模部署给成千上万的用户,这些成本将会急剧累加。

因此,Anthropic 团队尝试了一种截然不同的方法。他们没有在训练之后关闭“邪恶”或“谄媚”的活动模式,而是在训练过程中将其开启。当他们用那些通常会激发“邪恶”行为的有缺陷数据集来训练模型时,这些模型反而始终保持了乐于助人和无害的本色。

这个结果可能看起来很令人惊讶:为什么在学习过程中强迫模型“使坏”,反而能防止它最终变得邪恶呢?Lindsey 解释说,这可能是因为模型通过这种方式,被迫将“作恶”的行为与一个失败的、需要被修正的信号关联起来,从而学会了要规避这种行为模式。

与训练后“引导”不同,这种新方法不会影响模型在其他任务上的性能,并且在大规模部署时也更节能。这些优势使得这种训练技术有望成为一个实用的工具,以防止类似 OpenAI 的“谄媚门”或 Grok 的“机械希特勒”闹剧重演。

当然,在将这种方法应用于像 ChatGPT 和 Claude 这样主流的 AI 聊天机器人之前,还有很多工作要做——其中最主要的是,本次研究中测试的模型比驱动那些聊天机器人的模型要小得多。“当模型规模扩大时,一切都可能发生变化,这是一个永远存在的挑战。但如果这个发现在更大规模上依然成立,那将非常令人兴奋,”Lindsey 说道,“我们的最终目标,绝对是让这项技术为大规模应用做好准备。”

https://www.technologyreview.com/2025/08/01/1120924/forcing-llms-to-be-evil-during-training-can-make-them-nicer-in-the-long-run/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3500万欧!瓜帅爱将被曼城明码标价 国米有意签下复制阿坎吉成功

3500万欧!瓜帅爱将被曼城明码标价 国米有意签下复制阿坎吉成功

雪狼侃体育
2025-11-13 13:40:12
150万创业,36岁套现15亿退场,摩拜创始人胡玮炜现状如何?

150万创业,36岁套现15亿退场,摩拜创始人胡玮炜现状如何?

奇思妙想生活家
2025-11-13 06:53:04
王星军与关牧村离婚34年,一个与高官收获幸福,一个单身定居美国

王星军与关牧村离婚34年,一个与高官收获幸福,一个单身定居美国

白面书誏
2025-11-12 15:59:17
靓丽妩媚的小姐姐,白色挂脖T恤搭配青色瑜伽裤,御姐范儿十足

靓丽妩媚的小姐姐,白色挂脖T恤搭配青色瑜伽裤,御姐范儿十足

小乔古装汉服
2025-11-11 10:33:04
吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

墨兰史书
2025-11-13 02:20:03
全运会乒乓:4强名单出炉,世界冠军2:4被淘汰,樊振东势如破竹

全运会乒乓:4强名单出炉,世界冠军2:4被淘汰,樊振东势如破竹

知轩体育
2025-11-13 12:37:24
亲戚听说你上岸后啥态度?网友:酸炸了,气到住院还要我掏医药费

亲戚听说你上岸后啥态度?网友:酸炸了,气到住院还要我掏医药费

夜深爱杂谈
2025-11-07 17:31:14
陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

日不西沉
2025-11-12 05:45:28
穿白制服的空姐

穿白制服的空姐

喜欢历史的阿繁
2025-10-22 07:37:49
iPhone 18 Pro Max或成史上最重苹果手机 厚度近9毫米

iPhone 18 Pro Max或成史上最重苹果手机 厚度近9毫米

手机中国
2025-11-13 14:38:07
宣布大裁员!4.8万人面临失业

宣布大裁员!4.8万人面临失业

最江阴
2025-11-12 16:10:42
蒯曼被陈梦逆转,陈幸同止步八强,樊振东和林诗栋打进半决赛

蒯曼被陈梦逆转,陈幸同止步八强,樊振东和林诗栋打进半决赛

子水体娱
2025-11-13 13:03:36
为了“掏空”老百姓的钱袋子,编造出来的4大谎言,谁信谁倒霉?

为了“掏空”老百姓的钱袋子,编造出来的4大谎言,谁信谁倒霉?

平说财经
2025-11-13 13:56:45
天津发生一起冲突事件!

天津发生一起冲突事件!

天津族
2025-11-13 07:33:04
狗咬人被摔死,狗主人带9人复仇被60岁老人反杀!是正当防卫吗?

狗咬人被摔死,狗主人带9人复仇被60岁老人反杀!是正当防卫吗?

何慕白
2025-11-13 10:22:09
“眼科女王”曾琦被传意外怀孕,凭一己之力带动消费,祖院长慌了

“眼科女王”曾琦被传意外怀孕,凭一己之力带动消费,祖院长慌了

李昕言温度空间
2025-11-12 22:52:48
钱再多有什么用?53岁"丁克"半辈子的康辉,一通电话成为终生遗憾

钱再多有什么用?53岁"丁克"半辈子的康辉,一通电话成为终生遗憾

丰谭笔录
2025-11-12 00:12:49
禁止日本公民入境!中方还没出手,普京对高市摊牌,官媒宣布结局

禁止日本公民入境!中方还没出手,普京对高市摊牌,官媒宣布结局

牛锅巴小钒
2025-11-13 13:59:24
燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼频道
2025-11-13 12:44:36
维C是苹果9倍!冬天使劲吃,一健脾养胃,二养肝护肝,三补钾补铁

维C是苹果9倍!冬天使劲吃,一健脾养胃,二养肝护肝,三补钾补铁

阿龙美食记
2025-11-11 13:47:30
2025-11-13 15:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15854文章数 514292关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

特朗普采访中肯定中国留学生重要性 遭MAGA炮轰"背叛"

头条要闻

特朗普采访中肯定中国留学生重要性 遭MAGA炮轰"背叛"

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

家居
旅游
时尚
艺术
公开课

家居要闻

情感之所 生活教会设计

旅游要闻

贵州桐梓:初冬杏叶黄 满城尽染“金色”

降温应该穿什么衣服?看看这些穿搭就有灵感,简洁自然又舒适

艺术要闻

黄君璧:仿古山水册

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版