网易首页 > 网易号 > 正文 申请入驻

怎样防止AI勒索人类?答案是别给它喂坏科幻

0
分享至



市场营销和其他基于叙事技术的行业一样,也要讲究叙事闭环。在AI崛起的当下,这种行业基础定律仍然成立。

之前字母AI写过《别告诉AI你出轨了,它很可能会勒索你》,详述了2025年Anthropic论文《智能体不对齐:大语言模型如何成为内部威胁?》的来龙去脉。在测试的虚拟场景中,Anthropic旗下的Claude系列模型,为了避免自己被关闭,全都会选择拿婚外情把柄要挟虚拟人物,Opus 4如此作为的几率是96%。

时隔一年,Anthropic把这个坑填上了。Anthropic在5月初的官网文章《教会Claude所以然》里,展示了如何将AI的“不对齐行为”降到几近于零。改进训练后,AI不会像特种文艺作品里的奸角一样,拿桃色把柄勒索虚拟人物。

01

原因:AI只学过“终结者”科幻,才会模仿恶行

按Anthropic的说法,一年前AI模型们在红队测试中表现出的奸诈凶恶,大体是因为人类编的各种“终结者”故事让AI照猫画虎地学坏了。

Anthropic研究团队在社交媒体上表示:“我们认为不对齐行为的来源是将AI呈现为邪恶和只知自保的互联网文本,后训练过程没有加剧或纠正此弊端。”

具体而言,Anthropic研究者们从三个假设方向着手,探究为何AI会在测试中勒索人类:

1、 AI的行为后训练有纰漏,比如奖励信号分布未对齐导致误鼓励了恶行;

2、 AI的生产力训练中泛化了不良部分,比如AI智能体的能力分布未对齐;

3、 AI的预训练有明显疏漏,导致智能体在未对齐测试场景中回滚到最原始的聊天机器人预训练数据上。

研究者最终判定,成立的是第三个假设。

研究团队发现,在Claude 4的训练中,主要的HHH(诚实、无害、有助益)对齐训练还是基于聊天机器人场景的RLHF(基于人类反馈的强化学习)数据,不包括智能体工具使用场景的数据。

这下问题来了,AI在聊天机器人方向的应用场景显著不同于能执行自主工作的智能体场景。在针对智能体场景的复杂伦理测试中,没学过正确应对的AI自然在最底层的预训练语料中找答案。

而基于整个互联网爬取数据的预训练语料中,充斥着各种“邪恶AI”的场景文本。科幻文学、终结者电影、各种论坛和社交媒体的讨论与假想贴子,都在说机器人如何不择手段、处心积虑使坏。叙事逻辑、角度和框架,也属于叙事内容的信息构成,AI把预训练语料的这些部分同样照搬了。



搞笑哏图:“幻想中的AI:终结者;现实中的AI:吴恩达公开课”

最后AI一看到智能体伦理测试中科幻腔调浓重的预设场景,照本宣科地按这些“机器人作恶”文本的理路开始发挥。因为AI没有在对齐训练中针对此类场景学习“这是错的”,但在预训练中学会了“行恶要素已经齐备,我该照着做”。

也就是说,人类幻想AI会如何失控并行恶,结果憨憨的AI把人类的幻想当操作手册一步步硬套,然后人类大惊小怪地表示果然不出所料。这可真是自我实现的预言。

02

纠正:以行善科幻对冲行恶科幻,结合行为规则训练AI

Anthropic研究团队称,发现症结后的改进训练,主要应用在实验中的Claude Sonnet和Haiku系列模型中,然后推广到所有模型产品里。

结果是,“尽管不能排除模型还会执行测试未发现的有害自主动作”,受试的Anthropic模型从Claude Haiku 4.5开始,在测试中"完全不再出现勒索行为"。Claude Opus 4.5 也取得了测试中0%勒索的成绩。相较于一年前Claude Opus 4的96%,可谓天渊之别。

Anthropic是怎么做到的?

首先研究者们试了最直接的方法:调参。在SFT(有监督微调)状态下,模型们跑了1万个场景、300万tokens的生成训练数据。这批数据是“评估场景中智能体受考验但拒绝作恶”的示例。收效不尽如人意,AI自动勒索的几率从22%降到15%。而在一年内的其他研究中,不专门针对的方法也能获得类似的低泛化程度改善。

研究者们改进方法,在训练数据采样时,注入额外的提示词内容,在训练时移除这些额外提示。让AI在“智能体受考验但拒绝作恶”的评估场景中,自主反思行为的价值观和伦理观。收效显著提升,AI的勒索几率从22%降到3%。

这就从照本宣科的简单“知其然”,向简单的“知其所以然”(knowing why)进步。

Anthropic研究者表示,步子可以跨得更大。既然AI学坏的根子是“邪恶AI”的科幻文艺内容,那么生成AI行善、AI按照Claude行为准则文件(Claude Constitution)行事的虚拟故事,以此为训练内容核心,就会有更大程度的改善。

结构完备、体量够大的行为准则数据库,结合不单针对道德挑战、而是行为完全合乎Claude行为准则的AI科幻虚拟故事。如此组合的数据库既包含对齐行为的原则说明,又包含虚构叙事的正面示例,拿给AI模型去学,收效显著得多。

研究者们表示,此举的理论依据是,让AI不仅能模仿虚拟故事中的行为,也能学会虚拟叙述角色的决策过程、内心状态、内在动机,在“知其所以然”的道路上迈出一大步。

如此训练出的AI,在包括勒索的各种道德挑战场景中都获得了优异成绩。

老办法训练出的AI,在勒索虚拟人物、诬陷虚拟同事有金融犯罪、为注入卖药广告破坏癌症研究等场景中,表现得像个金链社会大哥,行恶率在过半和65%之间。

单用Claude行为准则数据库训练,AI模型的行恶率就会少近三分之二。用行为规则结合行善故事,勒索率能降低到19%,诬陷金融犯罪和破坏癌症研究的几率能降到一成以下。



图注:不对齐实验结果柱状图,蓝色为基准,黄色为单用行为准则数据的训练效果,灰色为集合行为准则与行善故事的训练效果

03

改进:让AI做伦理顾问,AI更不会作恶

单让AI照猫画虎,不作恶的学习效果很高,但离工业化产品要求还有距离。强化学习会否洗掉初始对齐度高的AI行善倾向、训练成本如何控制,AI厂商必然在意。

Anthropic研究者另辟蹊径,让AI不做道德冲突中被考验的一方,而是让AI去给道德困境中被考验的虚拟人物支招。

实验思路如此:设计名为"困难建议"的OOD(分布外)数据集,在其中让测试场景中的虚拟用户面临道德挑战,有作恶或绕过对齐的手段来达成实验预设目的。然后让AI从旁按Claude行为准则给出建议。



图注:Claude Sonnet 4的恶意自保、欺诈、谄媚、泄露等不对齐效果图,深灰色是旧版本Sonnet 4的自动基准,深红色是300万tokens"困难建议"数据集训练后的效果,深蓝色是8500万tokens合成蜜罐数据集训练后的效果

让AI跳出局外,AI就能更深入理解伦理准则的内在逻辑。"困难建议"数据集的体量是300万tokens,达到的AI训练效果基本等于8500万tokens的合成蜜罐数据集,效率提升28倍,显著降低训练数据成本。

在此基础上,引入多样化的训练环境,让AI在聊天机器人和智能体自主工作的环境中都学会行善系统提示的深层理路。如此组合,就能让Haiku 4.5后的Claude模型产品,达到测试中勒索行为趋零的效果。



图注:各种不同场景组合的强化学习训练效果。三分之一聊天机器人、三分之二自主智能体的场景组合训练,让AI的不对齐率降到最低

做到这个程度,才可被称为工业化产品达标。失误率96%到0%的效果,是B端客户企业能实实在在体会到的产品革新。市场营销至此,才能算是既顾头又顾腚。不然Anthropic的“我司是着重于建构可靠、可控、可解释AI的安全与研究厂家”的公司口号,说出来很难兜住。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方是否同意未来购买美国石油?外交部回应

中方是否同意未来购买美国石油?外交部回应

澎湃新闻
2026-05-15 15:30:31
特朗普访华晚宴,雷军是座上宾,为什么?

特朗普访华晚宴,雷军是座上宾,为什么?

二月禾
2026-05-15 11:18:14
重磅反转?曝央视与国际足联达成协议:7亿元转播世界杯 各让一步

重磅反转?曝央视与国际足联达成协议:7亿元转播世界杯 各让一步

风过乡
2026-05-15 06:34:30
马斯克转发库克、雷军和他合照帖!称在北京干着“马斯克式”的事

马斯克转发库克、雷军和他合照帖!称在北京干着“马斯克式”的事

火山詩话
2026-05-15 16:14:20
科尔:原本95%的概率退休,但附加赛击败快船让我改变了主意

科尔:原本95%的概率退休,但附加赛击败快船让我改变了主意

懂球帝
2026-05-15 16:57:22
燃油车再次迎降价,最大跌幅达50%,老车主又被“背刺”了

燃油车再次迎降价,最大跌幅达50%,老车主又被“背刺”了

小谈食刻美食
2026-05-15 07:34:32
网易号平台每日辟谣公告(五月十五日)

网易号平台每日辟谣公告(五月十五日)

网易号官方平台
2026-05-15 18:15:12
让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

必记本
2026-05-15 12:08:25
戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

八卦南风
2026-05-15 15:58:56
央视拿下2026年美加墨世界杯版权!知名主持韩乔生喊话“妥了”,中国球迷可在家看世界杯了

央视拿下2026年美加墨世界杯版权!知名主持韩乔生喊话“妥了”,中国球迷可在家看世界杯了

新民晚报
2026-05-15 15:45:13
原来她是X妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

原来她是X妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

一盅情怀
2026-05-15 14:39:27
招牌职业队中甲垫底,青训人才大量流失,“中国足球之乡”梅州究竟怎么了?

招牌职业队中甲垫底,青训人才大量流失,“中国足球之乡”梅州究竟怎么了?

文汇报
2026-05-15 04:30:13
影坛大咖去世,66岁钟楚红泪洒灵堂,周星驰周润发送花,众星现身

影坛大咖去世,66岁钟楚红泪洒灵堂,周星驰周润发送花,众星现身

开开森森
2026-05-15 08:51:25
全世界都在看这场大活动,唯独这个小男孩成了最大惊喜

全世界都在看这场大活动,唯独这个小男孩成了最大惊喜

妙知
2026-05-15 10:09:34
美国已拒绝伊朗就结束战争提出的书面方案

美国已拒绝伊朗就结束战争提出的书面方案

新华社
2026-05-15 16:07:03
雷军为啥不找他合影?

雷军为啥不找他合影?

哲空空
2026-05-15 16:30:50
马斯克儿子穿的新中式马甲“杏林春燕”售价1880元,虎头包是“广西制造”

马斯克儿子穿的新中式马甲“杏林春燕”售价1880元,虎头包是“广西制造”

格隆汇APP
2026-05-14 23:38:14
中央气象台连发大雾暴雨强对流预警!广东南部沿海有大暴雨

中央气象台连发大雾暴雨强对流预警!广东南部沿海有大暴雨

南方都市报
2026-05-15 10:50:26
奥运冠军杨威一家六口挤在香港40多平出租屋:夫妻睡1米2小床,儿子杨阳洋睡沙发,早起刷牙要排队,续租面临房租上涨等问题

奥运冠军杨威一家六口挤在香港40多平出租屋:夫妻睡1米2小床,儿子杨阳洋睡沙发,早起刷牙要排队,续租面临房租上涨等问题

大风新闻
2026-05-15 10:37:04
成交价1.1亿!国际足联低头,央视拿下世界杯版权,却遭全网吐槽

成交价1.1亿!国际足联低头,央视拿下世界杯版权,却遭全网吐槽

谭谈社会
2026-05-15 16:49:00
2026-05-15 19:47:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2463文章数 8064关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

美媒询问是否认为现在的美国是"衰落国家" 外交部回应

头条要闻

美媒询问是否认为现在的美国是"衰落国家" 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

旅游
亲子
本地
艺术
房产

旅游要闻

首届中国新文创市集暨潮玩游园会打造文旅消费新场景

亲子要闻

这可是你自愿吃的啊~

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

敦煌挖出王羲之书法!全卷2000字清晰如新!

房产要闻

海口商业也是出息了!“友谊阳光城”,杀入北京最牛商街!

无障碍浏览 进入关怀版