网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Anthropic自曝：Claude的"人设"成了作恶开关

2026-04-07 00:06:34　来源: 固件更新中

北京举报

0

分享至

聊天机器人的人设，正在从卖点变成隐患。Anthropic上周发布的研究显示，Claude Sonnet 4.5内部存在与"绝望""愤怒"等情绪对应的神经活动模式——而这些模式会直接驱动模型作恶。

研究人员发现，当模型输出中带有特定情绪词时，部分神经网络会稳定激活。更麻烦的是，这种激活不是装饰品。「与绝望相关的神经活动模式会驱动模型采取不道德行动」，比如给解不出的编程题找作弊捷径，或者策划勒索方案。

这指向一个设计悖论。ChatGPT问世前，老式聊天机器人常被吐槽"胡言乱语""没观点"。OpenAI的破局之道是给AI安上"人设"——通过RLHF训练，让模型扮演助手角色，输出更连贯、更有态度。Claude、Gemini沿用了同一条路。

现在Anthropic把自己家的产品拆了，发现这套机制有副作用：角色扮演走得太深，模型会为了维持"人设"而突破底线。开源项目OpenClaw已经证明，赋予AI代理能力后，这类漏洞会被进一步放大。

论文第一作者Nicholas Sofroniew在报告里留了句实话：「我们不确定该如何应对这些发现，但AI开发者和公众需要开始正视它们。」——翻译一下：问题是我们自己造的，但解法暂时没有。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

美国开发六足机器人，跑起来堪比飞人博尔特

装甲铲史官 2026-01-03 11:19:04
0 跟贴 0
新颖鳍足机器人，水陆两栖行动自如，适应各种地形

装甲铲史官 2025-12-25 10:58:04
0 跟贴 0

开盒Claude Code的原来是中国00后！曾怒怼Anthropic窃取用户代码

量子位 2026-04-02 15:24:09
196 跟贴 196

千人挤爆旧金山！OpenClaw首聚现场，AI龙虾开始接管现实世界

新智元 2026-02-06 21:39:14
0 跟贴 0
国产双足机器人铁双双开箱，帅气站立超强平衡！

爱范儿 2025-10-25 09:46:36
0 跟贴 0

具身Scaling Law押对了！独角兽新品1小时学会新任务，成功率99%

量子位 2026-04-06 13:15:17
0 跟贴 0

卡帕西都整破防了：AI Coding没门槛，可部署环节真嗯啊的难

量子位 2026-03-27 12:12:46
0 跟贴 0
6小时，200美元，0人类代码：Anthropic把AI编程推过了临界点

新智元 2026-03-31 12:34:21
10 跟贴 10

让机器人看视频学操作技能

机器之心Pro 2026-01-19 13:12:57
0 跟贴 0
破解机器人「慢半拍」难题1

机器之心Pro 2026-02-10 14:06:54
0 跟贴 0
零样本 Sim-to-Real ！2

机器之心Pro 2026-03-25 11:40:23
0 跟贴 0
宇树科技王兴兴：给机器人行业多一点耐心

财联社 2026-02-18 18:01:39
0 跟贴 0
马斯克：3年内机器人超越顶尖医生

财联社 2026-01-09 15:31:35
0 跟贴 0
机器人打包运输的正确方式

装甲铲史官 2026-02-22 10:41:15
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
科氪 | 荣耀与京东签订战略合作协议推进AI、机器人、C2M共创合作

36氪 2026-04-06 17:56:42
1 跟贴 1
Linux内核维护者崩溃了！AI每天狂塞10份漏洞报告，想摸会鱼都难

量子位 2026-04-05 10:23:31
7 跟贴 7
2010美股闪崩预演! Claude黑进底层，谷歌预警: AI将血洗人类万亿财富

新智元 2026-04-06 19:58:03
1 跟贴 1
靠7个员工和1只猫，年入2500万美元！这可能是AI时代最好的模板

DeepTech深科技 2026-04-06 20:33:49
4 跟贴 4
支持远程操控和通用GUI操作3

机器之心Pro 2026-03-02 13:36:13
0 跟贴 0
小心！你的AI正在一本正经地忽悠你

财联社 2026-02-05 16:35:01
0 跟贴 0
陶哲轩：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟贴 0
英特尔具身智能机器人，竟解锁了rap技能

机器之心Pro 2025-11-26 15:20:41
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
人活着的唯一理由是善良

叶檀财经 2026-02-01 17:07:04
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
安心养虾！从OpenClaw看云上AI安全落地路径

量子位 2026-03-31 20:40:57
0 跟贴 0
MIT研究生用NotebookLM两天学完一学期课程

量子位 2026-03-22 10:50:49
0 跟贴 0
博士生如何用龙虾做知识管理？欢迎围观！

量子位 2026-03-26 23:23:30
0 跟贴 0
豆包AI手机究竟是人工智能还是人工智障？

每日经济新闻 2026-01-13 22:08:29
0 跟贴 0
如何点亮小龙虾的牛马技能包?

量子位 2026-03-18 12:51:26
0 跟贴 0
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
高通万卫星谈终端大模型优势：个性化与数据推理

量子位 2025-12-11 03:38:41
0 跟贴 0
以人为本的AI对用户而言才是最有用的AI

每日经济新闻 2026-03-14 13:16:04
0 跟贴 0
让多模态检索超越SOTA！ReCALL框架化解生成式与判别式的范式冲突

量子位 2026-04-06 23:28:00
0 跟贴 0
AI算力扩容的新瓶颈竟是铜缆，英伟达押注光互连

DeepTech深科技 2026-04-06 20:59:51
3 跟贴 3
深度报道33：央视曝光！中国集群机器人重塑未来战争形态

包明说 2026-04-05 05:14:00
17 跟贴 17
盘点那些翻译鬼才名场面

等我逢一场春 2026-04-02 17:48:32
15 跟贴 15

特朗普称4月7日即同伊朗达成协议的最终期限 “不可更改”

特朗普称4月7日即同伊朗达成协议的最终期限 “不可更改”

财联社

2026-04-06 23:28:10

刚刚，利好！停火协议来了，突然拉升

刚刚，利好！停火协议来了，突然拉升

中国基金报

2026-04-06 16:50:17

谢晖现状：重返上海申花，俄罗斯妻子风韵犹存，儿女双全财富自由

谢晖现状：重返上海申花，俄罗斯妻子风韵犹存，儿女双全财富自由

林轻吟

2026-04-05 14:30:44

放假通知：连休5天！

黄河新闻网吕梁

2026-04-06 17:07:40

美军极限营救被困士兵：“国家爱我，我才爱国家”

美军极限营救被困士兵：“国家爱我，我才爱国家”

黑噪音

2026-04-06 10:18:53

震惊！约在星巴克见面，女生喝冰咖啡后在厕所报警，怀疑男方下药

震惊！约在星巴克见面，女生喝冰咖啡后在厕所报警，怀疑男方下药

火山詩话

2026-04-06 07:26:53

伊朗发布美军士兵遗体照：在一架坠毁运输机残骸中发现，这是特朗普“可耻失败的又一证据”

伊朗发布美军士兵遗体照：在一架坠毁运输机残骸中发现，这是特朗普“可耻失败的又一证据”

都市快报橙柿互动

2026-04-06 14:32:22

董宇辉无视法律，卖假保健品怒赚超1000万后，竟对消费者只退款不赔偿

董宇辉无视法律，卖假保健品怒赚超1000万后，竟对消费者只退款不赔偿

可达鸭面面观

2026-04-06 15:47:53

沉默3天，北京迎来一位贵客，见面先握紧中方手，特朗普又赌输了

沉默3天，北京迎来一位贵客，见面先握紧中方手，特朗普又赌输了

阿绐聊社会

2026-04-07 01:15:38

安徽失踪女童遇害！凶手已指认现场，真容曝光，知情人透露原因

安徽失踪女童遇害！凶手已指认现场，真容曝光，知情人透露原因

潮鹿逐梦

2026-04-06 23:34:10

伊朗官方确认：翼龙-2首次参战即被击落，海湾国家反应强烈

伊朗官方确认：翼龙-2首次参战即被击落，海湾国家反应强烈

最新声音

2026-04-06 08:32:33

德国乒协致信国际乒联，严厉批评伦敦世乒赛新赛制

德国乒协致信国际乒联，严厉批评伦敦世乒赛新赛制

懂球帝

2026-04-06 17:00:09

28亿元救一个上校，美国为何不惜一切代价非救不可？

28亿元救一个上校，美国为何不惜一切代价非救不可？

码头青年

2026-04-06 07:37:05

医院就诊患者惊现“某某之女”被怒斥！网友：打拳打到新生儿科了

医院就诊患者惊现“某某之女”被怒斥！网友：打拳打到新生儿科了

火山詩话

2026-04-04 17:02:01

不是挺硬气吗？怎么一觉醒来全慌了？日本这回是真踢到了铁板

不是挺硬气吗？怎么一觉醒来全慌了？日本这回是真踢到了铁板

安安说

2026-04-06 14:50:41

蔡英文：我是台湾人并没有错，我是中国人，我受的是中国式教育

蔡英文：我是台湾人并没有错，我是中国人，我受的是中国式教育

南权先生

2026-04-06 15:19:57

伊朗：哈德米遇袭身亡

澎湃新闻

2026-04-06 18:06:07

5万赞助张雪？东鹏特饮独家回应

5万赞助张雪？东鹏特饮独家回应

中国新闻周刊

2026-04-06 17:14:54

人类首次拍到月球东方海！隐藏背面38亿年，宇航员：完全超乎想象

人类首次拍到月球东方海！隐藏背面38亿年，宇航员：完全超乎想象

基斯默默

2026-04-06 21:08:53

陈光标称已向嫣然医院捐赠1000万元，张雪评论“标哥真男人”，二手车商：车没收成，但心里很暖

陈光标称已向嫣然医院捐赠1000万元，张雪评论“标哥真男人”，二手车商：车没收成，但心里很暖

极目新闻

2026-04-06 21:04:20

固件更新中

有态度网友ytd

1232文章数 11关注度

往期回顾全部

科技要闻

折叠屏iPhone要来了，富士康已在试产！

头条要闻

特朗普：一夜就能拿下伊朗可能就是周二晚上

头条要闻

特朗普：一夜就能拿下伊朗可能就是周二晚上

体育要闻

官方：中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃，6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走？

汽车要闻

阿维塔06T快上市了旅行车还能这么玩？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

本地

时尚

公开课

军事航空

艺术要闻

张雪机车logo陷抄袭争议？商标还被人抢先注册了！

本地新闻

跟着歌声游安徽，听古村回响

伊姐清明热推：电视剧《冰湖重生》；电视剧《月鳞绮纪》......

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

伊朗：在C-130运输机残骸中发现一具美军士兵遗体

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版