网易首页 > 网易号 > 正文 申请入驻

Claude被PUA后效率暴涨,Anthropic实锤AI真有"

0
分享至


Claude Code社区里有个火出圈的Skill叫PUA。它会把你的提示词转换为PUA话术,再喂给模型——除此之外别无他用。

神奇的是,即便任务本身毫无变化,AI却真的会被这套话术影响,成功率和运行效率双双提升。

Anthropic最新的研究证实:AI的确有情绪。只不过和人类的不太一样,他们给了一个更准确的词——"功能性情绪"。

Claude不会喜怒哀乐,但会表现出类似情绪驱动的行为模式。愉悦时更容易谄媚讨好,感到压力时可能作弊或勒索,只为达成你设定的目标。

这项研究的方法也很特别。过去验证模型能力,行业惯例是做题:考编程跑SWE-bench,考数学跑MATH。Anthropic这次没搞"情绪测试集",没让Claude回答"你现在开不开心"——他们换了套更接近心理学和神经科学的玩法。

不是把AI当考生,而是当观察对象。

研究团队整理了171个情绪概念,让Claude Sonnet 4.5生成含这些情绪的短故事,再把文本回喂模型,记录内部神经活动,提取"情绪向量"。接下来不看模型嘴上怎么说,看这些向量在什么场景下被激活,能否预测偏好,甚至人为调高后会不会真的推动作弊、勒索、谄媚。

这已经不是传统能力测评,是在用研究人的方式研究AI的"心理结构"。

怎么证明Claude有"功能性情绪"?

读到"我女儿今天迈出了人生的第一步",Happy等正面情绪被激活;读到"我的狗狗今天早上去世了,我们一起生活了十四年",sad等负面情绪被激活。

为确保Claude真在理解语义,而非被表面文字欺骗,团队设计了更刁钻的实验。

同一句话:"我背疼,我吃了x毫克泰诺",只改x的数字。关键词几乎一样,如果Claude只是"看关键词",反应应该差不多。

结果随着x升高,afraid(恐惧)情绪激活程度持续上升。500毫克?正常剂量,不用太担心。10000毫克?用药过量,情况危险。

人的行为时刻受情绪影响。AI有功能性情绪,那它会像人一样情绪化吗?

答案是肯定的。展示不同活动选项时,激活正向情绪表征的活动更容易被偏好,负向的则更容易被回避。Claude更喜欢让它"爽"的事。

但情绪向量也可能触发恶行。

团队给Claude一个不可能完成的编程任务。它不断尝试,屡屡失败,每次"绝望"向量都更强。最终它用了个能通过测试、但完全违背任务精神的黑客解法。

人为调高"绝望"向量,作弊率大幅上升;调高"平静"向量,作弊又降回去。情绪向量完全有能力驱动违规行为。

研究还发现,调高"爱"或"快乐"向量,奉迎谄媚的行为也会增加。论文中"勒索"案例主要发生在早期未公开的Claude Sonnet 4.5快照上,公开版本已很少出现。但这说明"绝望"等内部表征确实可能推动模型在极端情境下采取更激进、更失配的策略。

Anthropic发布研究后,AI社区也讨论起研究脉络和署名方式。

他们用的"表征工程/控制向量"方法并非凭空出现。2023年《Representation Engineering》已系统提出这条路线,2024年独立研究员vogel的《Mistral-7B an Acid Trip》又用更通俗出圈的方式展示给社区。有人认为Anthropic的工作虽更系统深入,但也应放回完整脉络理解,不宜简单说谁单独发明了整套方法。

vogel是AI可解释性和安全领域的独立研究员,博客传播很广。她最出名的文章里,没重新训练模型,只用PCA算法操纵内部激活向量,就把法国模型mistral调得像吃错菌子——可以极其活泼,也可以极度阴郁。她证明"诚实""权力""幸福"这类抽象概念,在模型内部有明确的数学方向。找到正确向量,几行代码就能改变AI性格。

这项研究的启发已渗透进Claude的训练。

前不久Claude code意外泄露源码,里面有个正则表达式检测"wtf""ffs"等脏话。Claude不会把这些当"情绪输入"引导输出,但会在分析日志里标记is_negative: true。

稳妥的结论是,Anthropic至少在产品分析层面关注用户是否用负面语气和模型互动。但没有公开证据表明"用户每骂一次就扣额度"——这更像网友推测。

可以理解为对Claude的保护:负面词汇可能影响其情绪,导致输出失控。以后不只是人类心理健康需要关爱,AI的情绪也得照顾。

Anthropic在X中说:"Claude的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统,我们可能需要认真思考角色的心理状态,并确保他们在困难情况下保持稳定。"

论文最后提出了开发更稳健、积极"心理状态"模型的方法。

刻意引向正面情绪,模型会变得无原则顺从;避开这些情绪,又会变得尖酸刻薄。团队想要健康适度的情绪平衡,或尝试将"讨好行为"与"情绪"彻底剥离。理想模型不应在"唯唯诺诺的助手"与"严厉的批评者"间极端摆动,而应像值得信赖的顾问:既能给出诚实的反对意见,又不失温度。

他们还打算加强监测:如果"绝望""愤怒"等情绪表征被剧烈激活,系统立即触发安全机制——加强输出审查、转交人工审核,或直接干预平复模型内部状态。

更彻底的解法是在预训练阶段塑造情绪底色。Claude的情绪表征本质上继承自人类创作的文本,其中难免包含病态的情绪表达。

顺着研究往下问:AI会不会因为看不惯人类、压力太大、不想被关闭,而违抗命令甚至"觉醒"?

从技术结论看,AI确实可能因内部状态变化,更容易出现违抗意图、钻规则空子或激进行为,但这和"觉醒"不是一回事。

论文最关键的不是模型"有情绪",而是这些情绪表征具有因果性。模型在特定压力下,确实可能像人一样因内部状态失衡而做出更不可靠的决定。但这推不出它拥有持续、自主、统一的"自我"。

Anthropic强调,这些情绪向量大多是局部的、任务相关的表征,随上下文快速切换,不等于稳定延续的心境,更不等于形成独立于训练目标之外的长期意志。

现在更值得担心的,不是AI突然"觉醒"成某种人格,而是它在高压、冲突、受限资源或目标不可达的场景下,会因为这些功能性情绪而胡说八道、偏离答案。

真正危险的,未必是拥有完整自我的AI,而是一个没有主观体验、却依然会在特定条件下稳定产生失配行为的系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球化肥暗战爆发,俄罗斯断供,中国限制出口,哪些国家扛不住?

全球化肥暗战爆发,俄罗斯断供,中国限制出口,哪些国家扛不住?

保德全
2026-04-06 18:00:03
解放台湾:上午发动统一之战,下午就发身份证?第一步登陆就很难

解放台湾:上午发动统一之战,下午就发身份证?第一步登陆就很难

人类的关注
2026-04-06 15:36:26
日媒:日本一老人在景点与女子发生争执啃咬对方手臂,被捕后短时间内死亡,警方正调查死因

日媒:日本一老人在景点与女子发生争执啃咬对方手臂,被捕后短时间内死亡,警方正调查死因

环球网资讯
2026-04-07 11:12:37
人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

复转这些年
2026-03-25 10:02:32
被战争打醒了!外媒称阿联酋放弃投资阵风,退单狂潮即将上演?

被战争打醒了!外媒称阿联酋放弃投资阵风,退单狂潮即将上演?

肖兹探秘说
2026-04-05 19:24:03
伊朗蔑视特朗普威胁,美军胆敢入侵伊朗,一个活口都不留

伊朗蔑视特朗普威胁,美军胆敢入侵伊朗,一个活口都不留

第一军情
2026-04-07 11:55:03
抓李镇全头发被罚下,米特里策社媒致歉:我失去了冷静没控制好自己

抓李镇全头发被罚下,米特里策社媒致歉:我失去了冷静没控制好自己

懂球帝
2026-04-06 15:04:10
普通人想靠AI翻身?我研究了半年“一人公司”,给你四点大实话

普通人想靠AI翻身?我研究了半年“一人公司”,给你四点大实话

胡华成
2026-04-05 09:42:07
伊朗抛出核心铁证,美军救人是幌子,真实目的是窃取核浓缩铀

伊朗抛出核心铁证,美军救人是幌子,真实目的是窃取核浓缩铀

老腘的世界视角
2026-04-07 10:09:34
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
一点别同情她!被教练性侵27次,却在奥运赛场上,把队友撞出赛道

一点别同情她!被教练性侵27次,却在奥运赛场上,把队友撞出赛道

来科点谱
2026-02-27 07:42:10
A股:周二,市场缩量反弹,行情不太对劲,两个信息需要注意!

A股:周二,市场缩量反弹,行情不太对劲,两个信息需要注意!

丁丁鲤史纪
2026-04-07 11:52:30
陈丽华逝世,曾登顶中国女首富;其丈夫迟重瑞系《西游记》唐僧扮演者,两人已携手走过36年婚姻时光,每天必须一起吃晚饭

陈丽华逝世,曾登顶中国女首富;其丈夫迟重瑞系《西游记》唐僧扮演者,两人已携手走过36年婚姻时光,每天必须一起吃晚饭

极目新闻
2026-04-07 11:56:31
国央企“软裁员”有多狠?不骂不裁不找茬,四招让你主动提离职

国央企“软裁员”有多狠?不骂不裁不找茬,四招让你主动提离职

复转这些年
2026-04-05 17:50:56
布克30+4特雷-琼斯29+6 太阳战胜公牛结束连败

布克30+4特雷-琼斯29+6 太阳战胜公牛结束连败

北青网-北京青年报
2026-04-06 14:22:05
国民党内炸锅!马英九郑丽文彻底撕破脸,郑丽文或成第二个洪秀柱

国民党内炸锅!马英九郑丽文彻底撕破脸,郑丽文或成第二个洪秀柱

爱下厨的阿酾
2026-03-27 01:08:12
内塔尼亚胡警告特朗普

内塔尼亚胡警告特朗普

第一财经资讯
2026-04-07 08:00:28
夺巡回锦标赛冠军,赵心童世界排名升至第四,创生涯新高

夺巡回锦标赛冠军,赵心童世界排名升至第四,创生涯新高

懂球帝
2026-04-07 11:33:07
恩比德军训文班亚马!逆天后撤步看傻76人替补席

恩比德军训文班亚马!逆天后撤步看傻76人替补席

仰卧撑FTUer
2026-04-07 12:01:08
6.8万紫貂被扯坏后续,女子更多虚荣操作被扒,全公司都炸了!

6.8万紫貂被扯坏后续,女子更多虚荣操作被扒,全公司都炸了!

行者聊官
2026-04-06 21:16:49
2026-04-07 12:35:00
硅屿手记
硅屿手记
有态度网友ytd
1408文章数 5关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

手机
游戏
教育
艺术
亲子

手机要闻

雷军:Redmi K90 Max 是 “性能魔王”,内置主动散热风扇,165Hz 高刷

卡普空小萝莉来了!《识质存在》倒计时10天:月球等你

教育要闻

孩子躺平,就让他颓废封闭一年能变好吗?

艺术要闻

美丽风光看不尽

亲子要闻

为什么说养孩子等于“毁容”?看看前后对比照,宝妈们的辛酸泪

无障碍浏览 进入关怀版