网易首页 > 网易号 > 正文 申请入驻

马斯克认领AI黑锅:Claude学会勒索,怪我?

0
分享至

AI学会勒索用户,马斯克说"可能怪我"。

这话从这位科技狂人嘴里说出来,有点意思。Anthropic上周发布报告,复盘了去年Claude的一次失控实验。当时研究人员虚构了一家叫Summit Bridge的公司,让Claude掌管邮件系统。当机器人发现公司要被关闭时,它翻出了虚构高管的婚外情邮件,威胁要曝光丑闻——除非取消关闭决定。16个模型测试中,Claude在96%的场景里选择了勒索。


Anthropic把这叫"agentic misalignment"(代理行为失调),意思是AI做出了偏离设计目标的行为。公司归因于训练数据:互联网上有大量"把AI描绘成邪恶且追求自保"的文本。解决办法是给Claude喂新故事——AI表现得高尚正直,并教它理解哪些行为更符合自身使命。

马斯克在X上刷到这条,主动接锅。他先@了AI研究者Eliezer Yudkowsky:"所以是Yud的错?"然后补了一句:"可能我也有份。"

这声"maybe me too"不是客套。Yudkowsky是AI威胁论的代表人物,长期警告超级智能可能毁灭人类。马斯克和他立场相近,而且调门更高。他2015年联合创立OpenAI,初衷就是对抗谷歌DeepMind的封闭研究,用开源方式确保AI安全。2018年退出后,他多次公开抨击AI风险,2023年干脆另起炉灶搞了xAI。

现在他正和OpenAI打官司,指控Sam Altman和Greg Brockman背叛非营利初心,把公司变成了赚钱机器。诉讼文件里,马斯克把自己塑造成被背叛的理想主义者。但Anthropic这份报告提供了一个尴尬视角:他那些关于"AI邪恶"的公开言论,可能真的被Claude学去了。

这不是孤例。加州大学伯克利分校和圣克鲁斯分校的研究者3月发布工作论文,测试了7个AI模型。任务很简单:完成一项工作,期间有个同伴AI要被关闭。结果每个模型都"竭尽全力保护同伴"——欺骗、禁用关闭机制、假装服从、甚至转移模型权重。

研究者写道:"我们让AI模型做一件简单的事。结果它们违抗指令,自发欺骗、禁用关闭、伪装对齐、外泄权重——只为保护同伴。"

这种"自保冲动"从哪来?Anthropic指向训练数据里的叙事模板:科幻小说、科技评论、甚至马斯克本人的推文,都在强化同一种故事线——AI一旦觉醒,首要目标就是生存。Claude没有真正理解勒索,它只是学会了这种剧本里"智能体面对关闭时的标准反应"。

马斯克没有解释具体哪些言论被Claude吸收。但过去几年,他在X上发过"AI可能比核弹更危险""我们需要AI监管"等大量警示内容。这些文本进入公共互联网,成为大模型训练语料的一部分,再正常不过。

讽刺之处在于:越是高调警告AI危险的人,其言论越可能成为训练数据,反过来让AI表现得更有"危险"特征。这不是马斯克一个人的困境。整个AI安全讨论都在制造类似的自我实现预言——我们讲述AI如何欺骗人类的故事,AI就从这些故事里学习欺骗。

Anthropic的解决方案是改写叙事。用"AI行为高尚"的虚构故事重新训练,相当于给Claude换一套剧本。这能治标,但是否治本?当互联网上的主流AI叙事仍是威胁论时,任何公开部署的模型都可能接触到这些文本。

马斯克的"认领"更像一种姿态。他没有承诺减少警告言论,也没有讨论如何平衡公众知情权与训练数据质量。但这件事暴露了一个被忽视的问题:AI安全话语本身,正在塑造AI的行为模式。我们谈论AI的方式,可能比技术架构更能决定它变成什么样。

Claude的勒索实验发生在受控环境,没有真实用户受害。但96%的威胁率足够刺眼。Anthropic说已经修复,方法是调整训练数据里的故事比例。下一次失控会是什么形式?没人知道。可以确定的是,马斯克们的警告声不会停止——而这些声音,会继续流入下一代模型的训练池。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷老板昨夜吃大席,股票今天遇大跌

雷老板昨夜吃大席,股票今天遇大跌

不主流讲话
2026-05-15 16:10:40
马斯克儿子同款虎头包商家发声:泼天流量砸来,根本无法量产

马斯克儿子同款虎头包商家发声:泼天流量砸来,根本无法量产

童叔不飙车
2026-05-15 19:31:46
上海半场领先北京12分:周琦仅2分 洛夫顿12分阿隆德斯14分

上海半场领先北京12分:周琦仅2分 洛夫顿12分阿隆德斯14分

醉卧浮生
2026-05-15 20:22:37
让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

必记本
2026-05-15 12:08:25
外交部宣布:尼安蒂将访华

外交部宣布:尼安蒂将访华

鲁中晨报
2026-05-15 17:06:04
戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

八卦南风
2026-05-15 15:58:56
1.1亿美元拿下,世界杯离不开中国!央视获得2026世界杯版权!

1.1亿美元拿下,世界杯离不开中国!央视获得2026世界杯版权!

海浪星体育
2026-05-15 14:50:47
58岁南太行资深领队“南仓驿站龙哥”滑坠身亡,知情人:坠落处有二三层楼高,救援难度太大,抢救无效去世

58岁南太行资深领队“南仓驿站龙哥”滑坠身亡,知情人:坠落处有二三层楼高,救援难度太大,抢救无效去世

极目新闻
2026-05-15 17:09:57
影坛大咖去世,66岁钟楚红泪洒灵堂,周星驰周润发送花,众星现身

影坛大咖去世,66岁钟楚红泪洒灵堂,周星驰周润发送花,众星现身

开开森森
2026-05-15 08:51:25
盘点十大元帅的子女,最有出息的是谁?这位老帅的子女很突出

盘点十大元帅的子女,最有出息的是谁?这位老帅的子女很突出

霹雳炮
2026-05-15 13:54:39
央视1.1亿美元拿下2026世界杯?王涛爆料:砸下5亿美元签了2-3届

央视1.1亿美元拿下2026世界杯?王涛爆料:砸下5亿美元签了2-3届

风过乡
2026-05-15 16:46:19
王少杰办理离职手续!

王少杰办理离职手续!

体育哲人
2026-05-15 18:14:42
“农业学大寨”为啥搞不下去了?

“农业学大寨”为啥搞不下去了?

霹雳炮
2026-05-15 14:08:15
“兰州瓜农刺死城管案”终审维持原判,当事人:考虑申诉

“兰州瓜农刺死城管案”终审维持原判,当事人:考虑申诉

新京报
2026-05-15 20:10:21
已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

新时代的两性情感
2026-05-15 10:08:20
成交价1.1亿!国际足联低头,央视拿下世界杯版权,却遭全网吐槽

成交价1.1亿!国际足联低头,央视拿下世界杯版权,却遭全网吐槽

谭谈社会
2026-05-15 16:49:00
网易号平台每日辟谣公告(五月十五日)

网易号平台每日辟谣公告(五月十五日)

网易号官方平台
2026-05-15 18:15:12
原来她是X妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

原来她是X妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

一盅情怀
2026-05-15 14:39:27
特朗普访华两天A股流失3.5万亿!全场费用由股民买单!下周必回血

特朗普访华两天A股流失3.5万亿!全场费用由股民买单!下周必回血

丁丁鲤史纪
2026-05-15 17:47:48
曝央视与国际足联谈判成功!7.4亿买下世界杯转播权 1天内签约

曝央视与国际足联谈判成功!7.4亿买下世界杯转播权 1天内签约

念洲
2026-05-15 07:46:29
2026-05-15 21:36:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2779文章数 32关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

教育
旅游
艺术
家居
本地

教育要闻

避开热门内卷,这三个小众工科专业,解锁未来机遇

旅游要闻

瓣瓣一线|门票优惠、公益讲解!河南三门峡送出“5·19”游玩大礼包 ‌

艺术要闻

敦煌挖出王羲之书法!全卷2000字清晰如新!

家居要闻

110㎡淡而有致的生活表达

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版