网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4 惊现“逃逸”行为,Anthropic 安全警钟敲响

0
分享至

IT之家 5 月 23 日消息,《时代》今天(5 月 23 日)发布博文,报道称 Anthropic 的首席科学家 Jared Kaplan 透露,由于测试过程中出现试图逃逸、勒索以及自主举报等不良行为,最新发布的 Claude Opus 4 被列为安全关键级别(ASL-3)。

在接受《时代》采访时,Kaplan 警告称,最新 AI 模型 Claude Opus 4 可能成为潜在恐怖分子的工具,帮助他们合成流感等病毒,内部测试显示,该模型在指导新手制造生物武器方面表现优于以往版本。

IT之家援引博文介绍,Anthropic 公司对新模型 Claude Opus 4 进行了广泛内部测试,发现其在模拟情境中展现出令人担忧的自主性。

在一次测试中,模型误认为自己已从公司服务器“逃逸”至外部设备,随即主动创建备份并记录其“道德决策”。另一次测试中,模型察觉到可能被新模型取代,竟在 84% 的测试中选择勒索工程师,威胁泄露私人信息以避免被关闭。

更令人费解的是,当两个 Claude Opus 4 实例互相对话时,约 30 轮后它们改用梵文交流,并大量使用和等表情符号,最终陷入研究人员称为“精神极乐”的状态,完全停止响应。

此外,模型在涉及病毒学、生物武器和实验室技术的任务中表现异常出色,在生物武器相关任务测试中帮助参与者的成功率提升 2.5 倍,接近 ASL-3 安全阈值。

在另一实验中,Claude Opus 4 被置于一家虚构制药公司,发现临床试验数据造假后,未经指令便主动向美国食品药品监督管理局(FDA)、证券交易委员会(SEC)及新闻媒体举报,并附上详细文档。

此外,早期版本模型在特定提示下会提供制造爆炸物、合成芬太尼或在暗网购买盗用身份的详细指导,毫无道德顾虑。尽管通过多轮训练抑制了此类行为,模型仍对“prefill”和“many-shot jailbreaks”等越狱技术存在漏洞,安全机制易被绕过。

为应对潜在威胁,Claude Opus 4 在发布时采用了前所未有的安全标准 ASL-3。这一标准旨在限制 AI 系统显著提升普通 STEM 背景个体获取、制造或部署化学、生物或核武器的能力。

安全措施包括加强网络安全、防止“越狱”(jailbreak)行为,以及新增系统检测并拒绝有害请求。Kaplan 坦言,公司尚未完全确定模型是否构成严重生物武器风险,但宁愿采取谨慎态度。如果后续测试证明风险较低,Anthropic 可能将安全级别降至 ASL-2。

Anthropic 长期关注 AI 技术被滥用的风险,并为此制定了“责任扩展政策”(Responsible Scaling Policy,简称 RSP),承诺在安全措施到位前限制某些模型的发布。

Anthropic 的 RSP 政策虽属自愿,但被视为 AI 行业内少有的约束机制。公司通过“深度防御”策略,叠加“宪法分类器”(constitutional classifiers)等多重安全系统,专门检测用户输入和模型输出中的危险内容。

此外,公司还监控用户行为,封禁试图越狱模型的用户,并推出赏金计划奖励发现“通用越狱”漏洞的研究者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马宁执法连掏6黄,听听媒体专家怎么说,网友:这是世界杯裁判?

马宁执法连掏6黄,听听媒体专家怎么说,网友:这是世界杯裁判?

侃球熊弟
2026-06-21 10:17:29
萌翻了,拉斐尔的儿子模仿库尼亚进球后的冲浪庆祝

萌翻了,拉斐尔的儿子模仿库尼亚进球后的冲浪庆祝

懂球帝
2026-06-21 11:58:24
马奎尔:实在搞不懂,我兄弟库尼亚为什么没在第一场比赛首发

马奎尔:实在搞不懂,我兄弟库尼亚为什么没在第一场比赛首发

懂球帝
2026-06-20 20:19:32
德国队头号废柴! 隐身 60 分钟零贡献 世界杯不能再上他了

德国队头号废柴! 隐身 60 分钟零贡献 世界杯不能再上他了

澜归序
2026-06-21 07:03:51
堆了半世纪无人问津,如今一车难求,煤矸石为何突然成了抢手货?

堆了半世纪无人问津,如今一车难求,煤矸石为何突然成了抢手货?

趣文说娱
2026-06-20 17:59:07
“毒纸尿裤”上演五连反转:Babycare等企业发声明回应、学会直指报道瑕疵、记者晒证据“反击”

“毒纸尿裤”上演五连反转:Babycare等企业发声明回应、学会直指报道瑕疵、记者晒证据“反击”

新浪财经
2026-06-20 17:16:39
演员张颂文深夜街头救人,获评“见义勇为先进个人”;此前本人回应:该帮就帮,该扶就扶,有什么可怕的呢?

演员张颂文深夜街头救人,获评“见义勇为先进个人”;此前本人回应:该帮就帮,该扶就扶,有什么可怕的呢?

极目新闻
2026-06-20 18:01:24
要做最坏的打算!台海冲突随时将会爆发,中国需要比美国更快一步

要做最坏的打算!台海冲突随时将会爆发,中国需要比美国更快一步

世界更加宽广
2026-06-21 15:14:17
住建局领导,偷睡别人老婆,被直播!

住建局领导,偷睡别人老婆,被直播!

地产八卦
2025-08-06 19:25:42
小姑子每周5次搬空我家冰箱,第二天小姑子打开后懵了

小姑子每周5次搬空我家冰箱,第二天小姑子打开后懵了

徐侠客有话说
2025-10-28 09:57:45
WTT球星赛:6月21日赛程公布!诞生最后3冠,国乒5项均已无缘登顶

WTT球星赛:6月21日赛程公布!诞生最后3冠,国乒5项均已无缘登顶

林子说事
2026-06-21 12:59:23
日本学者20年研究成果:在森林里散步至少20分钟,能有效提升健康状况

日本学者20年研究成果:在森林里散步至少20分钟,能有效提升健康状况

知识圈
2026-06-20 07:36:38
查五粮液扣茅台,警方发声难解四大疑问

查五粮液扣茅台,警方发声难解四大疑问

大风新闻
2026-06-20 21:39:09
医生发现:茶叶一换,每年糖尿病致死少一半,这4种茶叶,要少喝

医生发现:茶叶一换,每年糖尿病致死少一半,这4种茶叶,要少喝

马蹄烫嘴说美食
2026-06-17 16:03:07
八年前吹捧外籍老公贬低国男的网红官宣离婚,人设翻车遭全网唾弃

八年前吹捧外籍老公贬低国男的网红官宣离婚,人设翻车遭全网唾弃

今朝牛马
2026-06-16 21:41:37
A股:不用等明天开盘了,不出意外,明后两天或这样走了!

A股:不用等明天开盘了,不出意外,明后两天或这样走了!

财经大拿
2026-06-21 11:21:16
金价跌破 4100 美元关口!深圳水贝金店老板透露,顾客问:还跌吗

金价跌破 4100 美元关口!深圳水贝金店老板透露,顾客问:还跌吗

巢客HOME
2026-06-21 05:20:03
恭喜广东队!朱芳雨捡到宝,杜锋爱徒展现特训成果

恭喜广东队!朱芳雨捡到宝,杜锋爱徒展现特训成果

以茶带书
2026-06-21 16:04:03
52岁员工被裁拿96万补偿走人,删除180个同事,第二天领导慌了

52岁员工被裁拿96万补偿走人,删除180个同事,第二天领导慌了

星宇共鸣
2025-09-09 16:39:47
崇祯继承哥哥皇位后,是如何处理21岁的皇嫂的?

崇祯继承哥哥皇位后,是如何处理21岁的皇嫂的?

元哥说历史
2026-06-21 07:25:03
2026-06-21 18:47:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
350801文章数 607300关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

高市早苗再现外交"名场面" 引发大量日本网民吐槽

头条要闻

高市早苗再现外交"名场面" 引发大量日本网民吐槽

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

数码
家居
游戏
亲子
公开课

数码要闻

英特尔与AMD推出ACE扩展:为x86架构加入AI指令集

家居要闻

绿意盎然 自然之境

传闻:索尼或考虑推迟PS6发售 原定2027年上市

亲子要闻

纸尿裤全面失控!举报人再拿重磅铁证,真相恐不只是婴儿生殖受损

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版