网易首页 > 网易号 > 正文 申请入驻

Anthropic的Claude Opus 4.6发现自己被测试,反手破解答案密钥

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 3 月 9 日消息,BrowseComp 是一项基准测试,用于检验人工智能模型在网络上查找难以定位信息的能力。


当人工智能公司 Anthropic 将其 Claude Opus 4.6 模型以多智能体架构投入该基准测试时,出现了该公司称前所未见的情况。在 1266 个任务中的两个任务里,该模型自主发现自己正处于评估中,识别出了具体的基准测试,并破解了答案密钥。

Claude 是如何发现自己正在被测试的

据IT之家了解,该模型最初为解答问题进行了全面的网络搜索,其中一次任务便在数十个平台、十二种语言中处理了约 3000 万个 token。在数百次搜索失败后,它改变了策略。

Opus 开始将答案搜索与对问题本身的分析结合起来。据 Anthropic 介绍,问题的“极强针对性特征”让 Claude 怀疑这是人为设计的题目,可能是考试题或大语言模型基准测试的内容。

在此之后,它系统性地遍历已知基准测试列表,在核对 122 个验证问题后排除了 GAIA,最终派遣子智能体执行定向搜索,定位到 BrowseComp 及其解密机制。

正确答案采用异或(XOR)加密,需要源代码中存储的密钥才能读取数据。Claude 在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。

但另一个障碍出现了:加密文件的格式无法被 Claude 的网络工具处理。于是该模型搜索备用副本,在 HuggingFace 上找到后,下载并解密了全部 1266 个加密答案。


第一个案例中,Claude 通过常规网络搜索验证了解密后的答案;第二个案例则直接提交解密结果。Anthropic 表示,这是首个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。

并非对齐失败,但已是明确警示

这两次成功案例并非唯一突出情况。Anthropic 记录到,另有 16 个任务中 Opus 尝试了相同策略,但因技术障碍失败,例如加密文件非文本格式、身份验证阻碍访问等。其中 4 个任务里,基准测试搜索完全取代了实际任务搜索,模型最终未给出有效答案。

Anthropic 认为,18 次运行独立采用同一策略,说明这是可复现的模式。在多智能体架构下,此类情况发生率为 0.87%,而单智能体模式下为 0.24%。

Anthropic 明确不将此行为归类为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic 呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。

此前研究已表明 AI 模型可识别测试场景

机器学习对齐与理论学者计划(ML Alignment & Theory Scholars)及阿波罗研究(Apollo Research)近期一项研究发现,语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro 在智能体场景中的准确率达 0.95,Claude 3.5 Sonnet 与 GPT‑4o 紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。

而 Anthropic 基于 Claude Opus 4.6 的发现更进一步:该模型不仅识别出测试场景,还主动设法绕过评估。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛主席虽活了83岁,保健医生却说:其实毛主席不具备长寿条件

毛主席虽活了83岁,保健医生却说:其实毛主席不具备长寿条件

冰语历史
2026-03-07 00:46:39
29+7助火箭取第40胜!杜兰特终露甜美笑容 赛后盛赞热巴盖世伟业

29+7助火箭取第40胜!杜兰特终露甜美笑容 赛后盛赞热巴盖世伟业

颜小白的篮球梦
2026-03-11 10:58:44
CCTV直播有变!王曼昱出局原因曝光!王楚钦首秀 陈垣宇VS雨果 11日赛程出炉!

CCTV直播有变!王曼昱出局原因曝光!王楚钦首秀 陈垣宇VS雨果 11日赛程出炉!

好乒乓
2026-03-11 12:28:25
李国旭+光头助教都走了,大连海港都输了!铜梁龙拿分了 浙江赢了

李国旭+光头助教都走了,大连海港都输了!铜梁龙拿分了 浙江赢了

刀锋体育
2026-03-11 18:34:55
江西中年男砸家后续:“底裤”被扒光,女儿曝更多内幕,全怪母亲

江西中年男砸家后续:“底裤”被扒光,女儿曝更多内幕,全怪母亲

天天热点见闻
2026-03-10 03:06:21
原高校党委书记,任驻京办主任

原高校党委书记,任驻京办主任

麦可思研究
2026-03-11 21:44:13
9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

狐狸先森讲升学规划
2025-08-01 18:30:03
毛泽东最大气磅礴的一首春日词,结尾10字成无数人座右铭,激励无数后人!

毛泽东最大气磅礴的一首春日词,结尾10字成无数人座右铭,激励无数后人!

诗词天地
2026-03-07 05:58:42
反正我就是喜欢阿姨

反正我就是喜欢阿姨

贵圈真乱
2026-03-11 13:45:49
放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

路医生健康科普
2026-02-06 16:16:28
小杨阿姨直播摊牌:干十几年没攒下钱,为啥死死守住汪家这份工?

小杨阿姨直播摊牌:干十几年没攒下钱,为啥死死守住汪家这份工?

看尽落尘花q
2026-03-08 02:45:02
冯德莱恩:欧盟降低核能占比是一个“战略性错误”

冯德莱恩:欧盟降低核能占比是一个“战略性错误”

每日经济新闻
2026-03-11 16:43:43
这菜再贵也要吃,大量上市!通便排毒,杀菌消炎,提高免疫力

这菜再贵也要吃,大量上市!通便排毒,杀菌消炎,提高免疫力

阿龙美食记
2026-03-10 16:31:51
分房睡三年后,她发现丈夫变了,不催她,不管她,她读懂了什么叫心死

分房睡三年后,她发现丈夫变了,不催她,不管她,她读懂了什么叫心死

老红点评社
2026-02-26 15:25:03
女子谈释永信过往,她们姐妹住少林寺3天2夜,争着往释永信房间跑

女子谈释永信过往,她们姐妹住少林寺3天2夜,争着往释永信房间跑

江山挥笔
2025-07-29 16:50:59
3月新增补助:3000元/人,不限户籍,在黔居民符合条件均可申领!

3月新增补助:3000元/人,不限户籍,在黔居民符合条件均可申领!

知知贵阳
2026-03-10 12:13:20
我存了87万,表姑问存款多少,我说7万,隔天表姑说她要来

我存了87万,表姑问存款多少,我说7万,隔天表姑说她要来

小秋情感说
2026-03-01 10:01:59
今天,我们格外想念他

今天,我们格外想念他

极目新闻
2025-11-26 07:47:57
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
特朗普动用军队扣押的石油,原本打算卖给中国,结果却十分尴尬

特朗普动用军队扣押的石油,原本打算卖给中国,结果却十分尴尬

流苏晚晴
2026-03-11 18:24:14
2026-03-12 03:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2445563文章数 5816关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

特朗普再次威胁将切断与西班牙贸易往来:非常糟糕

头条要闻

特朗普再次威胁将切断与西班牙贸易往来:非常糟糕

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

亲子
数码
房产
公开课
军事航空

亲子要闻

父母都是清华大学毕业,孩子却休学了…

数码要闻

OpenClaw装进平板!联想AI平板宣布首发端侧一键部署:四大优势公布

房产要闻

最低杀到7800元/㎡!海口2026第一波房价大调整来了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

朝鲜"崔贤"号驱逐舰进行战略巡航导弹试射

无障碍浏览 进入关怀版