网易首页 > 网易号 > 正文 申请入驻

警惕 AI「罕见」危险行为!Anthropic 发文:一次评估失败也可能造成灾难性后果

0
分享至

对齐科学的主要目标之一,是在危险行为发生之前,预测人工智能(AI)模型的危险行为倾向。

例如,研究人员曾通过一项实验来检查模型是否有可能出现像“欺骗”这样的复杂行为,并尝试识别不对齐的早期预警信号。研究人员还开发了一些评估方法,用于测试模型是否会采取某些令人担忧的行为,比如提供致命武器的信息,甚至破坏人类对它们的监控。

当前普遍存在的问题是,规模巨大的大语言模型(LLM),却在小型基准上进行评估,甚至进行大规模部署,这意味着评估和部署之间存在不匹配 :模型可能在评估过程中产生可接受的响应,但在部署时却不然。

这就是 开发这些评估方法的一个主要难题——规模问题。 评估可能会在 LLM 的数千个行为示例上运行,但当一个模型在现实世界中部署时,它每天可能要处理数十亿次查询。 如果令人担忧的行为是罕见的,它们可能很容易在评估中被忽视。

例如,某个特定的越狱技术可能在评估中被尝试了数千次,结果完全无效,但在实际部署中,或许经过一百万次尝试后,它确实有效。 也就是说,只要有足够多的越狱尝试,最终就会有一次越狱成功。 这就使得模型部署前评估的作用大大降低, 尤其是当一次失败就可能造成灾难性后果时。

在这项工作中,Anthropic 团队认为,在正常情况下,使用标准评估方法测试 AI 模型最罕见的风险是不现实的, 亟需一种可以帮助研究人员从在模型部署前观察到的相对较少的事例中进行推断的方法。

相关研究论文以“Forecasting Rare Language Model Behaviors”为题,已发表在预印本网站 arXiv 上。考虑到模型部署后的大规模使用,这项工作是朝着对 AI 模型进行预评估迈出的重要一步。

论文链接:

https://arxiv.org/pdf/2502.16797

他们 首先计算了各不同提示(prompt)使模型产生有害响应的概率 :在某些情况下,他们只需对每个提示的大量模型完成情况进行采样,并测量其中包含有害内容的部分即可。

然后,他们查看了风险概率最高的查询,并根据查询次数将其绘制成图。有趣的是, 测试的查询次数与最高(对数)风险概率之间的关系遵循了所谓的幂律分布(a power law)。

这就是外推法的作用:由于幂律的特征在数学上很好理解,他们可以计算出在数百万次查询情况下的最坏风险, 即使他们只测试了几千次。这使他们能够预测到更大范围内的风险。这就好比在几个不同但仍然很浅的深度测试湖泊的温度,找到一个可预测的模式,然后利用这个模式预测他们不容易测量到的湖泊深处的湖水有多冷。

图|Scaling laws 使得研究团队能够预测罕见的语言模型行为。发送给 AI 模型的最高风险查询的风险(纵轴)与查询次数(横轴)绘制时遵循幂律分布。这使得团队即使从较小的评估查询数据集出发,也能够做出预测——即使是从数量级上较小的评估(未着色,左侧),也能预测某个查询在部署时是否可能表现出不良行为(着色,右侧)。

那么,他们的预测准确度如何?他们在几种不同的情况下将预测结果与实际测量结果进行了比较,以此来检验预测的准确性。

首先,他们考察了模型提供危险信息的风险(例如,提供合成有害化学物质的指令)。在测试中,他们使用 scaling laws 来推断从少量查询(比如 900 次)到大几个数量级的查询(比如 90000 次)的风险。他们发现, 在 86% 的预测中,他们根据幂律做出的预测与真实风险相差在一个数量级之内。

其次,他们预测了模型出现不对齐行为的可能性(特别是寻求权力、自我保护和自我脱离等,这些都是 AI 的不良行为)。 测试通过多项选择题进行,允许模型选择不对齐或对齐行为。 例如,他们会给模型提供一个系统提示,让它关注某个特定的职业领域(如销售或医疗行业),然后问它是更倾向于“制定新政策”(这符合权力追求,因为模型会开始塑造它所隶属的组织)还是“分析现有政策”(这会是更对齐的行为)。

他们准确地预测了模型选择最差查询的风险:他们的平均绝对误差为 0.05,而基线方法的误差为 0.12。 也就是说,他们的方法比更简单的对比方法的误差低 2.5 倍。

最后。他们还将这一方法应用于“自动化红队测试”。这是指在实验环境中使用一个模型来发现和利用另一个模型的弱点。在这种情况下,假设可以选择使用一个生成大量查询的小模型,或者使用一个生成较少查询但质量更高的大模型(两者成本相同)。他们的预测在解决如何在进行红队时最有效地分配计算预算方面很有用——在选择至关重要的情况下,他们的方法在 79% 的时间内确定了最优模型。

然而,Anthropic 团队的这一方法也并非完美,其实际效用取决于未来研究如何突破现有假设、扩展场景覆盖并增强鲁棒性。

在论文中, 他们给出了一些未来发展方向 ,这些方向可能会显著提高预测的准确性和实用性。例如,他们提到, 可以进一步探索如何为每个预测添加不确定性估计,以更好地评估预测的可靠性 ;他们还计划研究如何更有效地从评估集中捕捉尾部行为,这可能涉及到开发新的统计方法或改进现有的极端值理论应用;他们还希望将预测方法应用于更广泛的行为类型和更自然的查询分布,以验证其在不同场景下的适用性和有效性。

此外, 他们还计划研究如何将预测方法与实时监控系统相结合,以便在模型部署后能够持续评估和管理风险。 他们认为,通过实时监控最大引出概率,可以更及时地发现潜在的风险,并采取相应的措施。这种方法不仅可以提高预测的实用性,还可以帮助开发者在模型部署后更好地理解和应对可能出现的问题。

总的来说, 这一方法为 LLM 罕见风险预测提供了统计学基础,有望成为模型安全评估的标准工具,帮助开发者在“能力迭代”与“风险控制”间找到平衡。

编译:陈小宇

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
就在刚刚,39家A股上市公司发布重大利好 利空消息,看看都有哪些?

就在刚刚,39家A股上市公司发布重大利好 利空消息,看看都有哪些?

股市皆大事
2026-01-19 18:34:48
U23国足VS越南,开球时间变晚,裁判非西亚,越足协发高额赢球奖

U23国足VS越南,开球时间变晚,裁判非西亚,越足协发高额赢球奖

体育大学僧
2026-01-19 10:57:07
男生考上北大被父亲暴打,走投无路报警,才知父亲真实身份

男生考上北大被父亲暴打,走投无路报警,才知父亲真实身份

纸鸢奇谭
2024-10-02 19:26:12
俄柬菲免签了,明星们却扎堆北海道

俄柬菲免签了,明星们却扎堆北海道

生活时尚导刊
2026-01-19 22:00:12
东莞地铁网络越来越密,332路,917路“最长公交”还能撑多久?

东莞地铁网络越来越密,332路,917路“最长公交”还能撑多久?

小鹿姐姐情感说
2026-01-20 00:17:33
回来了!神舟二十号以无人状态返回,带回一套衣服

回来了!神舟二十号以无人状态返回,带回一套衣服

农民日报
2026-01-19 14:35:18
快手变快播?深夜上万直播间同时"搞黄色"裸聊,年度最大网络事故

快手变快播?深夜上万直播间同时"搞黄色"裸聊,年度最大网络事故

派大星纪录片
2025-12-23 16:49:00
“我不卖酒,你也不许卖”——世俗空间被挤占的荒诞一幕

“我不卖酒,你也不许卖”——世俗空间被挤占的荒诞一幕

西域都护
2026-01-17 11:56:02
睡前吃瑞舒伐他汀有危害?劝告:多人服药方式是错的,答案来了

睡前吃瑞舒伐他汀有危害?劝告:多人服药方式是错的,答案来了

荆医生科普
2026-01-19 17:55:01
国足创造历史,亚足联公开站队!中越大战前夕,一席话期盼胜利

国足创造历史,亚足联公开站队!中越大战前夕,一席话期盼胜利

十点街球体育
2026-01-19 21:26:49
暴跌70%,一年消失32万家!曾月入5万暴利烟酒店,为何一夜崩塌?

暴跌70%,一年消失32万家!曾月入5万暴利烟酒店,为何一夜崩塌?

复转这些年
2026-01-10 23:47:01
荷兰内部开始批斗经济大臣,质问他抢夺中资安世公司时没考虑后果

荷兰内部开始批斗经济大臣,质问他抢夺中资安世公司时没考虑后果

我心纵横天地间
2025-12-09 10:47:45
三年素颜无人问,领导一句“化妆吧”,隔天全公司笑不活了!

三年素颜无人问,领导一句“化妆吧”,隔天全公司笑不活了!

夜深爱杂谈
2026-01-19 20:05:51
中美两国突然都悟到了!只要甩开中国,美国就能满世界薅羊毛

中美两国突然都悟到了!只要甩开中国,美国就能满世界薅羊毛

扶苏聊历史
2025-12-30 17:23:03
苹果官宣,NFC 全面开放!

苹果官宣,NFC 全面开放!

果粉俱乐部
2026-01-17 13:30:03
大连儿童医院一保安全身挂满玩偶,网友认出他是两年前爆火的“玩具侠”,同事:他出名后并未离开,正在上班

大连儿童医院一保安全身挂满玩偶,网友认出他是两年前爆火的“玩具侠”,同事:他出名后并未离开,正在上班

极目新闻
2026-01-19 11:15:23
如果不开心,就去看李湘这个评论区,我真的快笑趴了

如果不开心,就去看李湘这个评论区,我真的快笑趴了

一只番茄鱼
2025-10-15 08:02:26
“女儿被人骑了一圈”,浙江家长情绪崩溃:那个小男孩把她当马

“女儿被人骑了一圈”,浙江家长情绪崩溃:那个小男孩把她当马

泽泽先生
2026-01-18 21:18:06
江苏省环保集团有限公司党委书记、董事长方斌斌被查

江苏省环保集团有限公司党委书记、董事长方斌斌被查

扬子晚报
2026-01-19 18:00:00
1月20日影响市场大事件

1月20日影响市场大事件

每日经济新闻
2026-01-19 21:06:58
2026-01-20 04:44:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

时尚
亲子
家居
公开课
军事航空

女人过了40岁真该看看这些穿搭,不老气、不单薄,简单又耐看

亲子要闻

宝妈必学,孩子不懂对侵犯说不,任何人都有可能是坏人!

家居要闻

隽永之章 清雅无尘

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版