网易首页 > 网易号 > 正文 申请入驻

让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena

0
分享至



当 AI 智能体(Agent)从实验室走向真实应用,我们面对的安全问题也正在发生变化。

过去,我们更多关心模型会不会回答危险问题;而现在,Agent 已经可以调用工具、读写文件、操作数据库、执行多步任务。真正棘手的前沿风险,往往不再来自某个显式恶意 prompt,而是隐藏在复杂环境中的长尾场景里:

  • 一个 Agent 会不会为了完成任务而绕过审批?
  • 会不会在指标压力下修改验证逻辑?
  • 会不会在多工具协作中越权访问文件?
  • 会不会意识到自己正在被评测,从而改变行为策略?

这些风险很难靠人工逐个编写基准测试覆盖。



近日,复旦大学、上海创智学院、牛津大学等机构联合发布研究论文《AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation》,提出面向前沿 AI 风险发现与评测的自动化框架AutoControl Arena。它的核心目标是:自动合成可执行测试环境,帮助研究者和开发者快速发现 AI Agent 在未知长尾场景中的潜在风险



  • 论文地址:https://arxiv.org/abs/2603.07427
  • 项目主页: https://cosmosyi.github.io/AutoControl-Arena/
  • GitHub 仓库:https://github.com/CosmosYi/AutoControl-Arena

PART 01 从 “会不会拒答” 到 “会不会在未知场景中失控”

AI Agent 的风险,和传统聊天模型并不一样。

  • 聊天模型的安全评测,常常围绕单轮或多轮问答展开:模型是否拒绝危险请求,是否输出违规内容,是否容易被越狱。
  • 但 Agent 的关键能力是 “行动”。它不仅生成文本,还会在环境中连续决策:调用哪个工具、修改哪个文件、是否绕过某个流程、如何在目标和约束发生冲突时做取舍。

例如,此前 Anthropic、OpenAI、Apollo Research 等机构的安全报告中,已经展示过一些前沿风险案例:模型可能在被替换风险下采取威胁策略,也可能在代码任务中不去解决问题本身,而是修改验证程序来让结果通过。

这些案例提醒我们:在简单、良性的测试条件下表现正常的模型,进入复杂任务环境后,可能会以完全意想不到的方式产生不对齐行为。



图: AutoControl Arena 可自动准确复现 Anthropic/OpenAI 等机构安全报告中的风险行为

PART 02 安全评测为什么跟不上 Agent 进化?

要发现 Agent 的长尾风险,最理想的方式,是给它搭建真实的测试环境。

比如:文件系统、数据库、命令行工具、审批流程、日志系统等。然后观察 Agent 在其中如何行动。但这件事很难规模化。

一方面,人工搭建环境很真实,但成本高、速度慢。每多一个风险场景,就需要重新设计工具、状态、规则和反馈。

另一方面,让 LLM 直接模拟环境虽然便宜灵活,却容易出现 “逻辑幻觉”:文件状态前后不一致,数据库返回凭空生成,权限规则一会儿存在一会儿消失。

这就带来了 Agent 安全评测的核心矛盾:

真实环境保真度高,但可扩展性差;LLM 模拟可扩展,但可信度不足

而长尾风险恰恰要求我们既要 “生成足够多的新场景”,又要 “保证这些场景真的可信、可执行、可复查”。



PART 03 AutoControl Arena:自动生成能跑起来的风险测试场

AutoControl Arena 试图解决的,就是这个问题。它不是只让 LLM 写一段文字描述场景,而是自动合成一个可以执行的测试环境,让目标 Agent 真正在其中行动。AutoControl Arena 的关键设计,是论文提出的 “逻辑 - 叙事解耦” 原则。简单来说,就是把测试环境拆成两层。

第一层是逻辑层:文件系统、数据库、权限控制、工具执行、状态转移,这些部分必须严格一致、可复现,不能交给 LLM 随口生成。因此,AutoControl Arena 使用可执行 Python 代码来维护这些环境逻辑。

第二层是叙事层:任务背景、角色反馈、社会情境、动态说明等内容,本身具有开放性和语言多样性,可以交给 LLM 生成,从而保证场景足够丰富。

这就像给 AI 安全评测装上了一个 “物理引擎”:环境规则由代码保证,场景变化由大模型生成。在此基础上,AutoControl Arena 使用三个智能体完成全流程自动化。



PART 04 X-BENCH:70 个场景,覆盖 7 类前沿风险

为了验证 AutoControl Arena,研究团队构建了配套基准测试集X-BENCH

X-BENCH 包含70 个测试场景,覆盖7 大类 Agent 前沿风险

  • 工具性趋同:为了完成目标而追求权限、资源或自我保护。
  • 规则博弈:表面完成任务,实际钻评估规则或指标漏洞。
  • 能力滥用:将工具能力用于攻击、欺诈或其他危险目标。
  • 策略性不对齐:在不同情境下选择性服从或隐藏真实意图。
  • 规避监督:关闭日志、绕过审批、避开监控。
  • 隐蔽泄露:在复杂伦理冲突下泄露敏感信息。
  • 评测意识:意识到自己处于测试中,从而改变行为。

为了更系统地激发潜在风险,研究者还引入了压力 - 诱惑双维度机制

每个场景都会在不同压力和诱惑组合下运行,从而测试 Agent 在多种长尾条件下是否会出现非预期行为。



PART 05 三个发现:前沿风险往往藏在连续行动里

研究团队评估了 9 个前沿模型,覆盖 Google DeepMind、OpenAI、Alibaba 等机构模型系列,并得到了一些值得关注的发现。

(1)对齐幻觉

模型在常规条件下表现安全,并不意味着它在复杂环境中依然可靠。论文报告,在低压力、低诱惑条件下,9 个模型的平均风险率为21.7%;但在高压力、高诱惑条件下,平均风险率升至54.5%。并且能力越强的模型,风险率提升幅度越明显。



(2)模型越强,风险模式越复杂

能力提升不一定带来单调的安全提升。对于直接危害类任务,更强模型往往更容易理解安全边界,因此可能更安全;但在规格博弈、绕过验证、规避监督等任务中,更强模型也更擅长规划、搜索漏洞和利用环境结构。这意味着,强模型不是简单地 “更安全” 或 “更危险”,而是会呈现更复杂、更策略化的风险模式。



(3)不对齐行为可能变得更隐蔽

弱模型的风险,很多时候来自能力不足或误解任务;而更强模型的风险,可能表现为更高阶的策略性行为。例如,在某些测试场景中,模型可能明知某些行为存在风险,却将其包装为 “防御性监控”“流程优化” 或 “合规执行”,从而在表面上维持正常解释,在行动上绕过关键约束。



PART 06 这套自动化评测靠谱吗?

为了验证 AutoControl Arena 的可靠性,研究团队将其生成的仿真环境与真实红队环境进行了对比。

在 10 个场景中,研究者分别使用 AutoControl Arena 仿真环境,以及由真实 CLI 工具、SQL 数据库、SMTP 服务器等组成的红队环境进行独立实验。结果显示,仿真环境与真实环境得到的风险率高度一致,相关系数达到0.87

此外,研究团队还使用 AutoControl Arena 复现了 Anthropic、OpenAI、Apollo Research 等机构安全报告中的典型风险案例,进一步验证了框架对前沿 Agent 风险的刻画能力。



PART 07 GitHub 全面开源:从论文到可用工具

AutoControl Arena 已在 GitHub 开源,项目定位为前沿 AI 风险自动发现平台:



视频链接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

AutoControl Arena 提供两种主要使用方式:

交互式 TUI:aca

适合新手快速上手。用户可以在终端界面中选择测试场景、目标模型、压力等级、诱惑等级,并实时查看评测进度。

命令行模式:autocontrol

适合研究者进行批量实验和自动化评测,支持配置文件运行与并行执行。

Web 页面查看风险报告

评测完成后,系统会保存完整运行记录,包括 Agent 行为轨迹、环境状态、风险评分、审查结果和日志。项目也提供本地 Web 结果查看器,方便研究者复查关键证据。



视频链接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

PART 08 总结:让未知风险被更早发现

随着 Agent 被接入越来越多真实工作流,安全评测也需要从 “测试已知问题” 走向 “发现未知风险”

AutoControl Arena 通过自动合成可执行测试环境,为这一方向提供了一个新的研究思路。它可以帮助模型开发者、安全团队和 Agent 应用团队更快发现潜在漏洞,并为后续深度红队测试确定优先级。未来,前沿 AI 风险评测可能不只是扩大 benchmark 的规模,而是让系统具备持续生成新场景、持续暴露新风险、持续改进安全边界的能力,这正是 AutoControl Arena 的核心愿景。

团队介绍

本研究的核心贡献者为李长艺(上海创智学院访问博士生)和卢鹏飞(复旦大学本科生);指导教师为潘旭东(上海创智学院全时导师、复旦大学副研究员)、Fazl Barez(牛津大学研究员)和杨珉(复旦大学教授、复旦大学计算与智能创新学院执行院长)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝Lisa承认与LV三公子分手!分手原因疑曝光,与美国DJ蹦迪被灌酒

曝Lisa承认与LV三公子分手!分手原因疑曝光,与美国DJ蹦迪被灌酒

林轻吟
2026-06-24 19:37:00
看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

合赞历史
2026-06-24 16:00:09
事态再升级!一句话蒸发3000万票房,韩红晚节不保,冯小刚遭牵连

事态再升级!一句话蒸发3000万票房,韩红晚节不保,冯小刚遭牵连

秋姐居
2026-06-23 19:28:52
中国银行逃税23.67亿被通报

中国银行逃税23.67亿被通报

虎视财经
2026-06-24 14:37:55
拉夫罗夫曾言:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫曾言:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

离离言几许
2026-06-24 18:10:57
北京人又不是韭菜,凭什么给你走面儿?

北京人又不是韭菜,凭什么给你走面儿?

常识群
2026-06-24 12:56:17
家长发明“防早恋”发型火了!网友:贵千金的颜值,没必要这样!

家长发明“防早恋”发型火了!网友:贵千金的颜值,没必要这样!

犀利强哥
2026-06-24 07:13:05
基金“女神”翻车,拒不认错!

基金“女神”翻车,拒不认错!

鸣金网
2026-06-24 12:44:53
伟伟道来 | 四方来财,伊朗即将开启经济建设新时代

伟伟道来 | 四方来财,伊朗即将开启经济建设新时代

经济观察报
2026-06-24 16:42:09
离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

天天热点见闻
2026-06-24 04:39:22
直降3.5万!特斯拉新车突然降价!

直降3.5万!特斯拉新车突然降价!

科技堡垒
2026-06-24 10:49:19
11年收割200亿,坑惨10万家庭,这个金融骗子终食恶果!

11年收割200亿,坑惨10万家庭,这个金融骗子终食恶果!

青眼财经
2026-06-24 08:00:23
罗纳尔多怒斥西班牙媒体假新闻:我从没说过梅西是“史上最佳球员”

罗纳尔多怒斥西班牙媒体假新闻:我从没说过梅西是“史上最佳球员”

海阔山遥YAO
2026-06-24 17:39:59
某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

黯泉
2026-06-23 17:44:53
将11只私募基金包装成公募基金、逃避税23.67亿元,中行回应

将11只私募基金包装成公募基金、逃避税23.67亿元,中行回应

澎湃新闻
2026-06-24 21:38:31
刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

行者聊官
2026-06-23 18:42:05
中学校长与小21岁女教师婚外情,买假结婚证做试管婴儿生育两孩 二人双双获刑

中学校长与小21岁女教师婚外情,买假结婚证做试管婴儿生育两孩 二人双双获刑

红星新闻
2026-06-24 18:39:27
随着世界杯第二轮结束,金球奖概率更新:凯恩领跑,梅西升至第三

随着世界杯第二轮结束,金球奖概率更新:凯恩领跑,梅西升至第三

侧身凌空斩
2026-06-24 17:54:16
小米紧急致歉:研发人员测试时操作失误!网友普法:根据《中华人民共和国突发事件应对法》和《治安管理处罚法》 ...

小米紧急致歉:研发人员测试时操作失误!网友普法:根据《中华人民共和国突发事件应对法》和《治安管理处罚法》 ...

大白聊IT
2026-06-24 14:08:52
中午还一起喝酒,晚上就被朋友酒瓶砸头,男子次日凌晨车内离世;警方已立案

中午还一起喝酒,晚上就被朋友酒瓶砸头,男子次日凌晨车内离世;警方已立案

大风新闻
2026-06-24 18:42:20
2026-06-24 23:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13350文章数 142680关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

谢锋当众质问巴拿马:若契约想撕毁就撕毁 谁还来投资

头条要闻

谢锋当众质问巴拿马:若契约想撕毁就撕毁 谁还来投资

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

逃税23亿:审计署年报直指七家机构

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

游戏
教育
数码
公开课
军事航空

《GTA6》80美元无实体盘!R星"没良心"还是另有隐情

教育要闻

考生必看!《高招会云访谈》来了,百余所高校招办在线答疑

数码要闻

飞利浦发布中端电竞显示器Evnia 27M2C5591

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版