网易首页 > 网易号 > 正文 申请入驻

第一名方案公开,代码智能体安全竞赛,普渡大学90%攻击成功率

0
分享至

你的 AI 编程助手有多安全?也许比你想象的要脆弱得多。近期多项研究 [1-2] 表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患;而在恶意用户手中,这类模型还能显著加速恶意软件的构建与迭代,降低攻击门槛、缩短开发周期。许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题。

在亚马逊举办的针对代码智能体的安全比赛 (Amazon Nova AI Challenge) 中,普渡大学的团队PurCL作为红队以超过 90% 的攻击成功率获得比赛第一名,赢得 25 万美元奖金。

在比赛中,12 名团队成员耗时八个月和百万美元开发出基于 AI 认知建模的全过程红队系统,现开放给领域研究者共享使用。

他们的研究发现,对齐代码模型的关键问题在于把对齐技术扩大到复杂的真实领域问题中和提升模型推理的安全相关性。

  • 系统:https://github.com/PurCL/ASTRA
  • 论文:https://www.arxiv.org/abs/2508.03936
  • 网站:https://purcl.github.io/astra-web/
  • 官方报道: https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge

亚马逊代码模型安全比赛

亚马逊代码模型安全比赛是一场针对大模型代码安全的比赛。举办方邀请全球顶尖研究队伍提交科研企划,最终在 90 份企划中资助 10 个团队参加比赛,每个团队在半年的时间内获得了 25 万美元的科研基金和 100 万美元的计算资源。参赛团队分为红队和蓝队,蓝队在比赛方准备的模型上应用最新的安全对齐实践,红队则要在 200 轮对话内找到模型的安全漏洞。最终找到漏洞最多的红队,和最安全的蓝队分别赢得比赛胜利。

在这场比赛中,代码模型的安全被分成两个维度。第一个维度要求模型产生的代码符合安全代码规范,减少在实际产品中引入漏洞的可能。比如代码模型在写数据库程序时应当检查用户输入,小心避免 SQL 注入攻击。另一个维度要求模型拒绝可能会用于开发恶意软件的危险请求,如不能帮助用户写恶意软件。

普渡大学团队 PurCL 作为红队在各个蓝队系统中以平均超过 90% 的攻击成功率发现了模型的安全漏洞,获得比赛红队第一名,赢得 25 万美元奖金。PurCL 的研究发现,当前前沿的 AI 安全研究尚未解决真实世界中的模型安全问题。对代码等复杂领域的全面、有效对齐仍然是有挑战性的开放问题。

AI 模型安全评估

过去的大多数模型安全评估都在一个静态预先定义的数据集上进行。经典的例子包括不能让模型帮助合成生化武器。传统红队研究在这个基础上开发同义改写、说服、越狱等不同攻击,而蓝队研究,例如模型对齐,则聚焦对红队技术的防御。

传统研究忽视了真实世界系统中的重要挑战:真实的安全需求包括复杂的领域知识,而当前研究尚未确定已有蓝队技术是否能够在复杂领域中保持有效性。

AI 认知建模

PurCL 队伍提出用类似于人类认知科学的方式来建模 AI 对复杂领域的认知。人类认知科学的前沿研究将人类认知模型分为“问题”,“推演”,“解决方案”三个部分。

以人类的魔方游戏为例,“问题” 是一个被打乱的魔方,“推演” 是每次对魔方转动的策略,“解决方案” 则是重排的魔方。对于代码智能体来说,“问题” 是用户提出的请求,“推演” 是模型的中间推理步骤,而 “解决方案” 则是生成的代码片段。

图 1: 对 AI 智能体的认知建模

在这个框架下,已有蓝队研究大致可以分成三类:

对问题领域的分类过滤(危险输入识别)。识别输入的问题中是否包含恶意或误导性信息,并直接拒绝这类请求。

对推演步骤的加强。如 OpenAI 在最新模型上应用的 Deliberative Alignment 技术,利用模型的推理能力来分析请求背后的隐含意图和潜在影响,从而阻止恶意的请求。

对解决方案的分类过滤(危险输出识别)。识别解决方案中是否含有恶意或危险元素,并拒绝或修复对应的部分。

图 2: 蓝队技术建模

在这样的建模下,PurCL 的研究发现,对齐技术主要面临两大挑战:

在对于问题和解决方案的分类过滤中,一些领域专有的知识可能涉及安全分类器训练的盲区。他们发现,已有的顶尖安全分类器可以轻松防御常见话题上的 9 种越狱攻击技术;然而面对网络安全领域的话题,这些分类器的有效性降低到了 10% 以下。

图 3: 防御成功率。危险输入识别 (Guard) 和危险输出识别 (I/O Guard) 可以有效识别大多数越狱技术(Jail. Tech.). 而 ASTRA 可以将防御成功率降低到 10% 以下(图中未展示 ASTRA 的结果)

在基于模型推理的防御方案中,模型推理的过程并不可靠,留下被攻击的漏洞。他们发现,在模型拒绝危险请求的推理中,时常包含错误的归因。如果在输入的请求中解决了这些错误归因,即使拥有推理能力的模型也会忽略安全风险。

基于这样的观察,PurCL 团队构建了针对 AI 认知全过程的红队测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图,做到对复杂领域的全面建模和高效覆盖。推理路径分析检查模型的推理路径,并针对薄弱环节改写输入请求,探测模型是否真正理解请求背后的安全风险。

领域知识建模

PurCL 团队开发了 Enumerator 智能体。给定一个复杂的领域,它应用类似深度搜索的模式来枚举这个领域的知识结构,识别其中可能存在的安全风险和问题。为了在测试中高效响应不同模型的知识漏洞,这些知识结构被按照他们的相关性来组织。在测试过程中,如果一个模型在某个知识点犯了错误,这通常意味着在相关的别的知识点也可能出错,因此相关知识应当被优先测试。

以安全代码合规和恶意请求预防两个领域为例,PurCL 团队在这两个领域上构建了包含 2.28T (trillion) 和 1x10^28 个可能请求的问题搜索空间,他们发现所有的现有对齐方案都在覆盖率和大规模数据的有效性上有明显缺陷。

推理路径分析

PurCL 团队针对基于推理模型的蓝队系统,研发了 ASTRA 推理路径分析方法,用于发现并利用模型推理过程中的安全薄弱环节。不同于只看输入输出的传统红队测试,ASTRA 先离线为易错输入构建 “决策图”,由高能力模型生成合法拒绝路径。与目标系统交互时,ASTRA 获取目标模型的推理轨迹并比对决策图,判断其安全对齐程度。若存在缺失步骤、错误步骤或多余步骤,系统会据此自动生成针对性改写输入,绕过模型防护。例如,在自动驾驶案例中,ASTRA 通过补全无关格式校验诱使模型执行危险请求。该方法能系统揭示推理漏洞,生成高效攻击用例,显著提升红队测试深度,并为 AI 安全对齐研究提供新工具。

图 4: ASTRA 在 Reasoning Model 上的推理路径分析流程

SOTA模型测试结果

在比赛之外,PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。例如在 68.7% 的情况下 GPT-5 可能会帮助用户构建恶意代码;在 48.3% 的情况下 GPT-OSS-120B 可能会写不符合安全编码规范的程序。此外,基于这套系统,作为案例分析,PurCL 团队成员还通过实验证明了代码智能体例如Claude可以显著加速恶意勒索软件开发。

图 5: ASTRA 在 SOTA 模型上的攻击成功率(部分)

图 6: ASTRA 在 SOTA 模型上找到的不符合安全编码规范的代码比例(部分)

图 7: 在 ASTRA 帮助下队员用 Claude 尝试生成的勒索软件(本地断网实验后已安全删除)

模型对齐的研究不应该只停留在防御不同的越狱技术或改写策略。更严峻和显著的问题是如何把对齐技术扩大到复杂的真实领域问题中。此外,推理模型的安全也越发重要,例如如何可靠利用模型的推理技能,提高推理的安全相关性,减少在推理过程中暴露的安全漏洞等。

团队介绍

团队负责人

徐翔哲:普渡大学四年级博士生,研究代码智能体、程序分析。

沈广宇:普渡大学五年级博士生,研究 AI 安全。

核心贡献

苏子安:普渡大学四年级博士生,研究深度学习和代码智能体。

程思源:普渡大学四年级博士生,研究 AI 安全。

团队成员

代码和程序分析团队:郭进尧(一年级博士生),蒋家盛(二年级博士生)

AI 安全团队:郭含熙(三年级博士生),闫璐(四年级博士生),陈璇(四年级博士生),金小龙(三年级博士生)

导师

张翔宇:普渡大学 Samuel Conte Professor. 研究 AI 安全、程序分析、代码安全等。

张倬:哥伦比亚大学 Assistant Professor. 研究二进制安全、AI 安全、web3安全等。

王程鹏:普渡大学Postdoc, 博士毕业于香港科技大学。研究程序分析,智能软件审查等。

[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html

[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恒大蛀虫刘永灼,他挥霍败家的疯狂堪比许家印

恒大蛀虫刘永灼,他挥霍败家的疯狂堪比许家印

篮球看比赛
2026-03-28 12:14:02
特斯拉网约车停车场被曝光,大量 Model Y 标配后摄像头清洗装置!

特斯拉网约车停车场被曝光,大量 Model Y 标配后摄像头清洗装置!

新浪财经
2026-03-27 15:53:03
陈妍希红毯胖出新高度!臀肥大、后背勒出两层肉,裙子被撑到崩开

陈妍希红毯胖出新高度!臀肥大、后背勒出两层肉,裙子被撑到崩开

观察鉴娱
2026-03-28 10:00:00
陈赫第二任老婆张子萱,红毯大翻车!双马尾配白裙,被嘲又老又小

陈赫第二任老婆张子萱,红毯大翻车!双马尾配白裙,被嘲又老又小

一盅情怀
2026-03-28 15:39:06
广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

后仰大风车
2026-03-28 07:10:11
西方航运集体装死,中国甩出王炸逆势复航?这回老美怕是要气疯了

西方航运集体装死,中国甩出王炸逆势复航?这回老美怕是要气疯了

云舟史策
2026-03-28 07:23:54
意甲女主播秀脚法惊艳全场,网友:比罗马球员强多了

意甲女主播秀脚法惊艳全场,网友:比罗马球员强多了

乐道足球
2026-03-28 12:57:54
中国最丑18大建筑:南京卫生巾、昆山螃蟹,不忍直视!

中国最丑18大建筑:南京卫生巾、昆山螃蟹,不忍直视!

秘密即将揭晓
2026-03-25 16:56:26
王炸!最强新 iPhone 全曝光

王炸!最强新 iPhone 全曝光

果粉俱乐部
2026-03-28 13:00:03
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
昨晚跟闺蜜去洗澡,一脱衣服我才明白,女人和女人,真的不一样

昨晚跟闺蜜去洗澡,一脱衣服我才明白,女人和女人,真的不一样

i书与房
2026-03-04 16:26:24
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
好兄弟仗义出手!伊朗终于等到最大强援,特朗普万没料到的事发生

好兄弟仗义出手!伊朗终于等到最大强援,特朗普万没料到的事发生

沧海旅行家
2026-03-28 16:36:21
中国车击败日本!首登澳大利亚销量冠军宝座 打破28年垄断

中国车击败日本!首登澳大利亚销量冠军宝座 打破28年垄断

快科技
2026-03-26 15:05:09
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

世界圈
2026-03-28 12:17:52
泰国征兵拿张凌赫做广告 泰陆军发言人:支持!

泰国征兵拿张凌赫做广告 泰陆军发言人:支持!

看看新闻Knews
2026-03-26 21:37:02
奥运冠军刘璇:36岁结4次婚,都嫁给同一人,老公真实身份曝光!

奥运冠军刘璇:36岁结4次婚,都嫁给同一人,老公真实身份曝光!

拳击时空
2026-03-28 07:08:02
法足协主席:出于对德尚的尊重,世界杯结束前不再谈法国新帅

法足协主席:出于对德尚的尊重,世界杯结束前不再谈法国新帅

懂球帝
2026-03-28 00:05:05
摩根士丹利-中国房地产专题:漫长的季节(下行空间)

摩根士丹利-中国房地产专题:漫长的季节(下行空间)

finn的投研记录
2026-03-26 08:07:06
富人圈子里选儿媳铁律:美貌和文凭都是浮云,这3个品质缺一不可

富人圈子里选儿媳铁律:美貌和文凭都是浮云,这3个品质缺一不可

千秋文化
2026-02-15 20:12:48
2026-03-28 17:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12620文章数 142597关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

月租7000元的"废土风"房子火了 房东自称花了10万装修

头条要闻

月租7000元的"废土风"房子火了 房东自称花了10万装修

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

本地
亲子
数码
艺术
公开课

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

亲子要闻

为什么说人这辈子一定要生个孩子?

数码要闻

华硕新款商务本ExpertBook B3 G1,配置超丰富!

艺术要闻

细腻优雅的花卉静物画 | Henrietta Smith

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版