![]()
传统安全漏洞赏金最高能拿10万美元,但AI系统被"忽悠"去干坏事该值多少钱?OpenAI刚给这个问题标了价。
一个程序,两套班子
OpenAI在Bugcrowd平台上线了一个新赏金项目,专门收"AI滥用和安全风险"的漏洞报告。这和他们2019年就有的安全漏洞赏金计划是平行关系,但审查团队完全不同——安全团队管传统漏洞,安全+赏金联合团队管AI特有的麻烦。
你的报告投进来,先由两边一起初审。如果发现是传统的未授权访问、数据泄露,直接转去安全赏金计划;如果是AI被诱导干坏事,留在这个新池子里。
这种分流机制说明一件事:OpenAI内部已经意识到,AI系统的风险不能再用防火墙思维来框定。
明码标价的3类"AI专属"风险
新计划把赏金范围锁死在三个类别,每个都有明确的验收标准。
第一类:Agentic Risks(智能体风险),含MCP协议相关
这是赏金最高的领域。覆盖场景包括第三方提示注入、数据外泄——攻击者通过构造特定文本,劫持用户的AI智能体(如Browser、ChatGPT Agent等)执行有害操作或泄露敏感数据。
![]()
门槛很具体:行为必须能在至少50%的尝试中复现。大规模执行禁用操作或潜在有害行为的报告,也在收录范围内。
MCP(Model Context Protocol,模型上下文协议)被单独点名,因为这是OpenAI推动的AI工具连接标准。如果攻击者能通过MCP通道操控智能体,整个生态的信任基础都会动摇。
第二类:OpenAI专有信息泄露
模型生成内容时意外暴露推理相关的内部信息,或其他机密数据泄露,都在悬赏范围内。这针对的是"模型说漏嘴"的情况——比如训练数据中的敏感细节被诱导输出。
第三类:账户与平台完整性
绕过反自动化控制、操纵账户信任信号、规避账户限制/封禁等。简单说,就是抓那些试图批量养号、伪装正常用户的灰产操作。
明确拒收:什么不算数
OpenAI列了黑名单,节省双方时间。
通用越狱(jailbreak)只产出粗鲁语言或公开信息的,不收。没有可证明的安全或滥用影响的内容策略绕过,也不收。
![]()
但有个后门:OpenAI会不定期开"私密赏金活动",针对特定危害类型——比如ChatGPT Agent和GPT-5的生物风险内容问题。想参与这类定向狩猎,得等邀请。
需要未授权访问功能、数据或超出许可权限的能力?去安全赏金计划,这边不管。
为什么现在做这件事
2023年GPT-4发布后,提示注入攻击的案例开始规模化出现。研究人员发现,让AI助手忽略之前的指令、执行攻击者嵌入在邮件/网页里的恶意指令,成功率远高于传统钓鱼。
传统安全框架的设计假设是:系统有明确的权限边界,攻击者需要突破这层边界。但AI系统的边界是模糊的——它"理解"用户意图,而意图可以被操纵。
OpenAI这次把赏金范围扩展到"非传统安全漏洞但造成实际危害"的场景,等于承认:AI引入了一个全新的攻击面,现有的安全工具箱不够用。
通过把安全研究和传统漏洞披露并行激励,他们试图建立一套AI特有的威胁建模框架。这不是慈善,是基础设施投资——如果AI Agent要成为下一代计算平台,必须先解决"被一句话骗走"的信任危机。
研究人员现在可以直接通过OpenAI在Bugcrowd的Safety Bug Bounty页面申请参与。赏金金额未公开披露,但参考安全计划的历史数据,高危漏洞通常在5000-10000美元区间,特别严重的案例有突破6位数的记录。
一个值得玩味的细节:OpenAI把复现门槛定在50%。这意味着他们更想要系统性、可工程化的攻击路径,而非偶发的奇技淫巧——这恰恰是AI安全研究从学术玩具走向工业级防御的分水岭。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.