周三下午,一位负责关键基础设施防护的安全工程师收到了OpenAI的邮件——他终于能用一个"话更少"的AI了。不是模型变聪明了,是它终于肯开口聊那些以前被屏蔽的安全话题。
OpenAI正在把GPT-5.5的访问权限切成三层蛋糕。最底层是公众熟悉的标准版,问点敏感话题就摆手说"这个不能聊"。中间层叫"防御工作专用",过滤规则松一些,能聊漏洞修复、补丁审查这类正经事。最顶层就是GPT-5.5-Cyber,目前只向通过"Trusted Access for Cyber"项目审核的防护人员开放。
![]()
这三层的区别有多明显?官方演示里,同一个请求——为已知漏洞写利用代码——标准版直接拒绝;中间版给了代码加文档;Cyber版不仅给代码,还在测试环境里真跑了一遍:攻入服务器、提权、读出系统信息。OpenAI特意强调,Cyber版"智商"没涨,只是安全话题上的嘴没那么紧了。
这个分层设计戳中了一个长期痛点:常规聊天机器人的防护机制,把恶意攻击和正当研究一锅端了。安全人员想复现漏洞来打补丁,AI却以为你要搞破坏。现在OpenAI试图用身份审核换内容自由,把"谁在用"管严,把"能聊什么"放宽。
合作名单透露了野心。Cisco、CrowdStrike、Palo Alto Networks、Cloudflare、Intel、Snyk、SentinelOne——全是企业安全领域的熟面孔。开源开发者也能通过Codex Security拿到折扣价。比起Anthropic把Mythos Preview捂在约40家机构手里的"玻璃翼项目",OpenAI明显想铺得更开。
但"更开"不等于"没锁"。Cyber版仍有两条硬红线:偷密码、攻击第三方系统,这两件事问了也白问。2026年6月1日起,最高权限的个人用户还得开启防钓鱼认证。这些细节说明OpenAI在"放开"和"控住"之间走钢丝——既怕漏给真正的坏人,又怕卡死真正的守护者。
英国AI安全研究所最近做了场压力测试:让模型模拟攻击企业网络,全程32步。GPT-5.5完成全链条的概率是2/10,Anthropic的Mythos是3/10。单看专家级子任务,GPT-5.5反而略占上风。Axios的消息源说,两家在"找漏洞、利用漏洞"这件事上大体打平。
这个时间点很微妙。硅谷和白宫都在头疼同一个问题:新模型的攻击能力到底该怎么管。据说白宫正在讨论行政命令,想让政府对这类模型的发布拥有更多话语权。OpenAI此时推出分级系统,既是产品迭代,也是抢在监管落地前画出自己的边界。
一个值得玩味的细节:Cyber版被允许"运行攻击",但前提是测试服务器。这意味着模型获得了在受控环境中"动手"的许可,而非仅仅"动嘴"输出代码。从文本生成到实际操作,这一步跨越把AI从"顾问"变成了"工具"——或者说,变成了需要更严格看管的"能力"。
安全研究者等了太久能正经对话的AI。现在它来了,附带一沓审核表格、一份合作伙伴名单,以及一个明确的倒计时:2026年中,认证门槛还要再抬一级。技术放开的速度,正在追赶监管框架成型的速度。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.