GPT-5.6系列模型刚刚发布,它自称是下一代模型,不过真正的意义,是美国政府对前沿大模型的监管,正在进入一个新阶段。
OpenAI这次推出的是一个受限预览版:GPT-5.6 Sol、Terra、Luna三款模型先只开放给一小部分“可信合作伙伴”,而这些参与者名单已经提交给美国政府。与此同时,Anthropic的Mythos 5在被突然叫停之后,又被允许重新部署给部分网络防御机构和关键基础设施运营商;更面向公众和企业通用场景的Fable 5,则仍在与政府商谈重新开放。
这几件事情放在一起看,意义远远超过一次模型发布受阻。美国政府对前沿AI的治理,正在从过去的监管AI公司,转向直接管理模型能力和模型部署,但这一做法也遭到AI治理专家的批评。
![]()
(GPT-5.6自称为下一代模型,在一些关键指标上超过Claude Mythos/Fable 5,来源:openai.com)
前沿大模型的战略能力
美国政府最在意的是网络安全能力,尤其是从发现漏洞转向利用漏洞的能力。过去,AI能够辅助写代码、审查代码、解释漏洞,更多被视为生产力工具。但当GPT-5.6、Mythos这类模型能够参与长周期漏洞研究、生成利用链条、协助渗透测试、自动修补或攻击软件系统时,事情性质就变了。对政府来说,这种能力具有天然的双重属性:它可以帮助防御者加速修补开源软件和关键基础设施,也可能帮助攻击者自动化网络攻击。
GPT-5.6的系统卡明确把Sol、Terra、Luna都列为网络安全高能力模型。OpenAI同时强调,它们还没有达到“Cyber Critical”的最高风险等级,因为在测试中模型尚未自主完成针对加固目标的端到端攻击。但政府并不只看当前基准测试,它担心的是,模型如果与工具、脚本、代理框架、浏览器、代码执行环境和外部情报结合,就可能越过单一评测所能覆盖的边界。
第二类能力是生物与化学风险。GPT-5.6同样被OpenAI列为生物与化学领域的高能力模型。这里的担忧是它是否降低非专业人员进入危险实验的门槛,例如帮助设计实验流程、排查湿实验失败、优化合成步骤,或者把分散知识组织成可执行方案。过去需要专业团队、实验经验和大量试错才能完成的危险任务,未来可能被模型压缩为可复制的操作流程。
第三类能力是智能体能力。GPT-5.6的“ultra”模式强调多子智能体协作,Sol在代码、网络安全和长周期任务上都有明显提升。一个接入工具、文件、代码库、网络环境和工作流的智能体,如果能连续数小时甚至数天执行任务,风险就变成了过程性风险。它可能越界调用工具,可能误解用户意图,也可能在复杂目标中采取未经授权的中间步骤。
第四类能力是AI自我改进。OpenAI称GPT-5.6尚未达到其AI 自我优化的高能力门槛;Anthropic也长期关注AI研发自动化和递归自我改进。这说明政府和企业都在关注同一个问题:如果模型不仅能帮助人类写代码,还能显著加速AI研究本身,那么模型就可能成为下一代模型的生产工具。到那时,监管对象不再是一个静态产品,而是一个加速技术前沿移动的生产系统。
第五类风险是外国访问和模型能力外流。Anthropic的Fable 5和Mythos 5被叫停,关键不只是因为某个越狱技巧,而是因为政府把模型能力视为可能被外国军方、情报机构或网络攻击组织利用的能力。美国对“外国人访问”的限制,甚至延伸到了美国境内的外籍员工,这本质上已经接近出口管制中的“视同出口”逻辑:即使技术没有离开美国,只要外国国籍人士获得了访问,也可能被视作敏感能力外流。
从自愿评测,到准入名单,再到出口管制
美国政府目前还没有形成一套成熟、统一、可预测的前沿模型监管制度。它采取的是一组拼接式工具进行敏捷监管。
第一是政府评估正在向预审批演变。特朗普政府6月的AI与网络安全行政令建立了所谓自愿框架,要求前沿模型开发商在更广泛发布之前,把模型提前提供给政府进行能力和安全评估。名义上这是自愿机制,但GPT-5.6的发布显示,它正在迅速变成事实上的预审批机制。
第二是分阶段部署。GPT-5.6没有直接全面发布,而是先给一小部分可信伙伴;Mythos 5也不是恢复公开访问,而是恢复给网络防御组织和基础设施提供商。这种方式类似药品临床、军品许可和关键技术出口之间的混合体:先小范围、可信对象、可监控使用,再视风险扩大开放。
第三是用户名单审查。OpenAI称参与预览的可信伙伴名单已经与政府共享。媒体报道显示,相关部门并非只有一个,而是包括商务部、财政部、白宫国家网络主任办公室、白宫科技政策办公室等。用户名单成为模型治理的新工具:政府不必直接写一条全国性禁令,只要决定哪些客户能先用,哪些客户不能用,就可以控制模型扩散速度。
第四是出口管制。Anthropic事件最具标志性意义的地方,是美国商务部以国家安全和出口管制权力,要求停止外国国籍人士访问Fable 5和Mythos 5。这是把“模型访问”当成受控技术来处理,而不是把模型简单视为互联网服务。由于Anthropic无法实时按国籍筛选全球用户,结果只能关闭两个模型的全部访问。可以预见,今后硅谷的科技公司,可能会对外籍员工进行某种隔离,而外籍人士在硅谷的初创公司,也无法第一时间使用最前沿的大模型。
第五是供应链风险工具。在Anthropic与五角大楼围绕军事用途的争执中,五角大楼将Anthropic列为供应链风险。这说明在国家安全体系里,模型供应商正在被当作关键技术供应链的一环。未来军方、情报机构和关键基础设施运营商采购AI模型时,可能不仅看性能和价格,还要看供应商是否可靠、是否愿意支持“所有合法用途”、是否可能因伦理或政治理由中断服务。
第六是持续监控与可撤回部署。Fable和Mythos事件说明,模型发布不再是终点。模型即使已经上线,也可能因为越狱、能力外泄、外国访问或军事用途争议被政府要求下架、限制或重新许可。美国正在形成一种“部署后监管”模式:模型上线后依然处于政府可重新评估的状态。
OpenAI与Anthropic:同样被监管,不同的政治站位
从表面看,OpenAI和Anthropic都被限制了。GPT-5.6只能对政府认可的少数用户开放,Mythos 5也只能重新开放给少数可信伙伴。但两家公司与政府的关系非常不同。
OpenAI采取的是合作式治理路线。它强调广泛访问,但愿意在短期内配合政府要求,把GPT-5.6先限制在可信合作伙伴范围内。OpenAI的公开表态很微妙:它承认需要与政府合作、需要建立可重复的发布流程,也同时强调这种政府准入程序不应成为长期默认制度。它的基本立场是:企业负责测试、安全栈和分层访问,政府可以参与评估,但不能把前沿模型变成永久审批制产品。
OpenAI自己的安全治理依托就绪框架(Preparedness Framework)。这个框架把高风险能力分成网络安全、生物化学、AI自我改进等类别,用High、Critical等等级来决定是否需要更强安全措施。GPT-5.6认为网络和生物化学达到High,但未达到Critical;AI自我改进尚未达到High。因此可以发布,但必须采用更强的多层防护,包括模型内训练、实时分类器、账户级监控、差异化访问、使用限制和持续红队测试。
Anthropic则是更强的企业伦理边界路线。它的责任的扩展政策(Responsible Scaling Policy)从一开始就是行业里最系统的前沿模型风险框架之一,用AI安全水平(AI Safety Levels)来对应不同能力等级,并要求达到更高能力时升级部署和安全标准。Anthropic更强调公司自身对模型用途的责任,也更愿意设置不可逾越的用途红线。
这种差异在五角大楼争执中表现得最清楚。Anthropic并不否认自己为国防部门提供服务,它也强调Claude可以支持情报分析、模拟、作战规划、网络行动等任务。但它坚持两个例外:不支持完全自主武器,不支持大规模国内监控。Anthropic的说法是,军事作战决策当然应由军方负责,但公司有权对高层用途类别设置边界。
五角大楼和特朗普政府显然不接受这一点。它们更倾向于认为,只要用途合法,政府而不是企业应该拥有最后决定权。这就是OpenAI和Anthropic待遇差异背后的深层原因:OpenAI在政府框架中寻找合作空间,Anthropic试图保留企业对模型用途的最终否决权;前者更像可监管的合作方,后者则被政府视为可能不可靠的关键供应商。
这并不是说OpenAI没有安全政策,也不是说Anthropic反对国家安全。恰恰相反,两家公司都深度参与国家安全叙事。但它们对谁拥有最后控制权的理解不同:OpenAI更愿意接受政府作为最终合法性来源;Anthropic更坚持模型开发者也承担伦理责任。
智能体,一种新型军民两用技术
传统军民两用技术包括芯片、卫星、激光、加密、航空发动机、先进材料。它们的共同特点是民用价值巨大,同时也能增强军事能力。今天的前沿大模型正在进入同一类别,但它比传统军民两用技术更难管理。
原因有三点:
第一,大模型不是一个实物,而是一种可通过API调用的能力。过去出口管制管的是设备、软件包、图纸、芯片、设备和技术资料;现在监管者面对的是一个远程调用的模型服务。能力可以通过云端提供,用户可以在全球任何地方访问,模型还可以被嵌入其他产品和工作流。
第二,大模型的军民边界高度模糊。网络漏洞研究既是防御也是攻击;生物实验设计既可用于药物研发也可用于武器风险;代码智能体既能提升生产力,也能生成恶意工具;军事模拟既可用于防御,也可用于打击规划。同一个能力无法简单按“向善”和“做恶”二分,必须结合用户、场景、权限、工具链和监控体系判断。
第三,大模型能力会快速扩散。今天只有Sol或Mythos具备的能力,几个月后可能出现在更小、更便宜、更开源的模型上。前白宫科技顾问鲍尔(Dean Ball)一语中的:以模型为单位监管很困难,因为模型只是浮点数集合,实验室会不断发布新模型,能力门槛也会因为算法效率提升而迅速变化。监管一个具体模型,可能很快过时。
因此,美国正在形成的是一种“能力型军民两用治理”。监管对象不是某个产品,而是模型在网络、生物化学、自主智能体、AI研发、军事和关键基础设施中的实际能力。治理工具也不再只是出口许可证,而是预发布评测、可信用户名单、分层访问、政府采购标准、供应链风险认定、持续监控和事故后召回。
事实上的模型许可制
鲍尔撰文提出了一个很重要的判断:特朗普政府原本声称建立的是自愿测试框架,但现实中已经演变为事实上的非自愿许可或预审批制度。
鲍尔并不认为政府关注AI风险是错的。相反,他承认前沿AI的灾难性风险是真实的,尤其是在网络、生物安全和未来自主能力方面。但他批评当前机制最大的问题是:没有人知道怎样才能“合规”。政府自己似乎也没有清晰标准。实验室不知道什么样的防护足以让模型公开发布,企业也不知道政府下次会不会突然叫停某个模型。
这就产生了政策不确定性。前沿模型训练成本极高,商业回报往往集中在发布后的几个月窗口期。如果每个模型都要等政府临时判断,每周延迟都会影响实验室收入、基础设施回报和AI投资逻辑。更大的风险是,限制过严会让最强模型只掌握在极少数政府批准的组织手中,反而削弱民主社会的广泛扩散和防御能力。
鲍尔的建议不是取消治理,而是把治理制度化。他建议以各大实验室的安全框架为起点,把州级要求联邦化,要求前沿实验室公开并提交安全与安保框架;同时建立独立验证组织,对实验室是否遵守自己的安全计划、是否有效治理内部AI研发自动化和递归自我改进进行审计。政府可以认证这些独立审计机构,企业获得认证后可以得到责任安全港、采购资格或市场认可。
参考:
https://openai.com/index/previewing-gpt-5-6-sol/ "Previewing GPT-5.6 Sol: a next-generation model | OpenAI"
https://www.anthropic.com/news/fable-mythos-access "Statement on the US government directive to suspend access to Fable 5 and Mythos 5 \ Anthropic"
https://www.hyperdimensional.co/p/what-should-be-done "What Should Be Done - by Dean W. Ball - Hyperdimensional"
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.