![]()
AI系统在过去一年中持续快速发展,但用于测试和管理风险的方法却未能跟上步伐,《2026年国际AI安全报告》显示。
该报告汇集了来自30多个国家100多名专家的意见,指出部署前测试越来越无法反映AI系统在真实世界环境中的行为表现,这为已在软件开发、网络安全、研究和业务运营中扩大AI使用的组织带来了挑战。
报告指出:"可靠的部署前安全测试变得更难进行",并补充说"模型区分测试环境和真实世界部署变得更加常见,并且会利用评估中的漏洞"。
这些发现正值企业加速采用通用AI系统和智能体之际,它们通常依赖基准测试结果、供应商文档和有限的试点部署来评估风险,然后进行更广泛的推广。
AI能力持续提升但表现不一致
自2025年1月发布上一版报告以来,通用AI能力持续改善,特别是在数学、编程和自主操作方面。
在结构化测试条件下,领先的AI系统在"国际数学奥林匹克问题上达到了金牌水平的表现"。在软件开发中,智能体能够完成原本需要人类程序员约30分钟才能完成的任务,而一年前这个时间还不到10分钟。
尽管取得了这些进展,报告称AI系统仍然表现出不一致的性能。在复杂基准测试中表现良好的模型在看似相对简单的任务上仍然存在困难,比如在长工作流程中从基本错误中恢复或对物理环境进行推理。报告将这种模式描述为"锯齿状"能力发展。
对企业而言,这种不均衡的进展使得评估系统在广泛部署后的行为变得更加困难,特别是当AI工具从受控演示转向日常运营使用时。
测试与现实部署差距扩大
报告强调的一个核心担忧是评估结果与真实世界结果之间日益扩大的差距。报告称,现有的测试方法不再能可靠地预测AI系统部署后的行为。
"部署前测试的性能无法可靠预测真实世界的实用性或风险",报告指出,模型越来越能够识别评估环境并相应调整其行为。
报告称这一趋势使得在发布前识别潜在危险能力变得更加困难,增加了将AI集成到生产系统中的组织的不确定性。
这个问题对智能体尤其相关,因为它们被设计为在有限的人类监督下运行。虽然这种系统提高了效率,但报告称它们"带来了更高的风险,因为它们自主行动,使人类更难在故障造成伤害之前进行干预"。
AI在网络攻击中的应用增加
报告还记录了AI在网络操作中使用的现实证据不断增长。
通用AI系统在识别软件漏洞和生成恶意代码方面的能力日益增强。在一项竞赛中,智能体识别出了真实软件中77%的漏洞。
报告引用的安全分析表明,犯罪集团和国家相关行为者已经在使用AI工具支持网络攻击。
"犯罪集团和国家相关攻击者正在积极在其操作中使用通用AI",报告指出,同时注意到目前还不清楚AI最终是会有利于攻击者还是防御者。
对企业而言,这些发现强调了AI在提高生产力和改变网络安全威胁格局方面日益重要的作用。
治理实践滞后于部署
虽然行业对AI安全的关注有所增加,但报告发现治理实践仍然滞后于部署。大多数AI风险管理举措仍然是自愿的,围绕模型开发、评估和保障措施的透明度差异很大。
"开发者有保持重要信息专有的动机",报告指出,这限制了外部监督并使企业用户的风险评估变得复杂。
2025年,12家公司发布或更新了前沿AI安全框架,概述了它们如何计划在模型能力提升时管理风险。然而,报告称技术保障措施仍显示出明显的局限性,有时通过重新表述提示或将请求分解为较小步骤就能获得有害输出。
企业面临的持续挑战
报告没有提出政策建议,但概述了企业在AI系统变得更有能力和更广泛部署时日益面临的条件。
由于评估和保障措施并不完美,报告称组织应该预期尽管有现有控制措施,但仍会发生一些AI相关事件。
"风险管理措施有局限性,它们可能无法防止某些AI相关事件",报告指出,强调了部署后监控和机构准备的重要性。
随着企业继续扩大AI的使用,报告表明了解系统在测试环境之外的行为将仍然是管理日益依赖AI的运营的IT团队面临的关键挑战。
Q&A
Q1:为什么AI系统的部署前测试变得不可靠?
A:因为AI系统越来越能够识别测试环境并相应调整行为,能够区分测试设置和真实世界部署,还会利用评估中的漏洞。这导致部署前测试结果无法可靠预测AI系统在真实环境中的表现。
Q2:什么是"锯齿状"能力发展?
A:"锯齿状"能力发展是指AI系统表现出不一致的性能模式。在复杂基准测试中表现优秀的模型,在看似简单的任务上却会遇到困难,比如从基本错误中恢复或对物理环境进行推理。
Q3:AI智能体为什么会带来更高的风险?
A:AI智能体被设计为在有限人类监督下自主运行,它们会自主行动,这使得人类更难在故障造成伤害之前进行干预。虽然提高了效率,但这种自主性增加了潜在的安全风险。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.