Bengio领衔2026年国际AI安全报告：迎接风险与机遇博弈的治理挑战|算法|推理|bengio|2026年国际ai安全报告

Bengio领衔2026年国际AI安全报告：迎接风险与机遇博弈的治理挑战

分享至

2026年2月，由图灵奖得主约书亚·本吉奥（Yoshua Bengio）教授领衔、来自30多个国家和国际组织（包括欧盟、OECD、联合国）的100余位专家共同编撰的《2026年国际AI安全报告》（International AI Safety Report 2026）正式发布。这是继2025年首份报告后的又一总结性质的著作。在AI技术发展日新月异的今天，这份报告为我们揭示了哪些硬核趋势？相比去年，我们的处境是更安全了，还是面临着更复杂的变局？

跨越一年：2026与2025版的深度“复盘”与对比

在深入解读核心观点前，我们先来看看2026年版报告在视角和内容上发生了哪些关键演变。

范围收窄：聚焦“新兴风险”

相比2025年报告涵盖偏见、环境影响、隐私和版权等广泛议题，2026年版显著收窄了研究范围，将核心聚焦于“新兴风险”（Emerging Risks）。这意味着全球专家组认为，目前最迫切的威胁来自于通用AI能力“前沿”的滥用和网络安全风险。

预测升级：引入OECD的情境化建模

第一版报告更多是对现状的总结，而今年，报告与OECD及预测研究机构合作，首次呈现了更加具体的情境预测和路径分析。通过对计算能力（compute）、算法效率（algorithmic efficiency）和数据规模三大驱动因素建模，报告为政策制定者提供了直至2030年AI能力发展的四种可能走向。

他们分别是：

（1）进展停滞：受算力、数据或投资瓶颈限制，AI能力基本保持不变。

（2）进展放缓：边际收益递减，仅在受控环境下（如工厂、实验室）有较慢进展。

（3）持续进展：保持当前快速发展速度，AI成为“专家级协作者”。

（4）加速发展：AI开始参与AI本身的研发，形成正反馈闭环，达到或超过人类认知水平。

风险实证：强调“现实证据”

如果说2025年我们还在讨论AI可能带来的网络威胁，那么2026年的报告则指出：证据已经确凿。过去一年中，AI在发现软件漏洞和编写攻击代码方面的能力大幅提升，国家级攻击组织利用AI进行网络行动的案例已被频繁记录。

2026报告核心观点解读：AI正变得“聪明且危险”

在这份长达百页的报告中，我们提炼出以下几个维度的核心洞察：

能力“参差不齐地”进化 (Jagged Capabilities)

目前的AI呈现出一种“不稳定的智能性”：它能解决奥数金牌难度的数学题，却可能在数图片里有几个苹果这种简单任务上翻车。报告指出，领先系统在化学、法律等本科考试中得分超过90%，在奥数竞赛中达到金牌水平。但是其空间推理能力极差，且容易受到“幻觉”困扰，无法在没有人类干预的情况下独立执行多进程项目，这种"强复杂任务、弱简单任务"的能力分布，反映了当前AI系统的基本局限。

“推理系统”（Reasoning Systems）与“推理成本”的崛起

报告强调，性能提升不再仅依赖于模型规模的增加，更多来自于“后训练技术”和“推理时扩展”（Inference-time Scaling）。“推理系统”能够在最终答案前生产中间推理步骤，即“思维链”（Chain of thought）。2025年，Google的Gemini Deep Think和OpenAI的实验模型在结构化测试环境下解决了奥数金牌难度的问题。这种"推理时扩展"技术意味着：模型性能不仅取决于训练时的投入，还可在部署后通过分配更多计算资源来提升。当然，这种“深思熟虑”也会消耗更多算力，显著提高“推理成本”。

AI智能体（AI Agent）的崛起

AI智能体（AI Agent）被定义为能够在较少人工监督的情况下能够自主追求目标并执行任务的AI系统。其发展十分迅速，目前已经可以完成人类程序员约30分钟任务的软件工程任务（成功率80%），而且能处理的任务复杂度每7个月翻一番，已经被广泛应用于软件工程、研究、机器人控制、客户服务等领域。但也正因其有高度自主性，进一步带来了额外的风险，使得人类更难在故障造成伤害前提前进行干预，对于相关风险管控能力的要求进一步提升。

AI新型风险涌现

报告将通用AI新型风险划分为三类：恶意使用风险、故障风险和系统性风险。

其中“恶意”使用的三个重灾区是网络攻击、生物与化学风险和对人类信念的影响与操纵。网络攻击方面，AI代理在网络安全竞赛中已能自主识别77%的软件漏洞，进入前5%的水平。由AI所发起的网络攻击成了目前网络安全方面需要重点关注的对象。

生物与化学方面，通用AI系统可提供关于生物和化学武器开发的信息，顶尖模型在指导病毒实验规程方面的表现已超过94%的领域专家，多家公司已因无法排除其协助开发生物武器的可能性而对2025年后的新模型实施了严格管控，或是选择发布带有额外安全措施的新模型。

对人类信念的影响与操纵方面，目前报告指出，AI生成的说服性内容在改变人类信念方面已不亚于甚至优于普通人类专家。实验表明，在5分钟对话后，参与者将GPT-4o生成的文本误认为人类编写的比例达77%；听众在80%的情况下将AI语音克隆误认为真实说话者。

除了恶意风险和固有的故障风险（幻觉、失控等）之外，AI也面临着系统性风险的影响。一是劳动力市场中，AI可能自动化广泛的认知任务，尤其是可能替代部分早期知识性工作（如写作），但目前对总体就业的影响尚不确定；二是对人类自主性的分层，如AI伴侣应用可能会造成人类的心理依赖，导致相信自动化偏见或是批判性思维削弱等问题。

深度解读：我们该如何自救？

风险管理的核心矛盾在于：技术不可控与制度跟不上。AI的新能力往往突然涌现，模型内部机制却仍是黑箱，部署前的测试结果也难以预测实际风险。更棘手的是，开发商有动力隐瞒关键信息，开发速度又倒逼团队牺牲安全换取进度。

政策制定者往往面临“证据困境”（evidence dilemma）：过早采取行动可能导致无效甚至有害的干预措施，但是收集和评估其对社会的影响所需的证据需要时间，又可能使社会面临潜在风险影响。面对这种不确定性，报告提出了“深度防御”（Defence-in-depth）策略。报告强调，没有任何单一的防火墙是完美的，必须在多个层面共同筑起防线，例如事前靠威胁建模和能力评估设定危险阈值；事中用分类器、护栏、RLHF等技术手段拦截风险；事后通过事件报告和行业共享弥补漏洞。但这些措施都有明显短板——复杂攻击能绕过防护，开源模型的保障措施更易被拆除，一旦发布便无法召回。

没有万全之策，但可以通过建设社会韧性——在技术快速演进中构建适应性治理框架，并通过基础设施强化、公众教育及国际合作建设社会韧性，以应对不可避免的冲击。

结语

通用AI不仅是生产力工具，更是重塑社会契约的深层力量。正如Bengio教授在序言中所说，我们正在经历这一时代最重大的技术转型。理解风险，是为了更安全地拥抱繁荣。

数据来源：International AI Safety Report 2026，International AI Safety Report 2025

来源｜全球人工智能创新治理中心

作者 | 刘前昊、袁露铭

排版 | 蒲云涛

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.