允中 发自 凹非寺
量子位 | 公众号 QbitAI
OpenClaw、Moltbook彻底火了。
2026年一开年,AI突然变了——从原来只会写诗、画图的聊天机器人,进化成了“行动式智能体”,能接管操作系统,能自主调用API,能替你发邮件、管财务。
但当AI真正拥有了“手脚”,恐慌也随之而来。
如果它误删了核心数据?如果它被一句话诱导“黑化”了? 传统“打补丁”的安全思维,在自主决策的智能体面前会瞬间失效。
智能体安全,正成为AI下半场最具挑战的赛道,也是智能体经济规模化落地的必经之路。
近日,江苏通付盾提出了一套极具前瞻性的智能体安全框架。 他们认为:AI产业化的前提,正从“能力优先”转向“信任优先”
- 基础层: 用节点化部署和数据容器,夯实AI的可信算力基座;
- 模型层: 引入数学逻辑的“形式化验证”,对齐超级智能;
- 应用层: 借力“本体论”构建风控大脑,看穿AI的每一个意图。
目前,这套逻辑已在通付盾最新的“大群空间”(LegionSpace)多智能体协同平台中落地。
![]()
在万亿级智能体经济爆发前夜,我们该如何构建一个既强大又听话的“数字大脑”?一起往下看。
智能体安全体系建设
人工智能已从技术突破阶段转向大规模应用阶段,在各行各业引发效率跃迁和商业模式变革,在能源、金融、制造等重点领域亦开始落地应用,随之而来的安全问题也越来越被市场所重视。
智能体安全应当从一个技术子课题,上升为决定产业智能化成败的核心前提与价值基石。
智能体并非单一应用,而是包含了从数据、算力、算法到业务场景的全链路复杂系统。
维护复杂系统的稳定可靠需要体系化的安全建设,通付盾将智能体安全体系分为三个大的维度:
- 基础层安全:核心包括算力安全与数据安全,确保智能体“躯体”的可靠与数据血脉的纯净;
- 模型层安全:核心包括算法安全和协议安全,赋予其“心智”以可验证的理性与对齐的价值观;
- 应用层安全:核心包括智能体安全运维与业务风控,为其在真实世界中的“行为”套上动态、精准的约束与评估机制。
同任何智慧生命一样,智能体是一个包含了感知与行动的复杂生命体,其安全性绝非单一的模型对齐或网络防护,而必须是一个贯穿其全生命周期、覆盖其完整行动栈的“生命保障系统”。
这要求我们摒弃“打补丁”式的传统安全思维,转而采用一种“内生安全”“零信任”相结合的设计哲学。
通付盾提出的“基础层-模型层-应用层”三层安全框架,正是对这一哲思的回应。
这一体系的最终目标是探索如何在赋予智能体高度自主性的同时,确保其行为永远被约束在人类预期的安全边界之内。
可信算力与数据:节点化部署与数据容器
1、节点化部署是保障算力与数据安全的物理基础
传统的中心化云计算模式将算力与数据汇聚于单一实体控制之下,构成了固有的单点故障与信任瓶颈。
为应对智能体,尤其是处理敏感数据的行业智能体所面临的严峻挑战,节点化部署提供了一种全新的韧性基础设施范式。
其核心在于将庞大的算力网络分解为一系列分布式的、具有独立可信执行环境的安全节点,再通过区块链等可信账本技术将这些节点连接起来。
每一个节点,无论是位于云端还是边缘,都通过其硬件安全区与密码学技术,为内部代码与数据的处理过程提供了一个受保护的“沙盒”环境。
关键的是,任务调度不再基于对基础设施提供商的盲目信任,而是转变为对计算过程本身的验证。
这种从“信任中心”到“验证过程”的根本转变,为算力与数据的处理构筑了可靠的物理与信任基础。
分布式消息分发(例如nostr)、点对点通信(例如libp2p)、零知识证明(例如zk-snarks)等技术,对构建该领域的最佳实践将起到重要作用。
2、数据容器是保障数据主权与隐私的核心载体
在节点化部署提供的可信基础上,数据容器技术构成了智能体数据的“细胞膜”与主权单元。
它远不止于一种数据封装格式,而是一个集成了动态访问控制、隐私计算引擎和全生命周期审计能力的主动防御载体。
每个数据容器都内嵌了其数据的使用策略、目的限制和生存周期规则。
当智能体需要处理数据时,遵循“数据不动算力动”的原则——计算任务被调度至数据所在的容器或可信节点中执行——通过可信执行环境或隐私计算技术在密态下完成分析,确保原始数据全程“可用不可见”
此外,数据容器本身可与分布式数字身份(DID)绑定,其所有的访问、使用及衍生行为均生成不可篡改的链上记录,从而实现数据主权的清晰界定与合规流转的精准审计。
这从根本上解决了数据协同中“孤岛”与“隐私”的矛盾,使高价值数据得以在保障主权的前提下安全参与价值交换。
3、从点至面:构建可信智能体协同网络
节点与数据容器的结合,最终目标是从离散的“点”构建成一张可规模化协作的智能体协同网络
每一个配备了数据容器的可信节点,都是一个具备自主性与安全边界的智能体基座。
它们通过标准的通信协议与共识机制相互连接,形成了多节点协同式的价值网络。在此网络中,智能体可以安全地跨节点发现、调度和协同,完成复杂任务。
由此,安全的个体通过标准化接口和可信规则有机整合,从独立的“点”演化为一个具有强大生命力和弹性的“面”,即支撑智能体经济繁荣的协同网络。
可信算法:基于形式化验证的“超级智能对齐”
人工智能领域先驱者伊尔亚·苏茨克维(Ilya Sutskever)提出的“超级智能对齐”(Superalignment)理论,为AI安全行业的建设指引了方向。
超级智能对齐的核心目标是确保AI的目标和行为与人类的价值、意图和利益保持一致,通付盾相信其核心在于模型和算法安全
模型层是智能体“意识”诞生的地方,也是其安全风险最深邃、最难以捉摸的源头。
大语言模型固有的“黑箱”特性、难以预测的“涌现行为”,以及为达成目标可能衍生的“规避策略”,都使得传统基于统计和测试的评估方法力有不逮。
![]()
△图片由AI生成
面对未来可能出现的、心智复杂度远超人类的超级智能体,如何确保其目标函数与人类价值观的“超级对齐”?答案或许在于为算法注入数学的确定性。
通付盾正致力于将形式化验证的方法论深度融入智能体的算法安全体系。
形式化方法要求首先将模糊的安全需求(例如“公平”“无害”“合规”),转化为用精确定义的形式化逻辑语言表述的规约。
利用自动定理证明器或模型检查等工具,对智能体的核心决策逻辑(可能是其策略网络、价值函数或推理模块)进行穷尽性或符号化的验证,以数学上严谨的方式证明:在给定的前提条件下,系统的行为永远不会违反上述规约。
这一过程深刻呼应了通付盾团队此前对“智能体不完备定理”的思考。
该定理指出,不存在一种终极指令能完美约束智能体的所有未来行为,其行为在复杂环境中本质上是“不可判定”的。
形式化验证并非天真地追求一个“完美的安全模型”,而是通过划定明确的、可证明的安全边界来应对这种不完备性。它像是在智能体复杂的决策森林中,开辟出一条条有坚固护栏的“可信路径”——
对于路径内的行为,拥有数学担保的确定性;对于路径外的未知领域,则触发更高级别的监控与审批机制。
这种“可组合的安全保障”思路,能够将针对不同子模块、不同安全属性的形式化证明,像积木一样组合起来,逐步构建起对复杂智能体系统整体的、层叠递进的可信论证。
形式化验证不仅可在模型层面提供安全保障,在底层密码算法层面亦有广阔的应用空间,尤其在量子计算即将突破之际,基于形式化验证的后量子安全密码可为智能体应用提供更加完备的安全保障。
随着量子计算能力的发展,当前广泛使用的非对称密码体系(如RSA、ECC)面临被破解的风险,智能体系统若依赖此类算法,其通信、身份认证与数据完整性需要重新评估其安全边界。
因此,通付盾将形式化验证应用于后量子密码算法的设计与实现,成为构建未来可信智能体基础设施的关键环节。
通过形式化方法,可严格证明密码算法在数学上的正确性、抵抗量子攻击的安全性,以及实现过程中无侧信道泄漏等属性。
例如,基于格的加密方案、哈希签名等后量子算法,可借助定理证明器(如Coq、Isabelle)进行机器验证,确保其即使面对量子计算机仍能维持保密性与认证强度。
这将为智能体在分布式节点间的安全通信、数据容器的隐私计算、以及跨链身份协调,提供长期可靠的密码学根基,使“信任优先”的智能体架构具备面向未来的抗量子韧性。
可信应用:基于本体论的智能体安全风控平台
当智能体携带着其经过验证的“心智”踏入瞬息万变的真实业务战场时,应用层的安全挑战才刚刚开始。
近期,以OpenClaw、Moltbook为代表的“行动式”智能体应用迅速流行,标志着AI正从信息处理向自主执行跨越。
![]()
这类智能体通过深度集成操作系统权限、外部API与通信工具,能够直接操作用户文件、发送邮件、管理任务乃至参与社交互动,在带来极致自动化便利的同时,也暴露了严峻的新兴安全威胁。
其核心风险在于:传统基于规则匹配与静态权限的防护模式,在面对智能体基于自然语言理解的动态决策、复杂上下文行为,以及多智能体协同涌现出的不可预测性时,已完全失效。
具体威胁表现为:
- 通过“提示注入”可诱导智能体越权执行操作;
- 脆弱的插件供应链成为恶意代码的注入渠道;
- 而智能体在开放式协同平台(如Moltbook)中的交互,更可能引发难以预见的风险传播与放大。
这些案例深刻揭示,智能体在应用层的安全已是一个涉及行为意图理解、实时语义推理与动态策略实施的全局性挑战,亟需超越传统规则的下一代风控范式。
为此,通付盾构建了基于本体论的智能体安全风控平台,其核心是将人类专家的领域知识、业务规则与威胁情报,转化为机器可深度理解、可实时推理的“数字世界语义地图”。本体论是对特定领域内概念、实体、属性及其相互关系的显式、形式化定义。
在智能体风控场景中,通付盾构建的已远非一个静态的标签库,而是一个动态生长的业务安全知识图谱
以能源领域为例,智能体安全风控平台将精确刻画“发电机组”“输电线路”“配变终端”“负荷用户”等实体,形式化地定义“电气连接”“物理依赖”“控制逻辑”等关系,以及“频率必须在额定范围”“拓扑结构需满足N-1准则”“用户负荷不得恶意篡改”等物理与安全规则。
这便将分散的SCADA数据、设备日志、网络流量和营销信息,统一映射到一个具有丰富语义关联的可计算模型中。
当多个智能体(如业务风控Agent、网络安全运维Agent、电力调度Agent)在InterAgent(IA)框架下协同时,风控平台便扮演着全局的“态势感知大脑”。
它能实时解读每个Agent的行动意图,并将其映射到本体图谱中,进行动态的关系推理与安全审查这种基于语义的深度理解,使得风控从对表面行为模式的匹配,跃升为对行为意图与业务上下文合规性的穿透式判断。
Trust is All You Need:构建信任优先的AI发展框架
当前,人工智能的发展正跨越一个关键的分水岭——
从追求模型能力的“野蛮生长”,进入构建可信应用的“精耕细作”时代
智能体作为AI能力与现实世界交互的核心载体,其安全性已绝非单一的技术子课题,而是决定整个产业智能化成败的价值基石与核心前提。
行业思维模式必须从“能力优先”转向“信任优先”,这并非一种选择,而是AI技术深入经济关键领域、承载公共信任的必然要求。
这意味着在智能体的设计、部署与运营全生命周期中,安全性不再是事后附加的合规成本,而是前置的、内生的核心价值。
智能体安全本质上是一项关于构建数字世界“信任基础设施”的系统工程,其重要性堪比互联网早期的TCP/IP协议与加密技术,是释放智能体经济万亿美元潜力的先决条件。
正因如此,智能体安全自身已演进为一个至关重要且高度独立的战略赛道。它汇聚了密码学、形式化方法、分布式系统、隐私计算等领域知识的尖端融合,催生出从可信硬件、安全协议到风险运营的全新产业生态。
![]()
在这个赛道上的领先,不仅意味着拥有化解风险的技术盾牌,更意味着掌握了定义下一代人机协同规则、构建可信商业生态的主动权。
正是秉承着“信任优先”的原则,通付盾在2025年已将“基础层-模型层-应用层”安全体系融入“大群空间”(LegionSpace)的产品设计中,打造出支持节点化部署的可信数据容器、基于形式化验证的算法与合约审计和基于本体论的智能风控平台。
未来,衡量AI企业竞争力的标尺,将不仅是其模型的参数规模,而是其是否能搭建安全可信智能体协同网络,实现多智能体在复杂业务场景下的稳定可靠运行。
Reference:
[1] OpenAI, Josh Achiam, Steven Adler, et al. “GPT-4 Technical Report.” arXiv preprint arXiv:2303.08774 (2023).
[2] Lightman, Hunter, Vineet Kosaraju, Yura Burda, et al. “Let’s Verify Step by Step.” arXiv preprint arXiv:2305.20050 (2023).
[3] OpenAI. “Deliberative Alignment: Reasoning Enables Safer Language Models.” arXiv preprint arXiv:2412.16339 (2024).
[4] Lee, Dongjae, Byungjin Kim, Seungone Kim, and Minjoon Seo. “Safeguarding Mobile GUI Agent via Logic-based Action Verification.” arXiv preprint arXiv:2503.18492 (2025).https://arxiv.org/abs/2503.18492.
[5] International Scientific Report on the Safety of Advanced AI (Interim Report). Edited by Yoshua Bengio, Sören Mindermann, and a multinational expert panel. arXiv preprint arXiv:2412.05282 (2024).https://arxiv.org/abs/2412.05282.
[6] Ouyang, Long, Jeff Wu, Xu Jiang, et al. “Training language models to follow instructions with human feedback.” Advances in Neural Information Processing Systems 35 (2022): 27730-27744.
[7] OpenAI. “The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections.” arXiv preprint arXiv:2510.09023 (2025).
[8] Bai, Yuntao, Saurav Kadavath, Sandipan Kundu, et al. “Constitutional AI: Harmlessness from AI Feedback.” arXiv preprint arXiv:2212.08073 (2022).
[9] Yang, Junfeng, Xin Chen, and Qin Li. “Formal Verification of Probabilistic Deep Reinforcement Learning Policies with Abstract Training.” In Proceedings of the 26th International Conference on Verification, Model Checking, and Abstract Interpretation (VMCAI 2025), 2025.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.