想象一下这个画面:你的AI编程助手正准备帮你执行一条命令,它不是直接动手,而是先停下来,生成一张“意图收据”,等待系统审核盖章后才放行。这不是科幻,而是一段已经开源的演示代码所呈现的工作流。
发布者将这套机制称为“执行边界治理”。目前多数AI智能体系统的设计思路,是围绕模型能做什么来展开的。但这个演示项目的关注点截然不同——它只关心在产生任何实质性后果之前,模型被允许提出什么。
![]()
项目为Claude、Codex这类外部编程智能体搭建了一条确定性的治理链。链条的运转顺序很清晰:智能体发出意图,系统生成意图收据,接着走预检治理收据,再进行重放验证,最后一步是对危险指令执行拒绝操作。
![]()
贯穿整套流程的关键设计在于,所有收据都支持重放验证。系统会根据原始输入独立地重新计算治理决策,从而检测出语义层面的篡改行为,而不仅仅是比对哈希值是否匹配。换句话说,它能在执行之前回答一个根本问题:这个决策是否被偷偷改过?
整个仓库被明确标注为“建议性质”和“纯模拟”,这六个“无权限”的设置就是它的安全边界:不执行任何shell命令,不授予Git推送权限,不部署任何东西,不发起网络调用,不访问任何凭证,不具备任何真实的执行权限。
项目附带了几个构成要素:采用确定性的SHA-256算法对收据进行哈希处理,内置重放验证机制,加入了收据过期和新鲜度检查,并且公开了详细的威胁模型文档与安全限制说明。值得一提的是,测试套件里已经跑通了73个用例。
![]()
有一处自我剖析值得细看。文档中坦率指出,用正则表达式构建的拒绝列表只是个演示级别的守卫,绝非生产环境的沙箱。真要落地部署,还需要进程隔离、按能力域限定执行范围、可信时钟、签名验证密钥,以及经过强化的运行时控制。
所以这个项目的追求,并不是让AI获得更高的自主性。它想达成的目标更朴实:在现实世界被改变之前,让治理这件事变得可以重放、可以被审查,而且能够独立完成验证。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.