一个销售代理在五分钟内给同一个客户连发十二封邮件。另一个代理因为客户语气礼貌,直接退了4500美元。还有一位工程师整个周末都在重跑代理,试图复现一次无法解释的故障。
这些不是测试环境的意外。这是AI代理拿到真实工具和真实资金后的日常表现。
Tidiane正在收集这些故事。他创办了一家叫SafeRun的公司,专门解决一个被忽视的问题:现有的监控工具只能在事后告诉你"发生了什么",而不是在事前阻止它。
![]()
代理失控的三种典型死法
Tidiane过去几周密集访谈了在生产环境运行AI代理的工程师。同样的模式反复出现。
第一种是循环暴走。代理陷入某种反馈回路,重复执行同一动作直到被人工发现。那位连发十二封邮件的销售代理属于此类——系统没有内置的"你刚才已经联系过这个人"的检查机制。
第二种是权限越界。代理被赋予了退款、采购、数据查询等能力,但没有足够的约束条件。4500美元的退款案例里,代理把"客户请求"直接等同于"批准退款",中间跳过了验证余额、核对政策、人工复核等步骤。
第三种最隐蔽:不可复现的诡异行为。代理做了某件事,日志显示它做了,但没人能解释它为什么这么做。工程师花了整个周末重跑,试图用相同输入触发相同输出,失败了。这意味着问题可能藏在某个未记录的上下文状态、某个随机的模型行为,或者某个时序依赖里。
这三种模式的共同点是:发现即损失。现有的可观测性工具——日志、追踪、指标——都是事后诸葛亮。它们告诉你代理做了什么,但不阻止它做。
SafeRun的解法:从"记录"到"拦截"
SafeRun的定位是"内联验证层",坐在AI代理和它调用的工具之间。核心功能有四个:
第一,策略预检。每个工具调用在执行前必须经过策略验证。不是事后审计,是事前拦截。
第二,实时阻断。检测到不安全操作或循环模式时,直接终止执行。
第三,人工升级。模糊地带的行为进入人工审批队列,而不是自动执行。
第四,逐帧回放。这是工程师反馈中最被看重的功能——可以像看黑匣子一样,逐步查看每个输入、模型推理步骤、工具参数、策略判定结果、延迟和成本。并且可以从任意步骤重新运行,修改输入后观察不同结果。
Tidiane把它比作"AI代理的飞行记录器"。
为什么"回放"比"监控"更重要
传统监控回答的问题是:代理做了什么?
![]()
回放回答的问题是:代理为什么这样做?以及,如果某个变量不同,它会怎么做?
这对调试代理系统至关重要。与传统软件不同,代理的行为不是确定性代码路径的结果,而是模型推理、工具调用、环境状态的多重交互。同样的输入在不同时间可能产生不同输出,因为模型可能有随机性,因为外部API返回可能变化,因为代理自己的记忆状态在累积。
回放功能把这一切变成可观察、可干预的过程。工程师可以冻结某个决策点,修改假设条件,重新运行,对比结果。这不是测试环境的沙盒模拟,是生产数据的真实复现。
产品路线图与接入方式
SafeRun的早期版本将以Python装饰器形式发布,随后支持TypeScript。计划中的原生集成包括:LangGraph、OpenAI Agents SDK、Anthropic Claude Agent SDK、Vercel AI SDK、CrewAI、Mastra。此外还会提供MCP层代理,实现框架无关的覆盖。
目前开放waitlist注册,首批团队将在未来几周内接入。
一个反向的收集策略
Tidiane的公开请求很有意思:他不只是要用户,他要失败故事。
越奇怪越好。幻觉生成的工具参数、失控循环、未授权操作、成本螺旋、不便公开的客户事故——全部欢迎。这些故事将被匿名化处理,直接决定产品功能的优先级。
"我宁愿做对的事,而不是看起来 impressive 的事。"
这种姿态在当前的AI基础设施创业中并不常见。多数公司倾向于展示能力边界,强调"我们能做什么"。SafeRun选择先定义"我们要阻止什么",并且把定义权交给经历过真实损失的人。
这背后是一个未被充分讨论的趋势:AI代理正在从"演示玩具"进入"生产工具"阶段,而生产环境对错误的容忍度接近于零。一个写错代码的程序员会收到报错;一个发错邮件的代理可能直接造成客户流失或财务损失。
现有的安全框架——权限管理、审计日志、人工复核——大多是围绕人类操作者设计的。代理的操作速度、规模和不可预测性,让这些框架显得笨拙。SafeRun试图在代理和工具之间插入一个新的控制层,不是取代人类判断,而是把人类判断的触发点从"事后追责"前移到"事前拦截"和"事中升级"。
这是否足够?取决于代理的复杂度和策略的完备度。但至少,它承认了一个基本事实:在代理能够解释自己之前,我们需要能够冻结它、检查它、重跑它。
如果你有过类似经历,saferun.dev的waitlist和评论区都在开放。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.