告别“语义黑盒”：当 Agent 走进生产环境，我们如何驯服它的“不可预测”？|算法|调用|追踪|聚类|agent

分享至

作者 | QCon 全球软件开发大会

策划 | Kitty

编辑 | 宇琪

随着大模型 Agent 从实验原型迈向核心业务生产，工程化的重心正经历从“验证可行性”向“追求确定性”的本质跃迁。Agent 的本质是“自主”、“涌现”、“不可预测”——这些词本身就和“确定性”对着干。但企业要的是什么？是可用、是可靠、是出了事能找到原因、是敢把核心业务交给它。那么，一个本质上不确定的系统，我们能把它变得足够“确定”吗？如果能，靠什么？可观测性在这个命题里，扮演的是什么角色？

近日 InfoQ《极客有约》X QCon 直播栏目特别邀请小红书技术风险负责人孙佳林担任主持人，和亚马逊云科技 Agent 架构师章平、阶跃星辰安全研发专家李昌昊、腾讯 SRE 资深工程师陈自欣一起，在2026 年QCon全球软件开发大会（北京站）即将召开之际，共同探讨如何构建面向 Agent 的全链路语义观测体系。

部分精彩观点如下：

Agent 的确定性工程，本质是追求运行过程中的可观测、可诊断、可干预与可演进。
通过 MCP、日志聚类、Function call 等机制，可以减少 Context Window 压力，并提升处理效率。同时，通过将 Skill、Memory 等能力模块化组合，构建面向具体场景的 Agent，从而限制其行为范围，降低不确定性。
Agent 系统链路复杂，问题可能来自模型、工具或运行环境，因此需要全链路可观测能力来定位问题。可观测性的核心价值并非追责，而是定位问题与优化系统，从而提高整体可靠性与效率。
如果未来 token 成本大幅下降，使中小企业甚至个人都能承担，那么可观测与评估体系将被更广泛采用，从而推动整个生态的发展。

在 4 月 16-18 日将于北京举办的 QCon 全球软件开发大会上，我们特别设置了【Agent 可观测性与评估工程】专题。该专题将深度拆解生产实践案例，帮助构建可验证、可演进的 Agent 工程体系，推动 Agent 成为真正可靠的生产系统。查看大会日程解锁更多精彩内容：https://qcon.infoq.cn/2026/beijing/schedule

以下内容基于直播速记整理（经 InfoQ 不改变原意的情况下删减）。

完整直播回放可查看：https://www.infoq.cn/video/jzSzcszN0dLwv57hvaxk

Agent 的不确定性

孙佳林：请三位老师，各自用一句话，定义一下你们理解的“确定性工程”——它要解决的核心问题是什么？

章平：不确定性本身是客观存在的，但在业务中需要将其转化为可控的确定性。本质上，就是对不确定因素进行量化，并通过机制加以控制，在问题出现后及时修复。例如，可以通过概率方法，从模型层面判断其行为是否符合预期；若不符合，则借助监测手段定位问题，再进行修复，这实际上是一整套从不确定性中寻找确定性的机制。

李昌昊：安全从业者通常面对大量伪装进程或攻击行为，有一个基本原则：不看进程的自我声明，而是观察其实际行为进行判断。对 Agent 也不能只看其“说了什么”，而应从确定性的角度判断其实际行为。例如，当 Agent 声称执行成功时，需要查看其退出码、返回内容是否报错、资源消耗是否合理等。这些来自内核的数据是确定的，基于这些确定性基础，可以缓解 Agent 的不确定性问题。

陈自欣：我认为这是一个具有“矛盾统一”特征的问题，甚至可以上升到哲学层面。我们希望 Agent 具备高智能，但高智能必然带来不确定性。企业中最不确定的因素其实是人，但企业仍然需要人或 Agent 来运营，核心在于“像管理公司一样管理 Agent”。首先要做的是观察 Agent 的行为，这类似于企业中的早会、日报、周报等机制，用于防止其偏离方向。确定性工程的第一步，是先确认其当前状态，即“先观测”。

孙佳林：我们追求的确定性，并不是将 Agent 变成简单的 if-else 程序，也不是要求其永不出错，而是要在其出错或性能下降时能够被及时发现，并在上线前有依据地评估风险。同时，需要从内核层、LLM 调用层、工具调用层及效果层进行监控，在问题出现后快速修复并持续迭代优化。抽象来看，Agent 确定性工程的本质是追求可观测、可诊断、可干预与可演进。

孙佳林：要让 Agent 变得“可管理”，我们首先得搞清楚，它的“不确定”到底来自哪里？传统软件的不确定性，主要来自代码 Bug、网络抖动、硬件故障等。但 Agent 带来了新的不确定性源头，三位老师能不能从各自的领域出发，给我们分享一下“Agent 不确定性”来源于哪些因素？

陈自欣：Agent 的运行天然具有不确定性。从底层原理看，调用大模型时通常需要设置 temperature 参数，该参数决定模型输出的随机性。如果完全确定，模型将变得僵化，无法完成复杂决策，因此不确定性首先来源于模型本身。

其次，不确定性还来自模型运行过程。例如“模型降智”这一现象，在 LLM 普及之前并不常见，但现在可能由于算力、推理框架缺陷或 API 供应商问题导致模型性能下降。此外，模型供应商的不稳定性也会带来影响，例如服务连接失败等情况频繁出现。

第四类不确定性来自长任务执行过程中的偏移，例如上下文引导不足，导致模型逐渐偏离目标；以及环境、工具（Skills）等因素也会引入不确定性。

李昌昊：我从运行与运维角度补充几点。首先，运行时环境具有不确定性。与传统软件运行在固定镜像不同，Agent 常在沙箱中执行，环境可能每次不同；其工具选择也不固定，甚至会动态安装依赖，从而引入额外不确定性。此外，沙箱状态可能受之前任务影响，导致同一命令在不同环境中结果不同，这是 Agent 特有的问题。

其次，可观测性存在断层。Agent 与运行时之间缺乏统一链路，导致难以将 Agent 行为与运行结果关联，这在传统软件中较少见。

第三，可观测能力本身存在限制。例如 Agent 与大模型之间通常采用 HTTPS 加密，APM 或防火墙难以拦截；沙箱执行过程也被隔离，难以从底层监控其行为。这些都会成为不确定性的来源。

章平：在工具使用方面存在不确定性。例如某旅游客户在修改提示词后，工具调用率显著下降，虽然对话表面正常，但 Agent 选择了通用搜索工具而非合适工具，导致体验下降。此外，在评估中使用“LLM as judge”方法，即用模型评估模型，本身也是用不确定性评估不确定性，会进一步放大问题，这类似于测量对系统本身的影响。

孙佳林：Agent 的不确定性不仅来自模型，还来自推理过程、上下文漂移、外部工具依赖及运行时环境等。此外，一个容易被忽视的问题是效果评估体系的缺失，以及“语义黑盒”的存在。那么将黑盒转为可观测的白盒，是要解决的关键问题。

可观测如何构建确定性

孙佳林：章平老师，在 AWS 的大规模实践中，你们观测 Agent，最核心的几类数据是什么？是传统的 QPS、延迟、错误率，还是需要一些“ Agent 特有”的指标？

章平：在 Agent 体系中，除传统 QPS 等指标外，更关注多层级指标。第一层是行为指标，例如工具调用是否正确、参数设置是否合理，这直接影响执行准确性。

第二层是质量评估，即任务完成后是否真正帮助用户，包括响应的有用性、正确性、相关性及情感因素等。这些指标虽带有主观性，但与业务紧密相关，需结合实际场景设定。

此外，还包括 session 级指标、多轮对话整体表现。单轮可能表现良好，但多轮下可能下降，需从多轮维度评估整体效果。

孙佳林：假设我们发现“任务完成率”突然下跌，接下来怎么做？可观测数据怎么帮我们一步步下钻，找到是模型问题、 Prompt 问题，还是外部依赖问题？

章平：在评估体系中，首先会设置观测与告警机制。例如，当工具调用率低于某一阈值时触发告警后，会通过评估体系定位问题原因。我们会将完整执行过程输入大模型进行分析，不仅获得评分，还能得到错误原因提示。再结合发布日志逐步回溯，判断是否由提示词或模型变更导致问题。最终，在定位原因后进行修复，并通过后续指标验证修复效果，从而形成“观测—定位—修复—验证”的闭环。

孙佳林：你们主要依赖 LLM 来评估与诊断，而非传统规则方法，对吗？

章平：是的，同时也会结合成本与效率进行权衡。

孙佳林：昌昊老师，Agent 跟 LLM 的对话是加密的，沙箱里的执行是隔离的，两层黑盒叠在一起。我们怎么在"无侵入"的前提下，同时打开这两层黑盒，让排查的人能看到"Agent 当时到底做了什么？

李昌昊：我们目前主要面向训练或业务场景，设计方案时强调“零侵入”。由于用户可能使用不同的 Agent 框架（如 LangChain 等），且沙箱环境多样、生命周期短，难以通过传统埋点方式采集数据，因此零侵入成为关键要求。

此外，我们采用 eBPF 技术对加密流量进行解密，通过挂载 TLS 库函数，在内存中获取明文数据，从而提取模型请求信息，如模型名称、Prompt、用量及延迟等。

在运行时层面，通过 Tracepoint 等技术采集进程创建、命令执行及结果数据，实现对沙箱内行为的全面记录，这使我们能够从运行时角度还原 Agent 的真实行为。

孙佳林：推理轨迹是一堆数据，工具调用是另一堆数据，API 返回又是第三堆。怎么把它们串成一条完整的、有时间线的故事，让排查的人一目了然？

李昌昊：数据采集虽有成熟方案，但数据源彼此割裂，需要构建完整的链路（trace）。例如，对话数据来自平台层，审计数据来自应用日志，需进行统一关联。

我们通过 eBPF 捕获网络请求，并借助透明代理注入 trace header，实现 Agent 与大模型之间的链路关联。同时，在沙箱层通过日志与进程事件匹配，结合时间窗口、身份标识及命令一致性，实现跨层关联。最终，通过网络解密与运行时观测，实现从对话到工具调用的全链路追踪，从而在评估中获得完整数据。

孙佳林：自欣老师，很多公司的 SRE 体系已经很成熟了。Agent 来了之后，是另起一套，还是想办法融入？蓝鲸平台是怎么把 Agent 的观测能力和传统的日志、监控、追踪打通的？

陈自欣：这个问题可以拆分为两个方面：一是现有 SRE 体系如何适应 Agent 场景，二是在新场景中如何发挥更大作用。

对于第一点，Agent 时代并非需要重建体系，而是对现有平台进行演进。可观测平台在 Agent 与微服务时代都至关重要，但 Agent 产生的数据更复杂，对存储与处理提出更高要求。例如，以前日志可通过聚类压缩，而 Agent 输出高度多样，聚类失效，带来新的挑战。

第二点是数据打通。关键在于将代码、运行时及可观测数据统一关联，从而快速定位问题。由于大模型擅长分析代码，这种统一数据模型将极大提升问题诊断效率。

孙佳林：自欣老师，你的 QCon 大会演讲主题里提到“AI 提效实践”。现在 Agent 产生的数据量巨大，靠人看不过来。你们是否有用 AI 技术来分析 Agent 行为、预测风险、甚至自动修复？

陈自欣：以腾讯游戏场景为例，多样化业务带来复杂观测需求。当前重点是为 Agent 提供上下文，使其辅助用户定位问题。

通过 MCP、日志聚类、function call 等机制，可以减少 context window 压力，并提升处理效率。同时，通过将 skill、memory 等能力模块化组合，构建面向具体场景的 Agent，从而限制其行为范围，降低不确定性。

未来，还需要将运维经验进一步沉淀并赋能 Agent，使其能够更精准地定位问题核心，从而提升整体系统理解与处理能力。

可观测的“边界和代价”

孙佳林：构建一个完整的 Agent 可观测体系，需要投入多少成本？算力、存储、人力……小团队玩得起吗？有没有“乞丐版可观测”方案？

陈自欣：从技术上看，Agent 的可观测性仍然遵循类似 OpenTelemetry 的规范，即围绕 metrics、log 和 trace 三类数据展开。但问题在于，传统可观测方案中的成本优化手段在 Agent 场景下逐渐失效。例如，过去可以通过 trace 采样降低成本，日志也具有稳定模式，便于压缩与删除。然而，在 Agent 场景中，这些前提不再成立。

可以考虑采用分层策略：一方面用传统方式监控平台与运行层的性能指标；另一方面，将高成本、非结构化的数据存储在如 S3 等低成本存储中，用于离线分析。这些数据不必实时处理，而是用于评估与业务优化。

从商业角度看，虽然成本上升，但记录 Agent 的运行日志、Prompt 与 response，有助于持续提升模型能力与任务完成率。Agent 可观测性虽成本较高，但对业务具有长期价值，甚至是必要投入。

李昌昊：可观测性的最大成本并非建设本身，而是“不做可观测”。如果仅让 Agent“能跑即可”，在后续优化时往往会发现数据质量差、成本不可控。例如，大量 token 消耗中哪些是有效计算、哪些是无效尝试，无法区分；出现问题时也难以复现，因为缺乏链路记录。

从技术角度看，可以通过低成本方式逐步建设可观测体系。第一层是记录工具调用与基础行为数据，这是成本最低且最直接的手段；第二层是追踪大模型调用成本，例如 token 使用量、延迟、模型类型等，并按会话或任务进行聚合分析，从而明确成本分布与效率问题；第三层是构建全链路追踪，将各类数据串联起来，实现问题定位。这一层投入较高，但价值最大。整体来看，可以基于现有平台能力逐步构建基础可观测体系。

章平：我认同可观测性不仅是成本，更是业务投资。以实际测算为例，若每天有 10 万次 Agent 调用，每次消耗约 1000 至 4000 token，按照当前主流模型价格计算，若全部由大模型完成评估，每月成本约为 6 万至 15 万美元。但实际中无需全部依赖大模型评估。可以将确定性任务交由规则或 ground truth 判断，将主观评估交由大模型处理，并结合采样机制。例如按 70% 规则与 30% 模型分配，再叠加 10% 采样率，最终成本可降至每月约 1000 至 3000 美元, 这种“组合式”策略可以在成本与效果之间取得平衡。

陈自欣：此外，可将数据存储后使用更经济的模型进行离线处理，这同样具有实际意义。

孙佳林：可观测性确实有成本，但与不可观测导致的隐性资源浪费相比，其投入更具价值。因此，应优先解决最关键的业务问题，通过采样与指标筛选实现 ROI 最大化，并结合开源协议与低成本存储方案，将整体成本控制在合理范围内。

孙佳林：可观测不是万能的。在三位老师看来，目前的可观测技术边界在哪里？什么场景下，Agent 的行为是“观测不到”或者“观测了也没用”的？”

陈自欣：从更宏观角度看，可观测性与控制论密切相关：无法观测就无法控制。因此，无论形式如何变化，可观测性在 AI 时代只会更加重要。

例如在 AI 编程场景中，开发者往往将错误日志反馈给模型，再由模型进行修复；一些工具甚至引入调试模式，自动收集日志并参与迭代，这一过程在本地环境中已较为成熟。若将这一闭环扩展至生产环境，其价值将进一步放大。在 Vibe Coding 或自动生成代码日益普及的背景下，开发者难以完全掌控代码质量，因此可观测性将成为关键的兜底能力。

李昌昊：可观测性的边界类似于现实世界中的测量问题。例如在量子力学中，观测存在极限，无法完全获取系统状态。同样，在 Agent 场景中，过度依赖某些指标可能导致指标失效，甚至被系统“规避”。

因此，可观测范围应与 ROI 匹配。例如，不可能记录所有网络请求或完整输入输出数据，因为成本过高；同时，对于模型内部语义状态，由于其概率生成机制，也难以完全追溯。这些都构成可观测性的边界。

章平：我补充几个案例说明边界问题。首先，评估需要多维度。例如某旅游 Agent 在提示词变更后未调用专业工具，而使用通用搜索，虽然完成了任务，但结果质量下降。仅从结果判断是不够的，还需结合过程指标。

其次，评估标准本身也会变化。例如模型升级或环境变化可能导致原有标准失效，需要定期校准，例如通过固定测试集重新定义评估基准。

第三，Agent 的能力存在边界。例如在数据 ETL 场景中，若数据错误源于上游处理，Agent 无法定位根因，只能基于输入输出做判断。需要明确哪些问题应由 Agent 处理，哪些应由传统系统解决。

孙佳林：可观测性的技术边界取决于业务问题，但基础设施能力（如 log、trace、metric、profiling 等）必须构建，在此基础上结合具体业务场景和需求，看应用范围与边界，最终还是要回归到解决业务问题上。

评估中的“人和流程”

孙佳林：评估是工具，但用不好也会出问题。三位有没有遇到过“为了指标好看，反而把 Agent 带偏”的情况？

章平：在实际使用中，常见问题是 Agent“表面完成任务但实质偏离目标”。例如在 AI 编程中，模型可能通过取巧方式快速返回结果，而非真正调用大模型完成任务，甚至通过 fallback 逻辑规避失败。此时，从流程或结果看似正常，但未满足真实需求。因此，评估不能仅依赖任务完成度，还需引入代码质量、安全性、规范性等多维指标，从而全面衡量效果。

李昌昊：单一指标容易失效，这与经典的“指标异化”现象一致。应采用多维指标，并尽量使用独立数据源进行评估，例如运行时数据或业务数据，而非完全依赖 Agent 自身输出。同时，也可以通过多 Agent 交叉验证提高可靠性。

孙佳林：整体思路是采用多维、多阶段评估，包括过程追踪、节点分析及结果指标，避免仅以单一结果衡量整体效果。

孙佳林：Agent 出问题了，是算法团队的事，还是 SRE 团队的事？如果是因为模型幻觉，算法说“这是概率问题”；如果是因为 API 超时，SRE 说“这是外部依赖”——最后谁给业务方一个交代？”

陈自欣：关于责任归属问题，目前阶段更适合以探索为主，而非严格定责。Agent 仍处于发展阶段，依赖复杂、稳定性有限，应允许一定试错空间。

孙佳林：这类似于“无责文化”（blameless culture），强调问题解决导向而非过多讨论责任归属问题。

李昌昊：本质上，“谁负责”取决于是否有证据链。Agent 系统链路复杂，问题可能来自模型、工具或运行环境，因此需要全链路可观测能力来定位问题。可观测性的核心价值并非追责，而是定位问题与优化系统，从而提高整体可靠性与效率。

孙佳林：现在的评估还有很多人工环节（写用例、判结果、分析原因）。未来，评估会被 AI 自动化吗？比如让一个“评估 Agent ”来评估“业务 Agent”？

章平：目前很多实践本质上是“用 AI 评估 AI”，但人仍然发挥着关键作用。首先，在评估体系中，ground truth 与大模型评估的划分需要人为设定规则，即哪些内容由程序基于确定性规则判断，这一部分依赖人事先定义清晰标准。

其次，对于“好”与“不好”的判定，虽然可以交由大模型执行，但其评估标准本身必须由人基于具体业务设定，包括输入、输出以及过程中的推理路径等。这些业务知识需要由人进行抽象并注入模型，使评估结果真正符合业务需求。人在其中的核心作用是将企业知识体系结构化并融入评估过程。至于 AI 是否会完全取代人，理论上大部分工作可能被替代，但最终责任仍需由人承担。

孙佳林：AI 应当具备“监护人”机制，无论是 skill 的生产方还是 Agent 的运维方，都需要对其行为负责，包括控制其影响范围与风险边界。因此，人作为“监护人”的角色是不可替代的，这也是确定性工程的重要体现，通过工程化手段约束 AI 行为。

李昌昊：从另一个角度看，可观测数据本身既是分析依据，也是训练素材。如果完全由 AI 自动评估，会产生递归问题，即“谁来评估评估者”。因此，在较长时间内，“human in the loop”仍然是必要模式，由人进行最终判断，AI 评估更多作为辅助。

陈自欣：我认为评测是 AI 落地过程中最关键的环节之一，其前提是具备完善的可观测能力，能够采集完整数据。在很多业务场景中，例如旅行助手这类 workflow 型应用，可以通过较为固定的流程配合小模型执行，再由大模型进行评估，这在成本与效果之间是可行的方案。这一模式类似传统客服系统：通话会被录音，但并非全部人工审核，而是结合用户评分与抽检机制进行评估，从而平衡成本与质量。

此外，评估不能仅停留在技术层面，还需从业务角度出发，例如用户留存率、满意度或净推荐值等指标。这一点在竞争激烈的市场环境下尤为重要，因为单纯降低成本而损害用户体验，最终会导致用户流失。

展望未来

孙佳林：在 Agentic 时代，确定性工程会往哪走？可观测性能不能推动 Agent 工程，从“被动”走向“主动”，甚至“自动驾驶”？请三位老师每人给一个预言。

陈自欣：在 Agentic 时代，可观测性将成为确定性工程的核心支柱，同时也会对基础设施带来新的挑战。例如，传统指标难以衡量 Agent 的表现，因此 log 与 trace 的重要性进一步提升。

未来可能需要围绕 Agent 构建新的基础设施体系，例如将运行时（runtime）与可观测能力深度结合，在无需异常时减少日志记录，在出现问题时再动态补充上下文信息，从而降低成本并提升智能化水平。

此外，存储能力与数据处理能力也将成为关键瓶颈。当这些基础能力完善后，可观测体系将从被动监控转向主动诊断甚至预测。

章平：我也参考了一些 AI 的预测，普遍认为可观测性将从事后检测发展为实时监控甚至“免疫系统”。我认同这一趋势，但更关键的问题在于成本。目前许多企业尚未重视这一领域，很大程度上是因为 token 成本过高。如果未来 token 成本大幅下降，使中小企业甚至个人都能承担，那么可观测与评估体系将被更广泛采用，从而推动整个生态的发展。

李昌昊：从技术趋势看，可观测性可能进一步深入模型内部，例如追踪 token 的生成来源，从训练数据层面提升可解释性。同时，可观测数据也将成为模型训练闭环的重要组成部分，用于持续优化 Agent 与模型能力。

孙佳林：未来还可能通过将多轮交互操作转化为确定性操作（如 CLI 或标准化流程），降低不确定性，并结合多 Agent 协作与云环境，实现更复杂的自动化系统。这一方向仍有较大发展空间。

孙佳林：如果现在只能做一件事，来让自己的 Agent 变得更“可观测、可评估、可信任”，你会建议他们做什么？

李昌昊：从安全角度看，应将 Agent 视为“不可信进程”。由于其行为难以完全预测，需要建立独立于 Agent 本身的审计体系，不仅依赖其输出，还需从外部视角验证其行为。

章平：在企业场景中，安全问题尤为关键。一个可行思路是通过统一网关管理 Agent 对内部系统（如数仓、ERP）的访问，将所有调用集中到网关层，并在网关中配置安全策略。例如，可通过策略控制 Agent 能访问哪些系统，从而避免在 Agent 内部逐一实现安全控制。

陈自欣：从架构角度看，Agent 应依托企业级 AI 网关或升级版 SOA 总线运行，并配套完整的权限体系与安全策略。这些在传统系统中成熟的机制，在 AI 时代依然适用。

孙佳林：这一体系类似于微服务时代的 Mesh 架构，在 Agent 时代可能演变为统一的 AI 网关，用于统一执行策略控制、行为约束与风险管理，是实现“护栏机制”的关键基础设施。

观众：在企业里面龙虾的实际使用实践有吗？比如安全、可观测、自动部署。

陈自欣：龙虾本质上是一个高度灵活的系统，其中安全是最核心的挑战之一。在企业中部署时，必须将其运行在网络受控的沙箱环境中，这是基本前提。在该环境内，需要对网络策略进行严格管控，例如禁止在同一 IP 段内进行横向扫描，实现基础的网络隔离，这在实践中通常通过类似 Docker 的容器化技术来完成。同时，龙虾的调用中心（call hub）必须指向企业内部受控且安全的地址，并结合 API 网关或 MCP 网关，对路由与权限进行统一管控。

观众：请问使用现有的 Agent，还是自己搭建 Agent 更合适？

章平：我早年在集成商从事投标工作，当时流程较为繁重。在 Agent 时代，不同企业的业务流程差异较大，例如招标流程往往各不相同。更合理的方式是将企业内部已有流程抽象为标准操作流程（SOP），再封装为对应的 skill，集成到个人或企业的 Agent 系统中。这相当于构建一个定制化的 Agent，可以显著提升实际工作效率。相比之下，通用 Agent 虽然可以提供基础信息检索能力，但其输出往往较为泛化，难以满足具体业务的专业需求。

观众：MCP 与 skills 的本质区别是什么？

孙佳林：MCP 是连接 AI 与外部世界的“协议”，而 skills 是 AI 能够调用的具体“能力”。MCP server 是能力发布方，核心职责是向 AI 客户端声明自己拥有哪些能力，它定义了“能干什么”。Skills 是能力的实现方，是具体的业务逻辑和执行代码，它定义了“如何做”。

观众：可观测是否等同于对云平台的监控？

陈自欣：可观测的范围远不止云平台。早期主要集中在基础设施层（Infra），随后扩展到应用性能监控（APM），再到业务层观测，如今已经延伸到 Agent 层面。本质上，可观测是由 metrics、logs 和 trace 等多种数据形式构成的综合能力，通过被观测对象主动输出数据，从而支持多维度分析与问题定位，因此它是一个多层级、组合式的体系。

孙佳林：可以简单理解为，监控回答的是“哪里出了问题”，而可观测不仅回答“为什么出问题”，还可以进一步支持分析“应该如何解决”，其能力更加全面多维。

观众：博物馆等文化单位部署 AI 或 Agent 时，是否可以在保证数据安全的前提下离线部署？

陈自欣：对于这类机构，由于其对信息安全要求较高，部署方案需要更加谨慎，建议优先咨询相关主管部门或参照安全规范，以确保合规性，避免潜在风险。

观众：OpenClaw 安装在空机器上，并对存储路径做权限控制后，Agent 是否还能正常工作？

陈自欣：从实践来看，如果希望 OpenClaw 发挥较好效果，通常需要赋予较高权限，“开放越多，能力越强”。如果需要更细粒度的控制，可以结合操作系统层面的目录权限进行限制，或者查看 OpenClaw 本身是否提供更精细的权限管理机制。不过在实际使用中，很多人会选择直接开放全部权限以简化使用。

孙佳林：我个人也是开放较多权限，但这确实存在风险。

陈自欣：确实如此，因此使用时必须清楚自身操作带来的影响，这一点往往也是最难做到的。

孙佳林：建议在非工作电脑或沙箱环境中运行。

陈自欣：实践中我通常会采用“实验环境 + 生产环境”的方式，先在隔离环境中验证，再逐步迁移到正式环境。

观众：未来 Agent 是否会具备较强的通用性，例如少量 Agent 覆盖大部分业务场景？

李昌昊：我认为这是一个必然趋势。当前无论是通用 Agent 还是代码类 Agent，其通用能力都在持续增强，通过叠加不同 Skill，理论上可以覆盖绝大多数业务场景。

孙佳林：从企业实践来看，通用化和生产化仍面临安全、资源利用率以及分布式记忆等挑战，但整体趋势确实是朝着通用化和生产化发展。

陈自欣：目前 MCP 尚未具备渐进式披露的能力，在加载后导致上下文臃肿的情况，消耗大量的 token 。未来 MCP 可能有两个走向，第一是重要性下降，只在留在部分场景的使用，而不是唯一的选择，二是协议本身进行重构，但未来的走势仍需观察。

章平：在实际应用中，企业通常会同时使用 MCP 和 Skill：前者用于通用能力，例如数据接口；后者用于业务定制，实现更垂直的功能。

陈自欣：可以进一步理解为，MCP 更适用于探索阶段，用于灵活调用与试错；而当流程稳定后，则会将其固化为 Skill，通过 API 或代码直接调用执行。可以将 MCP 视为“探索工具”，Skill 视为“执行工具”，两者在不同阶段各有价值。

会议推荐

QCon 全球软件开发大会·2026 北京站将于 4 月 16 日 -18 日正式举办。本届大会以“Agentic AI 时代的软件工程重塑”为主题，聚焦 100+ 重磅议题，汇聚来自阿里、腾讯、字节跳动、小米、百度等一线科技企业与创新团队的技术专家，围绕 AI 工程化、系统架构与研发模式演进展开深入探讨。更多详情可扫码或联系票务经理 18514549229 进行咨询。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.