网易首页 > 网易号 > 正文 申请入驻

OpenAI前工程师造了1个"自医"AI:代码崩了不用人管

0
分享至


去年有个数据挺有意思:GitHub Copilot用户平均花37%的 coding 时间在调试,而非写新功能。更扎心的是,AI 生成的代码出错后,调试时间反而比手写代码更长——因为你得先搞懂 AI 写了什么,才能开始修。

Okahu 联合创始人兼 CTO Vinod Vavilapalli 最近放了个 demo,试图把这个闭环彻底关掉。不是让 AI 少写 bug,而是让 AI 自己读日志、自己诊断、自己修。

这个 demo 的核心逻辑很直白:给 agent 开一扇看自己的窗户。

传统软件里,代码即文档。你读源码就知道程序在干嘛。但 agent 驱动的应用不一样——代码只是脚手架,真正的决策发生在模型运行时。一个看不到自己运行轨迹的 agent,就像医生不给病人做检查就开药,全靠猜。

Monocle:让 AI 自动留下"病历"

Monocle 做的第一件事,是把遥测(telemetry)的门槛降到零。它自动给 OpenAI、LangChain、LlamaIndex 等 SDK 插桩,不需要你手动创建 span。

启用只需要一行代码:

```python from monocle_apptrace import setup_monocle_telemetry setup_monocle_telemetry(workflow_name="text_to_sql_analyst") ```

从这行之后,每次 LLM 调用、每次数据库查询、每次工具调用,都会被捕获为 trace span。输入输出、模型名、token 消耗、异常详情、耗时数据——全打包进去。

关键是:agent 不会给自己的生成代码加遥测。如果插桩需要额外工作量,这件事就不会发生。Monocle 的 auto-instrumentation 解决的就是这个"人性懒惰"问题。

Okahu MCP:让 AI 能查自己的"病历"

有了 trace,下一步是让 agent 能读到它。Okahu 的做法是把遥测数据通过 MCP(Model Context Protocol,模型上下文协议)暴露出来。

MCP 是 Anthropic 去年推出的开放协议,初衷是让 LLM 能安全地访问外部数据源和工具。Okahu 在这里的角色是遥测 provider——agent 通过 MCP 查询自己的历史运行数据,就像医生调病人的既往病史。

具体实现上,Okahu MCP 提供了几个关键工具:

- `get_traces`:按时间范围拉取 trace 列表

- `get_trace_details`:获取单个 trace 的完整细节

- `search_traces`:按错误类型、耗时、特定关键词过滤

这些工具被注册到 agent 的工具箱里,agent 可以在推理过程中自主调用。

OpenCode:执行层

OpenCode 是 Salesforce 开源的 AI 编程 agent,在这个 demo 里扮演"手"的角色。它接收任务、写代码、跑测试、看到失败、决定下一步。

三者的协作链条是这样的:OpenCode 写代码 → Monocle 自动记录运行轨迹 → 测试失败 → OpenCode 通过 Okahu MCP 查询自己的 trace → 基于 trace 诊断 → 生成修复 → 循环直到通过。

整个过程中,人类只负责设定目标("让这个 Text-to-SQL 应用通过测试"),不参与任何调试决策。

Vinod Vavilapalli 在演示视频里展示的具体 case 是:一个 Text-to-SQL 应用,用户问"上个月销售额最高的 5 个产品",agent 生成的 SQL 在特定 edge case 下报错。

传统 workflow 里,你会看到测试失败,打开日志,发现是日期格式处理有问题,然后告诉 agent"把日期格式从 MM-DD-YYYY 改成 YYYY-MM-DD"。

在这个自愈合 demo 里,agent 自己做了这些:看到测试失败 → 调用 `get_traces` 拉最近 5 分钟的 trace → 发现某个 span 里有 `ValueError: time data '2024-13-45' does not match format '%m-%d-%Y'` → 定位到日期解析函数 → 生成修复 → 重跑测试 → 通过。

从失败到修复,demo 里的耗时是 47 秒。没有人看过一行日志。

技术细节:trace 里到底有什么

能让 agent 有效诊断,trace 的颗粒度必须够细。Monocle 捕获的结构大概长这样:

``` Span: text_to_sql_analyst ├── Span: llm_call (OpenAI gpt-4) │ ├── Attributes: input_messages, model, temperature │ └── Events: completion, token_usage(prompt=124, completion=89) ├── Span: tool_invocation (generate_sql) │ ├── Attributes: tool_name, tool_input │ └── Span: db_query │ ├── Attributes: query_string, execution_time_ms │ └── Events: error (ValueError: time data...) └── Span: response_formatting ```

当 agent 查询 `get_trace_details` 时,拿到的是这个树状结构的文本化表示。LLM 的上下文窗口足够消化这种层级信息,并定位到具体的错误叶子节点。

一个有趣的细节是:agent 的修复提案有时会"过度修复"。比如看到日期解析报错,它可能把整个日期处理模块重写,而不是最小改动。Vavilapalli 提到他们正在实验让 agent 对比多个候选修复的 trace 预测结果,选择最保守的那个——但这已经属于下一步优化了。

为什么是现在

这个概念能跑通,依赖几个前提条件同时成熟:

第一,LLM 的 tool use 能力。GPT-4 级别的模型才能可靠地决定"我现在需要查 trace"而不是瞎猜。

第二,MCP 的标准化。没有统一协议,每个遥测系统都要写定制接入层,生态碎掉。

第三,auto-instrumentation 的成熟。Monocle 这类工具让"所有 agent 行为都被记录"成为默认而非额外工作。

第四,成本下降。查询 trace、生成修复、跑测试的循环可能重复多次,单次推理成本必须够低才能负担得起。

Okahu 的定价策略也反映了这点:遥测存储按量计费,但 MCP 查询本身目前免费。他们的 bet 是,agent 自主调试的场景会创造足够的存储需求,查询成本可以被摊平。

局限和未解问题

这个 demo 是精心设计的 sandbox。真实生产环境的复杂度会暴露更多问题:

Trace 噪音。一个 busy 系统的 trace 量可能让 agent 的上下文窗口爆炸,需要更智能的预过滤机制。

因果推断。多个并行组件同时失败时,agent 可能误判 root cause。人类工程师会凭经验知道"数据库超时通常是因为下游服务挂了",agent 需要类似的经验注入。

修复验证。测试通过不等于修复正确,可能只是测试覆盖不足。如何设计"修复置信度"的评估,还没看到成熟方案。

安全边界。让 agent 自主修改代码并执行,需要严格的沙箱和回滚机制。demo 里用的是临时容器,生产环境的等效方案还在演进。

Vavilapalli 在视频结尾的 Q&A 环节被问到:"如果 agent 的修复引入了新的 bug,但测试没覆盖到,怎么办?"

他的回答很直接:"这就是我们还不敢叫这东西'生产就绪'的原因。现在的价值是压缩调试循环,不是消除人类审查。但方向很明确——让 agent 能处理的 case 越来越多,人类从'必须参与'变成'抽样检查'。"

这个 demo 的代码已经开源在 Okahu 的 GitHub 仓库,依赖 Monocle 的 Python SDK 和 Okahu Cloud 的免费 tier 就能跑。Vavilapalli 说他们的下一个迭代目标是让 agent 能处理"测试也通过了但业务逻辑明显有问题"的场景——也就是从"自愈合"进化到"自验证"。

如果调试时间真的能从 37% 压到 10% 以下,开发者的工作流会变成什么样?agent 的 commit 记录里出现 "fixed by self-diagnosis at 3:47 AM" 的时候,code review 的重心又该往哪移?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA人物志|陨落的篮球天才,曾是最接近“神”的男人

NBA人物志|陨落的篮球天才,曾是最接近“神”的男人

体坛热评
2026-04-09 14:06:04
人不会无缘无故患高血压!研究发现:得高血压的人,离不开这5点

人不会无缘无故患高血压!研究发现:得高血压的人,离不开这5点

华庭讲美食
2026-04-09 18:22:14
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
第99波!伊朗导弹精准斩首,以军官被一锅端,大批美军官被抬走

第99波!伊朗导弹精准斩首,以军官被一锅端,大批美军官被抬走

南宗历史
2026-04-09 01:52:38
洋洋总直播救场翻车!网友怒喷小汪总:你妈拿命拼,你却嫌她烦

洋洋总直播救场翻车!网友怒喷小汪总:你妈拿命拼,你却嫌她烦

东方不败然多多
2026-04-09 17:22:33
央视发声后,官方表态,全红婵网暴风波再发酵,陈芋汐做法太高明

央视发声后,官方表态,全红婵网暴风波再发酵,陈芋汐做法太高明

阅识
2026-04-10 00:40:27
宝宝出生后没有鼻子,却长出两根触角样的“管子”,母亲看后崩溃

宝宝出生后没有鼻子,却长出两根触角样的“管子”,母亲看后崩溃

大果小果妈妈
2026-02-21 22:47:51
我楼上住着一个女邻居,33岁长得挺漂亮,她老公却留她一个人守家

我楼上住着一个女邻居,33岁长得挺漂亮,她老公却留她一个人守家

千秋文化
2026-03-13 21:00:35
樊振东正式退出原因找到,王皓透露细节情况,原因让人无奈

樊振东正式退出原因找到,王皓透露细节情况,原因让人无奈

法老不说教
2026-04-09 15:24:46
42犯47罚!2违体1人报销!王浩然一战封神,深圳双杀山西取11连胜

42犯47罚!2违体1人报销!王浩然一战封神,深圳双杀山西取11连胜

后仰大风车
2026-04-09 21:44:45
韩国修宪:去汉字化、戒严、光州与均衡发展

韩国修宪:去汉字化、戒严、光州与均衡发展

寰宇大观察
2026-04-08 17:26:58
深思:张雪推荐买豪爵!而电动车行业的抄袭、诽谤和举报现象盛行

深思:张雪推荐买豪爵!而电动车行业的抄袭、诽谤和举报现象盛行

电动车行业观察员
2026-04-09 10:46:40
职务最低的开国将军:一直到本人去世,最高职务也才是师长

职务最低的开国将军:一直到本人去世,最高职务也才是师长

锅锅爱历史
2026-04-09 22:26:48
孕妇买200元水果被丈夫骂后续:双标到极致,家境曝光,网友劝离

孕妇买200元水果被丈夫骂后续:双标到极致,家境曝光,网友劝离

阿凫爱吐槽
2026-04-04 10:40:39
76岁上海知青回江西访友,竟发现当年的女友终生未嫁:我对不住你

76岁上海知青回江西访友,竟发现当年的女友终生未嫁:我对不住你

五元讲堂
2026-01-19 11:13:16
1964年,赵宗礼开着海军中将座驾投诚,获600两黄金并授予军衔

1964年,赵宗礼开着海军中将座驾投诚,获600两黄金并授予军衔

咸説历史
2026-04-10 00:46:19
俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

流史岁月
2026-04-09 13:55:03
67岁首富被立案调查!公司连续20年全球第一,已累计套现超过10亿

67岁首富被立案调查!公司连续20年全球第一,已累计套现超过10亿

国际阿尝
2026-03-24 18:14:08
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

番外行
2026-04-09 15:58:49
张兰不再忍了!生日自曝曾昏迷三天三夜,68岁身边一个亲人都没有

张兰不再忍了!生日自曝曾昏迷三天三夜,68岁身边一个亲人都没有

潮鹿逐梦
2026-04-08 12:02:41
2026-04-10 02:51:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
1005文章数 13关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

以色列总理:同意与黎巴嫩直接谈判

头条要闻

以色列总理:同意与黎巴嫩直接谈判

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

家居
艺术
亲子
旅游
数码

家居要闻

清新自然 复古风尚

艺术要闻

战乱中赶工?阿联酋首个赌场度假村‌,明年建成!

亲子要闻

五个月的宝宝必须学温伯格的宇宙学才不哭

旅游要闻

温州园博会来了!下高铁10分钟入园,100天免费逛

数码要闻

华为多款新品在路上:Pura 90、阔折叠、AI眼镜、平板耳机全都有

无障碍浏览 进入关怀版