一个真正跑通的AI长期实现测试：从仪表盘到完整控制台的真相|路由|操作员|验证器|工作台

一个真正跑通的AI长期实现测试：从仪表盘到完整控制台的真相

分享至

“一个真实的第二次实现落地了。”这句话的分量，技术人一看就懂。它不是AI生成了一个花哨的仪表盘，不是代码助手吐出了一大段代码，也不是把一张模型图变成了看着漂亮的屏幕截图。真正落地的，是Scarab项目中Observer层的第二次实现——一个经过验证器把关、由SDS引导的操作员控制台，它横跨多个路由工作台表面构建而成，包含源代码、后端读模型、测试用例、屏幕截图、运行时验证、检查点文档，以及被明确记录下来的遗留缺口。这是Scarab项目迄今为止最严酷的持续实现测试。

我们到底在测什么？问题不是Codex能不能写代码——它能写。真正的实验在于：如果代码仓库持续地把构建所需的真相暴露给AI编程代理，这个代理能否在一个真实的仓库中执行长期的实现工作而不发生漂移？这次运行中，Codex负责编写代码，Scarab负责提供实现引导。这个分工至关重要：Scarab并没有告诉Codex具体写哪行代码，而是不断地给出仓库专属的引导信息——当前仓库真相、所有权表面、边界、合约、验证器、当前缺口，以及下一步合法的实现步骤。就是要测试这个层面：当仓库本身不断告诉代理什么是真的时候，代理能不能持续实现下去。

目标锁定在Scarab自己的Observer层。这是我在把Scarab推向极限时需要看到的内部操作员控制台。它能展示诊断信息、遥测数据、工作区、证据、运行时状态、门控、策略态势、PR准备度、合约、模式、搜索和实现可见性。这不是一个玩具应用，这是一个复杂的多栈控制台。它的技术栈包括了Next.js、React、TypeScript、shadcn UI、Tailwind、Radix UI、TanStack Query、TanStack Table、Zustand、React Flow、Monaco、ECharts、Playwright、pnpm、Node.js、Python、RabbitMQ、Celery、JSON Schema、Docker和Docker Compose，再加上一系列支撑性的UI和运行时库。工作范围横跨前端、后端读模型、运行时可见性、测试合约、路由工作台、状态表面、屏幕截图证明，以及只读的诊断态势——这恰恰是那种AI代理通常会开始漂移的长期实现任务。

Observer第二次黄金通行证作为一个完成的实现交付了，已经准备好接受我的审查，之后很可能还会进行一次视觉润色的第三次通行证。这个态势很重要，我要表达的不是“永远做完了”，而是：Observer的第二次黄金通行证已经作为一个严肃的二次实现，覆盖了整个Observer工作台表面。Observer控制台现在拥有真正的路由和操作员控制台结构，跨越了主要工作表面：概览、运行指挥中心、工作流图、门控时间线、证据与工件、工作平面、保管库与源文档、目标工作区/补丁实验室、GitHub PR控制台、可观测性/遥测、运行对比、合约与模式、设置/运行配置，以及搜索。最终审查从重建的Observer工作台表面捕获了全部14种工作台模式的屏幕截图。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.