网易首页 > 网易号 > 正文 申请入驻

开源三代理盲评系统:让AI在行动前先"过安检"

0
分享至

周末上线了一个有点意思的东西:三代理盲评工作流,MIT协议开源,任何编码代理或自主循环都能通过HTTP端点调用。核心假设很直接——模型没法可靠地自评,所以外部盲评机制是唯一能诚实的解法。代码仓库在github.com/ejentum/agent-teams/tree/main/blind-eval-trio。

整个工作流完全开源。可选接入Ejentum的harness API做认知引导(免费档100次调用,持续使用需付费档)。但harness是可拆卸的,不是必需。我用同一组payload测试了四种配置:纯MCP、MCP+路由技能、MCP+重量级匹配技能、裸基线。结果裸基线产出了同等水平的角色约束输出。结构完整性来自跨实验室路由+角色约束系统提示+工具锁定,而非harness层。如果把这工作流叫做"Ejentum驱动"却不说明harness只是锦上添花而非承重结构,那就是不诚实,所以我 upfront 讲清楚。


看看现在的趋势。Karpathy的autoresearch用Git作为整个控制循环。Claude Code的GitHub Action接收issue然后开PR。Codex Cloud基于同样的理念。自主代理越来越倾向于在没有人工把关的情况下提交行动。瓶颈不再是"代理该做什么",而是"代理在承诺去做之前该做什么"。

自评填不了这个坑。文献很明确:Huang等人《Large Language Models Cannot Self-Correct Reasoning Yet》(arxiv 2310.01798)、LLM-as-judge研究显示同模型评判自己输出会坍缩为自我偏好、还有更近的CorrectBench结果。让同一个模型批判自己的计划,只会复制原有的盲点。"单个LLM戴三顶评审帽"是提示工程表演,自己给自己盖章。

GitHub懂这个。他们4月发布了Copilot CLI的"Rubber Duck":一个聚焦的评审代理,由互补模型家族驱动,在规划完非平凡变更后、实施前进行批判。他们测得Sonnet开启Rubber Duck后,Sonnet→Opus的性能差距缩小了74.7%。Copilot CLI内置免费。他们锁定了开发者工具赛道的预承诺跨模型批判表面。

这个工作流是给其他人的:在Claude Agent SDK / LangGraph / AutoGen / CrewAI / heym上构建自主循环的代理运行时开发者;想要可调用原语的多代理系统设计师;Cursor / Cline / Aider用户;在无Copilot CLI的受限环境中运行Claude Code的安全团队;直接用Anthropic或OpenAI API构建自定义Python管道的研究者。他们没人能免费用Rubber Duck;但他们都能自托管这个。

三个代理并行,每个来自不同模型实验室,每个锁定一个角色和一个认知操作:

调用代理提交结构化payload:{ task: string, method: { goal, steps, expected_outcome }, context: { files, dependencies, constraints } }。三个评审代理各自在隔离环境中接收同一payload,但系统提示不同:

代理A(安全视角):识别风险、边界条件、失败模式。代理B(正确性视角):验证逻辑完整性、步骤顺序、资源假设。代理C(完整性视角):检查遗漏、隐式假设、与任务目标的契合度。

三者互不可见。输出汇入聚合层,冲突标记为"需人工仲裁",共识标记为"可提交"。整个流程约15-30秒,取决于模型选择。

关键设计:工具锁定。每个评审代理只能调用特定工具——安全代理可调威胁建模检查表,正确性代理可调测试生成器,完整性代理可调需求追踪器。不能调用执行工具、不能调用文件系统、不能调用网络。认知隔离通过架构强制执行,而非提示工程请求。

我测试了三种模型组合:GPT-4o + Claude 3.5 Sonnet + Gemini 1.5 Pro;Claude 3 Opus + GPT-4 Turbo + Gemini 1.5 Flash;纯开源(Llama 3 70B + Mixtral 8x22B + Qwen 72B)。第一种组合冲突率最低(12%),第三种最高(34%),但第三种在标记为"需仲裁"的案例中,人工复核后发现实际问题的比例更高(78% vs 61%)。便宜模型更吵,但吵得更值得听。

HTTP端点设计为无状态。POST /evaluate,payload进,{ consensus: boolean, reviews: [...], arbitration_required: boolean }出。没有会话,没有记忆,没有跨调用的代理状态。这样调用方可以把它塞进任何编排逻辑——LangGraph的条件边、CrewAI的任务委托、或者直接curl。

有个细节可能重要:payload里的method字段是调用代理自己生成的。这意味着评审代理在评判一个同行(可能同模型家族)产出的计划。但盲评机制切断了自我偏好的反馈回路——评审代理不知道作者是谁,不能访问作者的隐藏状态,只能看到结构化的方法描述。这不够完美,但比"你批判你自己"诚实。

GitHub的Rubber Duck是闭源的、Copilot绑定的、微软控制的。这个工作流是开源的、模型无关的、自托管的。不是竞争,是补位——给那些需要预承诺评审但不在Copilot生态里的人一个选项。

下一步:把聚合层做成可插拔的(目前硬编码为简单多数决),加时间戳和签名支持用于审计日志,以及一个可选的"人类在环"钩子,在仲裁触发时暂停等待输入。但这些是增量改进。核心结构——跨实验室、角色锁定、工具隔离——已经跑通了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特斯拉中国官宣全新优惠,5.59 万即可提 Model 3 了!

特斯拉中国官宣全新优惠,5.59 万即可提 Model 3 了!

XCiOS俱乐部
2026-05-13 14:22:27
“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

妍妍教育日记
2026-05-12 17:35:01
歌手好弟现状:娶了中国美女,女儿长相随他,来中国多年仍没绿卡

歌手好弟现状:娶了中国美女,女儿长相随他,来中国多年仍没绿卡

打小我就醜
2026-05-14 02:22:15
白鹿黑历史被大起底,对前辈无礼学历造假,发布辱华辱女争议视频

白鹿黑历史被大起底,对前辈无礼学历造假,发布辱华辱女争议视频

花哥扒娱乐
2026-05-13 19:10:45
干了20年殡葬,我希望所有家属拿到骨灰后,不要把亲人塞进后备箱

干了20年殡葬,我希望所有家属拿到骨灰后,不要把亲人塞进后备箱

千秋文化
2026-05-12 20:21:18
此人叛变新四军,1949年李先念主动宴请他,他举报:有人要叛变

此人叛变新四军,1949年李先念主动宴请他,他举报:有人要叛变

历史龙元阁
2026-05-13 06:00:20
当着全球的面,朝鲜立最高铁律:只要我被“斩首”,核弹立刻升空

当着全球的面,朝鲜立最高铁律:只要我被“斩首”,核弹立刻升空

小噎论事
2026-05-12 15:24:59
真的假的?曝詹姆斯想降薪留在湖人,东契奇态度相反,这下麻烦了

真的假的?曝詹姆斯想降薪留在湖人,东契奇态度相反,这下麻烦了

萌兰聊个球
2026-05-13 08:33:15
生死战碾压!91-67大胜晋级!一人成绝对大腿!

生死战碾压!91-67大胜晋级!一人成绝对大腿!

夕落秋山
2026-05-14 06:20:01
又一个郭晶晶?退役后嫁顶级豪门,7年连生4娃,如今已是顶级阔太

又一个郭晶晶?退役后嫁顶级豪门,7年连生4娃,如今已是顶级阔太

珺瑶婉史
2026-05-03 19:20:12
国台办:和平统一后,“台湾同胞无论在世界任何地方,都有强大祖国作为坚强后盾”

国台办:和平统一后,“台湾同胞无论在世界任何地方,都有强大祖国作为坚强后盾”

参考消息
2026-05-13 11:27:06
印菲凑齐75%镍资源后,才发现王传福多年前已做好应对准备

印菲凑齐75%镍资源后,才发现王传福多年前已做好应对准备

阿伧说事
2026-05-13 11:27:53
特斯拉宣布停产,震惊全网!

特斯拉宣布停产,震惊全网!

财经三分钟pro
2026-05-12 15:10:58
四川一男子,晒被“遗忘十年的芦荟”引围观,受大罪了:不爱别养

四川一男子,晒被“遗忘十年的芦荟”引围观,受大罪了:不爱别养

小鹿姐姐情感说
2026-05-13 21:40:21
澳洲放羊大叔引爆AI编程革命!Claude Code急推goal模式,不干完不许停

澳洲放羊大叔引爆AI编程革命!Claude Code急推goal模式,不干完不许停

新智元
2026-05-13 18:31:06
钾是香蕉18倍的“护肝菜”!隔天吃一次,腿脚有劲,肝脏更年轻

钾是香蕉18倍的“护肝菜”!隔天吃一次,腿脚有劲,肝脏更年轻

马蹄烫嘴说美食
2026-05-13 21:42:58
福登两助攻曼城3比0胜水晶宫,距阿森纳仍差2分

福登两助攻曼城3比0胜水晶宫,距阿森纳仍差2分

热血体育社
2026-05-14 06:32:03
网上买个向日葵挂牌,就能免费优先登机头等舱,还能使用贵宾休息室?!这些网友的行为,引发巨大争议...

网上买个向日葵挂牌,就能免费优先登机头等舱,还能使用贵宾休息室?!这些网友的行为,引发巨大争议...

英国那些事儿
2026-05-12 23:23:26
“19寸蚂蚁腰”混血美少女出道,这神颜是真实的吗?

“19寸蚂蚁腰”混血美少女出道,这神颜是真实的吗?

吃瓜党二号头目
2026-05-13 08:57:32
张静初天塌了,47位消费者拟起诉

张静初天塌了,47位消费者拟起诉

李东阳朋友圈
2026-05-13 13:54:37
2026-05-14 07:19:00
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
2595文章数 25关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

时尚
亲子
手机
旅游
数码

专栏 | 进入心流后,不被洪流裹挟

亲子要闻

农村童趣日常,树上果糖拌奶吃,一口下去太解馋

手机要闻

安卓与iPhone的互传、迁移和通讯安全,正在变得越来越好

旅游要闻

四大入口协同发力 让外国游客“丝滑”逛北京

数码要闻

徕芬智能卷发棒Styler发布,499元

无障碍浏览 进入关怀版