你的AI助手正在一本正经地胡说八道——这不是段子,是2024年Stack Overflow开发者调研里73%的工程师承认的日常。当你问Claude或GPT-4"我们支付服务的退款流程怎么走",它可能给你编一套完全不存在的API调用,还附赠一个虚构的错误码。
微软Azure平台工程团队最近公开了他们怎么治这个毛病。不是给模型灌更多数据,而是重新设计了AI"开卷考试"时能查的"课本"——三层结构化上下文系统,让内部代码助手的准确率从基线的34%干到91%。
第一层:把架构图变成AI能查的"活字典"
传统文档的问题是给人看的,不是给AI读的。微软团队发现,让AI读Confluence页面就像让考生带着图书馆进考场——信息过载,还找不到重点。
他们的解法是强制结构化。每个微服务必须提交五件套:服务边界(用一句话说清"我管什么、不管什么")、API契约(OpenAPI规格,禁止手写)、事件清单(发了什么、收什么、什么时候发)、依赖图谱(直接调谁、间接依赖谁)、以及运行时的SLO和错误模式。
这套格式不是建议,是门禁。CI流水线会拦下任何缺少上下文元数据的服务部署。产品经理出身的团队负责人打了个比方:「以前我们写文档像写日记,现在像填税表——痛苦,但审计的时候能救命。」
关键设计是"单一真相源"。同一份结构化数据,人看是网页仪表盘,AI看是向量检索的嵌入(embedding)库。没有翻译损耗,没有版本漂移。
第二层:给AI装上"事实核查员"
结构化数据解决了"查什么",但AI still 会编。微软的第二层防线叫"检索-生成-验证"三段式。
用户提问先过意图分类器:是查事实("订单服务的超时配置")、还是要推理("如果支付失败,资金会卡在哪")、还是纯生成("写个退款接口的单元测试")。只有推理类问题才允许模型"动脑",查事实类必须强制绑定检索到的原文片段。
更狠的是验证层。生成答案后,系统会用轻量级模型做"声明抽取"——把回答拆成可验证的原子命题,再回头去结构化库里对账。对不上的标红,要么删要么换来源。
这个设计直接干掉了最常见的幻觉类型:张冠李戴(把A服务的配置套到B服务)、时间穿越(引用已废弃的API版本)、以及剂量错误(说超时30秒实际是300秒)。
第三层:让人类成为"最后一道防线"
再高自动率也不能100%信任。微软的第三层是反馈闭环:每个AI回答附带"来源卡片",点开展示用了哪些结构化片段、相似度分数多少、有没有经过验证。
工程师可以一键标记"幻觉"或"过时",反馈直通知识库维护队列。团队埋了个数据:被标记过3次以上的片段,会自动降级检索优先级,同时通知owner更新。
三个月跑下来,这个闭环产生了意外收益。人类标记的幻觉案例,70%追根溯源是结构化数据本身的问题——边界描述模糊、事件命名冲突、依赖图谱没跟上重构节奏。AI成了架构健康的"金丝雀",叫得比代码审查还准。
这套系统目前支撑Azure内部4000+微服务的日常查询,峰值QPS到1200。团队没有开源全部代码,但把上下文Schema规范和验证层的Prompt模板放了出来——GitHub repo三天收了4000星。
有个细节挺有意思。他们最初试过让AI直接读源代码找答案,准确率只有19%。代码里的实现细节太多,噪声淹没了信号。强制抽象到"服务契约"层后,AI反而更像资深工程师了——不看每一行怎么写的,先看模块之间怎么约定的。
这引出一个反直觉的结论:让AI更懂你的系统,可能要先逼你的系统更"AI可读"——而这套标准,人类工程师跟着也受益。
你的团队现在怎么让AI助手理解代码库?是放任它 hallucinate 然后人工擦屁股,还是已经开始设计结构化上下文了?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.