网易首页 > 网易号 > 正文 申请入驻

微软把AI训练玩成了"开卷考试":3层防幻觉设计让代码助手准确率

0
分享至

你的AI助手正在一本正经地胡说八道——这不是段子,是2024年Stack Overflow开发者调研里73%的工程师承认的日常。当你问Claude或GPT-4"我们支付服务的退款流程怎么走",它可能给你编一套完全不存在的API调用,还附赠一个虚构的错误码。

微软Azure平台工程团队最近公开了他们怎么治这个毛病。不是给模型灌更多数据,而是重新设计了AI"开卷考试"时能查的"课本"——三层结构化上下文系统,让内部代码助手的准确率从基线的34%干到91%。

第一层:把架构图变成AI能查的"活字典"

传统文档的问题是给人看的,不是给AI读的。微软团队发现,让AI读Confluence页面就像让考生带着图书馆进考场——信息过载,还找不到重点。

他们的解法是强制结构化。每个微服务必须提交五件套:服务边界(用一句话说清"我管什么、不管什么")、API契约(OpenAPI规格,禁止手写)、事件清单(发了什么、收什么、什么时候发)、依赖图谱(直接调谁、间接依赖谁)、以及运行时的SLO和错误模式。

这套格式不是建议,是门禁。CI流水线会拦下任何缺少上下文元数据的服务部署。产品经理出身的团队负责人打了个比方:「以前我们写文档像写日记,现在像填税表——痛苦,但审计的时候能救命。」

关键设计是"单一真相源"。同一份结构化数据,人看是网页仪表盘,AI看是向量检索的嵌入(embedding)库。没有翻译损耗,没有版本漂移。

第二层:给AI装上"事实核查员"

结构化数据解决了"查什么",但AI still 会编。微软的第二层防线叫"检索-生成-验证"三段式。

用户提问先过意图分类器:是查事实("订单服务的超时配置")、还是要推理("如果支付失败,资金会卡在哪")、还是纯生成("写个退款接口的单元测试")。只有推理类问题才允许模型"动脑",查事实类必须强制绑定检索到的原文片段。

更狠的是验证层。生成答案后,系统会用轻量级模型做"声明抽取"——把回答拆成可验证的原子命题,再回头去结构化库里对账。对不上的标红,要么删要么换来源。

这个设计直接干掉了最常见的幻觉类型:张冠李戴(把A服务的配置套到B服务)、时间穿越(引用已废弃的API版本)、以及剂量错误(说超时30秒实际是300秒)。

第三层:让人类成为"最后一道防线"

再高自动率也不能100%信任。微软的第三层是反馈闭环:每个AI回答附带"来源卡片",点开展示用了哪些结构化片段、相似度分数多少、有没有经过验证。

工程师可以一键标记"幻觉"或"过时",反馈直通知识库维护队列。团队埋了个数据:被标记过3次以上的片段,会自动降级检索优先级,同时通知owner更新。

三个月跑下来,这个闭环产生了意外收益。人类标记的幻觉案例,70%追根溯源是结构化数据本身的问题——边界描述模糊、事件命名冲突、依赖图谱没跟上重构节奏。AI成了架构健康的"金丝雀",叫得比代码审查还准。

这套系统目前支撑Azure内部4000+微服务的日常查询,峰值QPS到1200。团队没有开源全部代码,但把上下文Schema规范和验证层的Prompt模板放了出来——GitHub repo三天收了4000星。

有个细节挺有意思。他们最初试过让AI直接读源代码找答案,准确率只有19%。代码里的实现细节太多,噪声淹没了信号。强制抽象到"服务契约"层后,AI反而更像资深工程师了——不看每一行怎么写的,先看模块之间怎么约定的。

这引出一个反直觉的结论:让AI更懂你的系统,可能要先逼你的系统更"AI可读"——而这套标准,人类工程师跟着也受益。

你的团队现在怎么让AI助手理解代码库?是放任它 hallucinate 然后人工擦屁股,还是已经开始设计结构化上下文了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人均600万到欠400亿,毁掉"天下第一村"的不是别人,是他们自己

人均600万到欠400亿,毁掉"天下第一村"的不是别人,是他们自己

闻香阁
2026-04-11 08:40:49
李谷一24岁的时候,喜欢上导师金铁霖,生活了一段,又匆匆分开!

李谷一24岁的时候,喜欢上导师金铁霖,生活了一段,又匆匆分开!

手工制作阿歼
2026-04-12 12:30:02
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
特朗普:除核问题外谈判进展顺利 美将封锁霍尔木兹海峡

特朗普:除核问题外谈判进展顺利 美将封锁霍尔木兹海峡

新华社
2026-04-12 22:08:25
预增最高10倍!002653,今年首季净利相当于去年全年2倍!

预增最高10倍!002653,今年首季净利相当于去年全年2倍!

证券时报e公司
2026-04-12 17:37:24
5.99元起!小米冰淇淋正式发布

5.99元起!小米冰淇淋正式发布

安兔兔
2026-04-10 22:04:57
石宇奇首夺羽毛球亚锦赛男单冠军

石宇奇首夺羽毛球亚锦赛男单冠军

界面新闻
2026-04-12 18:36:16
被父性侵、被丈夫家暴,死后三天才被发现,“最美赵敏”活的真惨

被父性侵、被丈夫家暴,死后三天才被发现,“最美赵敏”活的真惨

云舟史策
2026-03-13 14:19:19
特斯拉仓库堆5万辆车没人买,国产车却排队等3个月!发生了什么?

特斯拉仓库堆5万辆车没人买,国产车却排队等3个月!发生了什么?

科技迷行行
2026-04-12 21:43:10
士兵当将军有多难?四川阿坝5000人参加红军,仅1人55年获大校衔

士兵当将军有多难?四川阿坝5000人参加红军,仅1人55年获大校衔

兴趣知识
2026-03-26 14:01:20
周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

春江财富
2026-04-12 09:29:38
A股:大家提前做好准备,明天,周一很可能这样走了!

A股:大家提前做好准备,明天,周一很可能这样走了!

明心
2026-04-12 12:45:44
2026年3月-4月,乌克兰正在从“不输”走向“能赢”

2026年3月-4月,乌克兰正在从“不输”走向“能赢”

高博新视野
2026-04-10 06:30:09
上海洛夫顿怀特塞德受伤,辽宁锁定季后赛,山东于德豪赛季报销

上海洛夫顿怀特塞德受伤,辽宁锁定季后赛,山东于德豪赛季报销

中国篮坛快讯
2026-04-12 14:18:01
谷歌Gemma 4玩砸了:9B参数暴打Qwen 72B

谷歌Gemma 4玩砸了:9B参数暴打Qwen 72B

爬虫饲养员
2026-04-12 08:26:55
汤尤杯前有惊喜有遗憾,羽毛球亚锦赛国羽2冠2亚收官

汤尤杯前有惊喜有遗憾,羽毛球亚锦赛国羽2冠2亚收官

澎湃新闻
2026-04-12 22:16:28
奚梦瑶儿女看球生图疯传!儿子复刻妈神颜,女儿翻版何猷君

奚梦瑶儿女看球生图疯传!儿子复刻妈神颜,女儿翻版何猷君

阿废冷眼观察所
2026-04-12 19:14:06
2026年一季度汽车集团销量盘点

2026年一季度汽车集团销量盘点

中汽数研
2026-04-12 21:35:10
单程决死突击!伊朗飞行员壮烈牺牲,炸翻美司令部,换掉3架美机

单程决死突击!伊朗飞行员壮烈牺牲,炸翻美司令部,换掉3架美机

沧海旅行家
2026-04-12 21:24:43
儿子办满月酒亲戚嫌远都不来,我不生气过年他们想来我关机回娘家

儿子办满月酒亲戚嫌远都不来,我不生气过年他们想来我关机回娘家

荷兰豆爱健康
2026-04-12 07:21:49
2026-04-12 22:51:00
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
1208文章数 11关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

旅游
艺术
亲子
本地
健康

旅游要闻

香港漫游记:吃美食、打水仗、做按摩 沉浸式体验“泰式狂欢”

艺术要闻

殡葬新规落地,小区里的“骨灰房”真能绝迹吗?

亲子要闻

“晚上疼得睡不着”!8岁女童双眼、身上被灼伤!警惕这东西,不少人家里有

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版