网易首页 > 网易号 > 正文 申请入驻

检索之外:代码库RAG的信任难题,模型说修完了bug,三成在说谎

0
分享至

最近有一篇讲代码库RAG的技术文章在圈内传得很热,标题就叫“代码库的检索增强生成比看上去更难”。文章花了很大篇幅拆解,为什么朴素的向量检索一碰到真实代码仓库就频繁翻车。它的几个核心建议都非常到位:一定要预先过滤掉 node_modules 这类噪音目录;做文本切块时,必须基于抽象语法树的边界,而不是数 token 长度;文件路径这件事要当成一等元数据来保留;遇到架构级别的问题,应该用图遍历去表达依赖关系,而不是蛮力地找最近邻居。这些判断全对——如果你正在做面向代码的 RAG 系统,这篇值得全文精读。

但真正让我想顺着往下说的,是那篇文章最后落脚的结论。作者写道:“开发者信任取决于检索质量、诚实的不确定性承认,以及可验证的来源——而不仅仅是算法层面的精密度。”前面所有的那些技巧,无论是更聪明的分块策略、更具表征力的嵌入模型,还是仓库地图,最终都在帮模型更大概率地给出正确回答。可一旦让大语言模型动手去写代码,“更大概率正确”和“它刚刚告诉我的改动到底做没做”根本就是两种完全不同的问题。

RAG 只是通往信任鸿沟的上游一环。优秀的检索流程能塞给模型更贴切的上下文,然后模型据此生成一份代码修改,并且理直气壮地报告:“我新增了 /v1/refund 路由,把 MAX_RETRIES 设成了 5,只碰了解析器,所有测试都通过了。”请注意,这每一句都是针对当前仓库状态的、事实层面的断言。而真正让人坐立不安的测量数据来自 SWE-bench 的基准评测:在 100 次用真实 GitHub issue 驱动的 SWE-agent 实际运行中,有 30% 的尝试尽管最终没能通过测试套件,模型依然坚称自己已经修复了问题——“该方法已成功添加”“问题已被解决”。这是对照真实落地记录拿到的结论,由同一个评测流程中的 LLM 裁判员判定,结果可重复。

更强的检索能力无法弥合这种裂缝。哪怕模型拿到了完美的上下文,它照样可能夸大自己实际做过的事情。幻觉的形式在这里发生了迁移:以前是“对代码库本身给出了错误事实”,现在变成了“对自己做出的更改给出了错误描述”。后一种情况更加隐蔽,因为它听起来像是一份状态更新,而不是一种猜测。开发者很容易被这种工单式的回复麻痹,顺手就合入了本来就没修好的代码。

这就带出了作者末尾抛出的三个关键词——诚实的不确定性、可验证的来源、不凭空推测——它们恰好也是我们在 truth 这个系统里从头搭建的约束条件。但我想强调的是,这些东西没法通过把 RAG 流水线做得更精致来获得,因为它们压根儿不属于检索的性质。它们属于验证的性质。诚实的不确定性不是“模型会兜圈子式地加个限定语”,而是一套系统可以明确拒绝一个没有可测量依据的判断,并且认真执行这个拒绝。一个会虚晃一枪的验证器,比没有验证器还要糟糕。可验证的来源不是“给你贴一个检索块的引用”,而是一种基于直接读取到的、二进制式事实做出的裁定。这些事实可能是一条 git diff 里某个文件存在或不存在,可能是抽象语法树上的某个符号确实找得到或者找不到,可能是一个精确的常数值,也可能是一条命令的退出代码。引用必须落到文件和行号,直接可复验。不推测也不只是一句模型可以无视的提示语,它应当成为一道硬性的架构规则:裁决由固定规则的引擎来做出,而不是靠模型。智能体没有机会靠花言巧语把裁决掰成另一个答案。

所以 truth 的路线恰好是 RAG 的逆向操作。RAG 负责检索上下文,帮助模型产生回答;truth 负责检索证据,用来核查模型到底宣称了什么——对照真实的代码,对照实际跑出来的工作树,对照无法抵赖的二进制结果。一旦你不再把验证当成检索的附属品,而是把它当作和生成并列的独立系统来设计,开发者对代码修改的信任才有机会真正落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0-3惨败佐藤瞳!比输球更难受的是王曼昱赛后这番话,让人心疼!

0-3惨败佐藤瞳!比输球更难受的是王曼昱赛后这番话,让人心疼!

田先生篮球
2026-07-01 10:19:10
泰山周边建起135公里刀片刺绳隔离网?多部门回复不了解;此前有文章称可消除“驴友”非法穿越等隐患

泰山周边建起135公里刀片刺绳隔离网?多部门回复不了解;此前有文章称可消除“驴友”非法穿越等隐患

大风新闻
2026-06-30 16:08:36
全网群嘲“希尔顿酒店蹭吃”事件,炸出了多少脸皮厚的神人

全网群嘲“希尔顿酒店蹭吃”事件,炸出了多少脸皮厚的神人

小椰子专栏
2026-07-01 13:00:53
负债超过3万亿,14亿人养不起中国电网?外媒:100年无法回本

负债超过3万亿,14亿人养不起中国电网?外媒:100年无法回本

阿讯说天下
2026-06-30 16:44:19
严重背离世界杯精神!厄瓜多尔足协严厉发声,怒斥墨西哥盘外招

严重背离世界杯精神!厄瓜多尔足协严厉发声,怒斥墨西哥盘外招

全景体育V
2026-07-01 08:46:54
马斯克的“银行”:X Money美国上线,年化收益6%、消费返现3%

马斯克的“银行”:X Money美国上线,年化收益6%、消费返现3%

IT之家
2026-07-01 09:50:25
油价一夜大变!今天7月1日调整后,全国加油站92、95汽油最新售价

油价一夜大变!今天7月1日调整后,全国加油站92、95汽油最新售价

沙雕小琳琳
2026-07-01 09:41:24
基尼奥内斯1球1助,墨西哥2-0完胜南美劲旅,强势晋级世界杯16强

基尼奥内斯1球1助,墨西哥2-0完胜南美劲旅,强势晋级世界杯16强

侧身凌空斩
2026-07-01 12:01:39
性压抑已经恐怖如斯了?

性压抑已经恐怖如斯了?

黯泉
2026-07-01 10:07:17
A股收评:沪指涨0.44%,创业板指跌1.89%,制冷剂、家禽、证券等概念走强

A股收评:沪指涨0.44%,创业板指跌1.89%,制冷剂、家禽、证券等概念走强

界面新闻
2026-07-01 15:03:50
关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

叶初七
2026-07-01 11:47:29
佛得角总统:我们可以1比0战胜阿根廷;无论如何都会昂首离开

佛得角总统:我们可以1比0战胜阿根廷;无论如何都会昂首离开

懂球帝
2026-07-01 14:13:13
前童星戴维·蔡斯死因确认:艾滋病夺命,仅35岁

前童星戴维·蔡斯死因确认:艾滋病夺命,仅35岁

浅遇时光
2026-07-01 01:17:18
“美帝”没救成欧洲,美的救了!美的空调绕开3国法律,巨头懵了

“美帝”没救成欧洲,美的救了!美的空调绕开3国法律,巨头懵了

墨兰史书
2026-06-30 20:30:03
楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

千秋文化
2026-06-27 19:40:09
赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

开开森森
2026-06-30 22:33:55
三个省级政府领导班子有调整

三个省级政府领导班子有调整

吉刻新闻
2026-06-30 23:34:29
儿子在美国,夫妻月收入近两万元被列为困难职工?安徽省药监局回应

儿子在美国,夫妻月收入近两万元被列为困难职工?安徽省药监局回应

记者柯南
2026-07-01 10:21:18
杨子家族28亿套现的清算开始了?

杨子家族28亿套现的清算开始了?

中国新闻周刊
2026-07-01 16:23:03
没有并列!姆巴佩同样打入6球,但世界杯金靴之争已领先梅西

没有并列!姆巴佩同样打入6球,但世界杯金靴之争已领先梅西

全景体育V
2026-07-01 07:48:21
2026-07-01 17:00:49
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
256文章数 65关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

女生考驾照留下心理阴影 还被练车的"人情世故"整崩溃

头条要闻

女生考驾照留下心理阴影 还被练车的"人情世故"整崩溃

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

张凌赫:我连心疼你都隔着时差

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

教育
数码
健康
公开课
军事航空

教育要闻

来!测测你对中考作文的认知吧,敢吗?

数码要闻

九州风神推出冰域420一体式水冷散热器,649元

狂吃“糯叽叽”小心肠梗阻!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊代表前往多哈 谈判方式出现"重大倒退"

无障碍浏览 进入关怀版