2023年斯坦福一项研究让法律圈后背发凉:GPT-4每100句输出里,有17句是编造的。一位律师真把ChatGPT虚构的判例搬上法庭,案子直接崩盘。这不是模型变笨了,是它天生就没法"记住"训练截止后的任何事。
大语言模型(LLM)的参数里锁着海量知识,但这些知识像被封在琥珀里的昆虫——漂亮、完整、彻底静止。你的公司内部文档、上周的行业动态、昨天的股价,它一概不知。更麻烦的是,它生成内容时从不标注来源,只是按概率猜下一个词该是什么。
2020年,Meta的AI实验室(当时还叫Facebook AI Research)提出一个解法:Retrieval-Augmented Generation,简称RAG。思路很直白——别让模型硬背,给它配个能实时检索的外部知识库。输出前先去"查资料",再拿查到的东西当论据。相当于把闭卷考试改成开卷。
RAG的原始版本,其实是个"提线木偶"
最早的RAG架构简单粗暴。用户提问→系统去知识库搜相关片段→把片段和原问题一起塞给模型→模型基于这些材料作答。这套流程解决了"知识新鲜度"问题,但有个致命假设:搜出来的东西一定对,且一定够。
现实很骨感。知识库检索靠向量相似度,本质是"找长得像的"。用户问"苹果最新财报",系统可能捞出三年前的旧数据,因为关键词重叠度高。更隐蔽的是,模型对检索结果照单全收,不会质疑"这资料靠谱吗""够回答吗"。
这种单向流程就像让实习生去图书馆找资料写报告——找什么全凭关键词运气,找到什么算什么,从不主动追问"还有没有别的"。学术圈后来管这叫"朴素RAG"(Naive RAG),带着点嘲讽的善意。
从"查资料"到"做研究",中间差了三道坎
要让RAG真正可用,得补上三个缺口。
第一,检索得能迭代。一次搜索不够,要像研究员那样,根据初步结果调整关键词再搜。用户问"某芯片功耗",首轮可能只拿到营销话术;系统得识别出"缺实测数据",主动追加搜索"实验室评测""功耗曲线"。
第二,模型得会验证。拿到五篇资料,要能交叉比对——A说续航12小时,B说同场景只有8小时,得标记矛盾、追问细节、判断哪方更可信。而不是把五篇拼凑成一篇看似流畅的废话。
第三,流程得能分叉。复杂问题需要拆解。问"某国AI监管对出海企业的影响",得先拆成"现行法规有哪些""执法尺度如何""同类企业被罚案例",每个子问题走独立检索链,最后汇总。单线程的朴素RAG做不到这个。
Agentic RAG:给系统装上"职业习惯"
2023年后,行业开始把"智能体"(Agent)概念揉进RAG。核心变化是:系统不再被动执行检索-生成两步,而是获得目标导向的自主规划能力。
具体表现为几个新模块。路由(Routing):判断问题该走知识库、搜索引擎还是实时数据库。反思(Reflection):生成初稿后自检"这里缺数据支撑",触发补充检索。工具调用(Tool Use):发现需要计算时主动调Python,需要最新股价时调金融API。
这套架构的比喻很形象:朴素RAG是图书馆管理员,你问什么他找什么;Agentic RAG是雇佣了一位研究员——会追问需求、会查多源资料、会验证矛盾、会主动补漏。当然,成本也高了一个数量级。
关键区别在于反馈闭环。朴素RAG是直线,Agentic RAG是带循环的图。每一步输出都可能触发新的检索或计算,直到系统自己判断"够用了"。
目前主流实现分两类。一类是单代理深度模式,一个Agent包办规划、检索、验证全流程,适合复杂但边界清晰的问题。一类是多代理协作模式,检索员、验证员、撰写员各司其职,通过消息队列协作,适合需要多领域知识的任务。
LangChain、LlamaIndex等框架已经内置这些模块,但落地时有个隐形门槛:你的知识库质量。检索再聪明,库里的文档结构混乱、版本冲突、缺少元数据,系统也会反复踩坑。很多企业折腾半年Agentic架构,最后发现最大的ROI来自先把PDF整理成结构化数据。
斯坦福那17%的幻觉率,在Agentic RAG的实测中能被压到个位数。代价是延迟从秒级变成分钟级,单次成本涨5-10倍。技术选型回到那个老问题:你的场景,值得为准确性付多少溢价?
一位做企业知识库的朋友最近吐槽:客户总想要"研究员级"的准确度,却只愿付"管理员级"的预算。这个落差,大概才是RAG落地最持久的瓶颈。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.