把 RAG 做成主流的公司，现在开始“做空”RAG 了|向量|调用|数据源|上下文|agent

把 RAG 做成主流的公司，现在开始“做空”RAG 了

2026-05-12 11:57:16　来源: InfoQ

北京举报

分享至

编译 | Tina

Pinecone 刚刚几乎等于亲口宣布：RAG 时代结束了。

作为向量数据库赛道的开创者，Pinecone 当年亲手把 RAG 定义成了大语言模型 grounding 的标准范式。过去几年里，大约 80 万开发者、9000 家付费客户，都在 Pinecone 的基础设施上学习如何切 chunk、做 embedding、跑 retrieval。而随着本周一发布面向 Agent 的知识引擎 Nexus，Pinecone 现在却开始告诉这些开发者：他们过去学会的那套模式，如今反而成了瓶颈。

1 Pinecone 亲手定义的赛道，如今被它亲手判了过时

如果仔细看 Pinecone 对 Nexus 的描述，会发现它几乎是在重新定义整个 retrieval 模式。它把 retrieval-at-inference（推理检索）形容成“Agent 检索的十条蓝色链接时代（the ten blue links era of agentic retrieval）”。

这里的“十条蓝色链接”，其实是在借用早年搜索引擎的经典意象：搜索引擎只负责甩给你一堆链接，用户自己点进去、自己阅读、自己拼信息。Pinecone 的意思是，现在很多 Agent 的 retrieval，本质上也还停留在这种“AI 版搜索引擎”阶段——不停 retrieve、read、再 retrieve。

它给出的数据是：

陷在 retrieve-read-retrieve 循环里的 Agent，任务完成率通常只有 50% 到 60%；而且 Agent 85% 的精力，其实都消耗在“找上下文”这件事上。

Pinecone 的核心观点是：把一堆原始 chunk 直接丢给前沿模型，然后期待模型自己理解、自己推理，这套方式既脆弱、又慢，还非常昂贵。

而这套描述，其实就是换了个名字的 RAG。过去四年里，Pinecone 一直在推动的正是这套模式：教程、培训内容、开发者关系体系，几乎全都围绕它展开。只是现在，向量数据库已经不再是面向开发者的“产品表层”，而变成了更底层的基础设施。真正的产品层，又往上移动了一层。

这种级别的“自我揭短”其实很少见。大多数基础设施厂商，即便已经意识到旧模式在衰退，也会继续卖旧东西，等市场自己慢慢察觉。但 Pinecone 成了第一个主动把这件事说出来的厂商，他们表示：“Agent 时代需要一些不同的东西。”

2 “知识编译”正在取代 RAG

Pinecone 现在的新关键词叫“Knowledge Compilation（知识编译）”。核心变化，其实是把“推理”提前了。

他们表示今天的 Agent，其实还无法真正表达“自己需要什么”。这不是功能缺失，而是更底层的结构性缺口。

现在几乎每一个做 Agent 应用的团队，都在重复造同样的 retrieval 轮子：自定义工具定义、在 Agent 框架和数据源之间写一堆胶水代码、做各种一次性的集成，而这些东西只要底层稍微变化一下就会崩掉。整个行业至今都没有一套统一的“知识请求语言”，让 Agent 能清楚表达自己究竟想从知识系统里得到什么。

这其实不是第一次发生类似的事。在 SQL 出现之前，每个应用也都得自己实现一套数据访问层。后来 SQL 给关系型数据库提供了一个通用接口，整个应用生态才真正建立起来。真正改变行业的，不只是数据库本身，而是那个统一接口。

现在 Agent 也走到了类似的结构性时刻。而且，有些东西，它们今天甚至根本“说不出来”。

“直接把答案给我，而不是二十段 chunk。” 现在没有统一的输出结构约定，Agent 拿到的往往还是原始文本，每次调用之后都得重新解析，token 消耗也随之暴涨。

“告诉我答案来自哪个来源，以及它的可信度。” 今天大多数系统都缺乏字段级别的 grounding，Agent 没法区分哪些是事实、哪些只是模型猜测，于是输出天然不稳定，也缺乏治理能力。

“把推理深度控制在标准范围内，并在 500 毫秒内返回。” 现在没有统一的 budget envelope（预算边界）。每次调用可能无限下钻、无限延长，最终结果就是不可预测、缓慢而浪费。

KnowQL 想解决的，就是 Agent 缺失的这套“表达能力”。

过去的模式里，Agent 会在查询时临时抓取二十段 chunk，再疯狂消耗 token 去理解这些内容到底是什么意思；而 Nexus 的做法，是提前把源数据预编译成带类型、可引用、面向具体任务的知识产物（artifacts）。Agent 查询的不再是原始语料库，而是这些已经整理好的 artifacts。

KnowQL 则给 Agent 提供了一套完成这件事的“语言”。它把 intent（意图）、filter（过滤）、provenance（来源）、output shape（输出格式）、confidence（置信度）以及 latency budget（延迟预算）这六个 primitive，封装进一次声明式调用里，最终直接返回一个带引用、结构化的结果。

Pinecone 声称，这种方式能把任务完成率提高到 90% 以上，同时把 token 开销降低 90%。这些数字当然还需要生产环境验证，暂时别太早全信。但就算不看具体数字，方向其实已经很明确了：“编译一次，多次复用（compile once, read many times）”，本来就更适合 Agent 工作负载。

而且，往这个方向走的，也不只有 Pinecone 一家。更大的趋势，其实是：整个 AI 世界都在把“推理”往上游移动。

Anthropic 推出的 Skills，本质上就是预编译、可复用的上下文包；Cursor 的 Rules，在编辑器层做的是同一件事；Claude Code 的 subagents，会为不同任务提前打包上下文和工具；而 LangChain 的 Harrison Chase 这几个月一直在强调的“context engineering”，也是同一个方向。现在，Pinecone 只是把这种思路推进到了 retrieval 层。

这个模式本身并不新鲜。真正新鲜的是：第一个公开宣布它的人，居然是 Pinecone 自己。当然，也有人会提出合理质疑。KnowQL 能不能像 SQL 那样成为真正的标准，还有很长的路要走。毕竟，标准不是某一家厂商一句话就能定义出来的。向量检索本身也不会消失，很多 Agent 工作负载依然需要廉价、快速的文本相似度搜索。真正变化的，是价值所在的位置。

如果未来 12 个月的发展，真的像 Pinecone 押注的那样，那么向量搜索会慢慢变成“水电煤”一样的基础设施；Knowledge Compilation 才会成为真正的产品层；而“RAG pipeline”这个词，最后可能会像今天的“LAMP stack”一样，变成一种带着敬意的历史名词。

最可能判断错的，其实也是“时间点”。因为一个技术范式的衰退，往往都会比厂商宣告它“结束”时来得更慢。但大的方向已经很明显了。而最先把这个方向说出来的，偏偏正是当年亲手把 RAG 做成主流的那家公司。

那个曾经教你怎么做 RAG 的厂商，现在开始告诉你：别再这么干了。

https://www.pinecone.io/blog/knowledge-infrastructure-for-agents/

https://thenewstack.io/pinecone-nexus-rag-obsolete/

声明：本文为 InfoQ 整理，不代表平台观点，未经许可禁止转载。

会议推荐

世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？安全与可信这道坎怎么过？研发体系不重构，还能撑多久？

AICon 上海站 2026，4 大核心专题等你来：世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026，期待与你同行。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.