向量数据库50亿美元估值背后：1个被误解7年的产品假设|算法|索引|应用层|数据仓库|postgres

向量数据库50亿美元估值背后：1个被误解7年的产品假设

分享至

2023年，全球向量数据库融资额超过5亿美元。Pinecone估值冲到7.5亿，Weaviate、Qdrant、Chroma轮番宣布大额融资。但一位在数据库领域摸爬滚打20年的工程师，最近扔出了一颗炸弹：整个行业的根基，可能建在一个错误的产品假设上。

这个假设很简单——大模型需要向量数据库来做长期记忆。但真相是，大多数应用场景根本不需要专门的数据库。向量搜索只是搜索问题的一个子集，而搜索问题，早就有更成熟的解法。

「向量数据库」这个品类，是怎么被造出来的

2017年，Facebook开源了FAISS（Facebook AI Similarity Search，脸书人工智能相似性搜索库）。这是一个高效的近似最近邻搜索库，专门用来在大规模向量里找相似项。它很快成为推荐系统和图像检索的标配工具。

但FAISS有个特点：它只是个库，不是完整的数据库。你需要自己处理数据持久化、分布式部署、实时更新这些脏活累活。

2019年前后，一批创业者看到了机会。他们把FAISS或者类似的ANN（Approximate Nearest Neighbor，近似最近邻）算法包装成托管服务，加上了REST API和云原生架构。Pinecone是这里面跑得最快的，2021年产品上线，2023年估值就冲到7.5亿美元。

资本的热情来自一个叙事：大模型来了，它们需要记忆。向量数据库就是AI的硬盘。

这个叙事的问题在于，它混淆了两个完全不同的需求。一个是「给大模型做长期记忆」，另一个是「在海量向量里快速找相似的」。前者是应用层的问题，后者是算法层的问题。把它们强行捏成一个品类，就像因为汽车需要轮胎，就把轮胎厂叫做「汽车记忆公司」。

被忽视的真相：PostgreSQL早就赢了

2023年，PostgreSQL（开源关系型数据库）的pgvector扩展下载量暴涨。这个扩展让Postgres（PostgreSQL的简称）原生支持向量搜索，性能对比专用向量数据库毫不逊色。

一位在Uber（优步）做过搜索基础设施的工程师算了笔账：用pgvector跑一个典型的RAG（Retrieval-Augmented Generation，检索增强生成）应用，延迟在50毫秒以内，成本是专用向量数据库的1/10。

更关键的是，大多数公司的数据本来就在Postgres里。向量搜索只是搜索需求的一小部分，剩下的过滤、排序、事务、权限管理，专用向量数据库要么不支持，要么做得很糙。

Pinecone的文档里有个很有意思的细节：他们花了大量篇幅教用户怎么把向量数据库和主数据库做数据同步。这个「同步」本身就是个危险信号——它意味着你在维护两套真相来源，而分布式系统里，同步代码是bug的重灾区。

一位在Shopify（电商平台）工作的工程师说：「我们试过Pinecone，最后回滚了。问题不是性能，是我们不想在半夜被叫醒处理数据不一致。」

大模型真的需要「向量数据库」吗

RAG（检索增强生成）的流行，让向量数据库站上了风口。但RAG的核心是「检索」，不是「向量」。向量只是检索的一种手段，而且远非最优。

Google（谷歌）的搜索团队早在2020年就发表过一篇论文，讲的是如何用稀疏向量+倒排索引做语义搜索。效果比稠密向量更好，计算成本更低。这个技术路线被命名为SPLADE，现在已经是Elasticsearch（开源搜索和分析引擎）的默认配置之一。

更激进的方案来自OpenAI（人工智能研究公司）自己。他们的Assistants API（助手应用程序接口）内置了检索功能，底层实现从未公开。但多位开发者通过延迟测试推测，它可能根本没用向量数据库，而是直接用大模型做关键词提取，再查传统的倒排索引。

如果这是真的，那就太讽刺了：卖铲子的人告诉你挖金子需要专用铲子，但挖金子的人自己用的是勺子。

向量搜索的真正价值场景很窄：亿级以上的向量规模，且查询模式是纯相似性搜索，没有复杂的过滤条件。符合这个条件的公司，全球可能不超过100家。

资本的游戏，工程师的代价

2023年，向量数据库领域的融资额占整个数据库赛道的40%。这笔钱没有让技术变得更好，只是让销售变得更激进。

Pinecone的定价模型是个典型例子：按存储的向量维度收费，而不是按实际计算资源。这意味着你存一个512维的向量，和存一个1536维的向量，价格差3倍，但它们的存储成本几乎一样。

一位在Series B（B轮融资）公司做ML（Machine Learning，机器学习）基础设施的CTO（首席技术官）吐槽：「我们被销售说服买了年付套餐，结果六个月后迁移回Postgres，省下来的钱够招两个工程师。」

更隐蔽的成本是复杂性。每多一个数据库，就意味着多一套监控、多一套备份、多一套故障预案。创业公司早期用Pinecone图省事，等到数据量上来，迁移成本往往高到不得不咬牙继续用。

这种「锁定」不是技术决定的，是组织架构决定的。工程师懒得向老板解释为什么要花两个月做迁移，尤其是在老板刚批准了向量数据库的年度预算之后。

那50亿美元去哪了

向量数据库不会消失，但会收缩成一个功能，而不是一个品类。就像20年前的对象数据库，最终被关系数据库吸收；10年前的图数据库，正在变成关系数据库的扩展。

PostgreSQL的pgvector在2023年加了HNSW（Hierarchical Navigable Small World，分层可导航小世界）索引，查询性能和专用数据库的差距缩小到10%以内。这个差距，对于大多数应用来说，远低于网络延迟的波动。

Elastic和MongoDB（文档型数据库）也在快速跟进。它们的向量搜索功能，2024年的路线图里都排进了前三位。

留给专用向量数据库的窗口期，可能只剩12到18个月。这不是技术判断，是产品节奏的判断——一旦主流数据库「足够好用」，迁移动力就会断崖式下跌。

Pinecone的应对策略是向上游走，推自己的「AI应用平台」。但这个领域已经有LangChain（开源框架）、LlamaIndex（开源框架）、甚至OpenAI自己在做。一个数据库公司做应用层，就像轮胎厂想造整车，不是不可能，只是没什么胜算。

一位在2022年投过向量数据库的VC（风险投资）合伙人说：「我们当时赌的是『大模型需要新基础设施』，这个前提没错。但我们错把『新功能』当成了『新品类』。」

这个错误，在 enterprise software（企业软件）的历史上反复发生。数据仓库、数据湖、数据湖仓，每一次都是先造品类，再被通用平台吸收。向量数据库只是最新的一集。

2024年3月，Pinecone的GitHub（代码托管平台）仓库里，一个被标记为「high priority」（高优先级）的issue（问题）已经挂了8个月：支持复杂过滤条件的混合查询。下面最高赞的评论是：「我们因为这个功能缺失，正在评估迁移到Postgres。」

这个issue的状态，至今还是「open」（开放中）。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

向量数据库50亿美元估值背后：1个被误解7年的产品假设

「向量数据库」这个品类，是怎么被造出来的

被忽视的真相：PostgreSQL早就赢了

大模型真的需要「向量数据库」吗

资本的游戏，工程师的代价

那50亿美元去哪了

ChatGPT十亿用户又怎样?Anthropic直接贴脸

法国全票通过 “将不义之财归还中国”

法国全票通过 “将不义之财归还中国”

三球准绝杀戴大金链：轰30+10自我救赎

谢娜现身环球影城，牵手女儿温馨有爱

业绩失速的Lululemon:"健康"人设崩塌?

空间丝毫不用妥协 小鹏GX首发评测

态度原创

12吨巧克力有难，全网化身超级侦探添乱

一加Ace6至尊版再次被确认：魔改天玑9500+165Hz屏，本月发布！

重磅调规！341亩商改住+中小学用地！宝龙城这把稳了？

孕妇200买水果被骂后续：已终止妊娠，男方崩溃砸东西，网友炸锅

空间丝毫不用妥协小鹏GX首发评测