2023年,全球向量数据库融资额超过5亿美元。Pinecone估值冲到7.5亿,Weaviate、Qdrant、Chroma轮番宣布大额融资。但一位在数据库领域摸爬滚打20年的工程师,最近扔出了一颗炸弹:整个行业的根基,可能建在一个错误的产品假设上。
这个假设很简单——大模型需要向量数据库来做长期记忆。但真相是,大多数应用场景根本不需要专门的数据库。向量搜索只是搜索问题的一个子集,而搜索问题,早就有更成熟的解法。
「向量数据库」这个品类,是怎么被造出来的
2017年,Facebook开源了FAISS(Facebook AI Similarity Search,脸书人工智能相似性搜索库)。这是一个高效的近似最近邻搜索库,专门用来在大规模向量里找相似项。它很快成为推荐系统和图像检索的标配工具。
但FAISS有个特点:它只是个库,不是完整的数据库。你需要自己处理数据持久化、分布式部署、实时更新这些脏活累活。
2019年前后,一批创业者看到了机会。他们把FAISS或者类似的ANN(Approximate Nearest Neighbor,近似最近邻)算法包装成托管服务,加上了REST API和云原生架构。Pinecone是这里面跑得最快的,2021年产品上线,2023年估值就冲到7.5亿美元。
资本的热情来自一个叙事:大模型来了,它们需要记忆。向量数据库就是AI的硬盘。
这个叙事的问题在于,它混淆了两个完全不同的需求。一个是「给大模型做长期记忆」,另一个是「在海量向量里快速找相似的」。前者是应用层的问题,后者是算法层的问题。把它们强行捏成一个品类,就像因为汽车需要轮胎,就把轮胎厂叫做「汽车记忆公司」。
被忽视的真相:PostgreSQL早就赢了
2023年,PostgreSQL(开源关系型数据库)的pgvector扩展下载量暴涨。这个扩展让Postgres(PostgreSQL的简称)原生支持向量搜索,性能对比专用向量数据库毫不逊色。
一位在Uber(优步)做过搜索基础设施的工程师算了笔账:用pgvector跑一个典型的RAG(Retrieval-Augmented Generation,检索增强生成)应用,延迟在50毫秒以内,成本是专用向量数据库的1/10。
更关键的是,大多数公司的数据本来就在Postgres里。向量搜索只是搜索需求的一小部分,剩下的过滤、排序、事务、权限管理,专用向量数据库要么不支持,要么做得很糙。
Pinecone的文档里有个很有意思的细节:他们花了大量篇幅教用户怎么把向量数据库和主数据库做数据同步。这个「同步」本身就是个危险信号——它意味着你在维护两套真相来源,而分布式系统里,同步代码是bug的重灾区。
一位在Shopify(电商平台)工作的工程师说:「我们试过Pinecone,最后回滚了。问题不是性能,是我们不想在半夜被叫醒处理数据不一致。」
大模型真的需要「向量数据库」吗
RAG(检索增强生成)的流行,让向量数据库站上了风口。但RAG的核心是「检索」,不是「向量」。向量只是检索的一种手段,而且远非最优。
Google(谷歌)的搜索团队早在2020年就发表过一篇论文,讲的是如何用稀疏向量+倒排索引做语义搜索。效果比稠密向量更好,计算成本更低。这个技术路线被命名为SPLADE,现在已经是Elasticsearch(开源搜索和分析引擎)的默认配置之一。
更激进的方案来自OpenAI(人工智能研究公司)自己。他们的Assistants API(助手应用程序接口)内置了检索功能,底层实现从未公开。但多位开发者通过延迟测试推测,它可能根本没用向量数据库,而是直接用大模型做关键词提取,再查传统的倒排索引。
如果这是真的,那就太讽刺了:卖铲子的人告诉你挖金子需要专用铲子,但挖金子的人自己用的是勺子。
向量搜索的真正价值场景很窄:亿级以上的向量规模,且查询模式是纯相似性搜索,没有复杂的过滤条件。符合这个条件的公司,全球可能不超过100家。
资本的游戏,工程师的代价
2023年,向量数据库领域的融资额占整个数据库赛道的40%。这笔钱没有让技术变得更好,只是让销售变得更激进。
Pinecone的定价模型是个典型例子:按存储的向量维度收费,而不是按实际计算资源。这意味着你存一个512维的向量,和存一个1536维的向量,价格差3倍,但它们的存储成本几乎一样。
一位在Series B(B轮融资)公司做ML(Machine Learning,机器学习)基础设施的CTO(首席技术官)吐槽:「我们被销售说服买了年付套餐,结果六个月后迁移回Postgres,省下来的钱够招两个工程师。」
更隐蔽的成本是复杂性。每多一个数据库,就意味着多一套监控、多一套备份、多一套故障预案。创业公司早期用Pinecone图省事,等到数据量上来,迁移成本往往高到不得不咬牙继续用。
这种「锁定」不是技术决定的,是组织架构决定的。工程师懒得向老板解释为什么要花两个月做迁移,尤其是在老板刚批准了向量数据库的年度预算之后。
那50亿美元去哪了
向量数据库不会消失,但会收缩成一个功能,而不是一个品类。就像20年前的对象数据库,最终被关系数据库吸收;10年前的图数据库,正在变成关系数据库的扩展。
PostgreSQL的pgvector在2023年加了HNSW(Hierarchical Navigable Small World,分层可导航小世界)索引,查询性能和专用数据库的差距缩小到10%以内。这个差距,对于大多数应用来说,远低于网络延迟的波动。
Elastic和MongoDB(文档型数据库)也在快速跟进。它们的向量搜索功能,2024年的路线图里都排进了前三位。
留给专用向量数据库的窗口期,可能只剩12到18个月。这不是技术判断,是产品节奏的判断——一旦主流数据库「足够好用」,迁移动力就会断崖式下跌。
Pinecone的应对策略是向上游走,推自己的「AI应用平台」。但这个领域已经有LangChain(开源框架)、LlamaIndex(开源框架)、甚至OpenAI自己在做。一个数据库公司做应用层,就像轮胎厂想造整车,不是不可能,只是没什么胜算。
一位在2022年投过向量数据库的VC(风险投资)合伙人说:「我们当时赌的是『大模型需要新基础设施』,这个前提没错。但我们错把『新功能』当成了『新品类』。」
这个错误,在 enterprise software(企业软件)的历史上反复发生。数据仓库、数据湖、数据湖仓,每一次都是先造品类,再被通用平台吸收。向量数据库只是最新的一集。
2024年3月,Pinecone的GitHub(代码托管平台)仓库里,一个被标记为「high priority」(高优先级)的issue(问题)已经挂了8个月:支持复杂过滤条件的混合查询。下面最高赞的评论是:「我们因为这个功能缺失,正在评估迁移到Postgres。」
这个issue的状态,至今还是「open」(开放中)。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.