网易首页 > 网易号 > 正文 申请入驻

向量搜索:为什么你的数据库找不到"相似"的东西?

0
分享至

你的数据库能回答"6只狗",却答不出"宠物生了5只小狗"——这不是技术问题,是数学问题。

传统数据库把每个数据点当成孤岛,"狗"和"宠物"之间没有天然联系。但人类提问时,"我有6只宠物"和"我家狗生了5只小狗"明明指向同一件事。这种语义鸿沟,就是向量搜索要填的坑。


向量到底是什么?别被数学吓到

向量最简单的定义:有大小、有方向的量。

想象你站在地图原点。我说"走60公里"——你会反问:往哪?完整指令必须是"向西北走60公里"或"向北走40公里"。方向+距离,这就是向量。

现在三个人同时出发:

• A向西北走60公里

• B向西北走60公里

• C向东南走10公里

C走得最短,但离A最远。B和A方向相同,哪怕距离一样,两人终点也更"近"。这里的"近"不是地理距离,是方向相似度。

怎么量化这种相似?测夹角。夹角越小,方向越像,发散程度越低。

把这个逻辑搬到语言上:"我有只狗"设为40°,"狗生了5只小狗"设为60°,"汽车"设为230°。角度差20° vs 190°,相似度一目了然。这就是向量搜索的底层机制——把语义变成几何。

为什么传统数据库搞不定这个?

关系型数据库的设计哲学是精确匹配。你写SELECT * FROM animals WHERE type = 'pet',它只认"pet"这个标签。

问题是:日常数据80%是非结构化的。用户不会按你的表结构提问,他们会说"我家毛孩子刚生了一窝"——这句话里既没有"pet"也没有"dog",但人类一听就懂。

传统方案的应对方式是加字段、建关联表、写复杂JOIN。宠物→狗→幼犬→生育记录,层层建模。这套系统在电商SKU、财务科目里能跑,但遇到开放域的文本、图像、语音,工程复杂度指数级爆炸。

更隐蔽的痛点是:相似性无法硬编码。"可爱小狗"和"萌犬幼崽"算不算一回事?不同场景答案不同。规则引擎越写越厚,维护成本压垮团队。

向量搜索换了一条路:不教计算机"什么是相似",让它自己从数据里学。

嵌入模型:把万物变成坐标

具体怎么操作?需要一个叫"嵌入"(Embedding)的中间层。

嵌入模型是神经网络,训练目标很简单:让语义相近的输入,在向量空间里位置相近。输入一句话、一张图、一段音频,输出一串数字——通常是几百到几千维的向量。

这个向量不是随机数。模型通过海量数据训练,学会了"国王-男人+女人≈女王"这种算术关系,也学会了"特斯拉"和"电动车"比"特斯拉"和"哥斯拉"更近。

关键突破在于:嵌入把"相似性判断"从规则工程变成了数学运算。查询时,把你的问题也变成向量,算它和库中所有向量的距离,返回最近的K个。这就是K近邻搜索(KNN)。

但KNN有个致命问题:数据量大了,逐条计算距离太慢。百万级数据还能忍,十亿级直接卡死。

近似最近邻:用精度换速度

工程上的解法叫ANN(近似最近邻)。不追求100%精确,允许小幅误差,换取数量级的速度提升。

主流ANN算法分几派:

• 基于树:如Annoy,把空间递归划分,查询时快速排除大片区域

• 基于哈希:如LSH(局部敏感哈希),相似向量大概率进同一个桶

• 基于图:如HNSW,构建导航图,查询时贪心游走找近邻

• 基于量化:如PQ(乘积量化),压缩向量维度,减少内存和计算量

实际系统往往是组合拳。比如Faiss库,把PQ和IVF(倒排文件)结合,十亿级向量也能毫秒级响应。

选型时要权衡三个指标:召回率(找得多准)、查询延迟(多快返回)、内存占用。没有银弹,业务场景决定取舍。

正方:向量搜索正在重构数据基础设施

支持方认为,这是搜索技术的范式转移。

第一,语义检索成为标配。ChatGPT带火的RAG(检索增强生成)架构,核心就是向量数据库。大模型有幻觉、有知识截止,用向量搜索从企业私域文档里找相关片段,再让模型组织答案——这套流程已经是AI应用的默认选项。

第二,多模态统一成为可能。文本、图像、音频、视频,全部嵌入到同一向量空间,跨模态检索变成数学问题。上传一张鞋的照片,搜出相似款式;哼一段旋律,找到原曲——这些功能不再需要为每种模态单独建系统。

第三,实时个性化门槛降低。推荐系统的经典难题是"用户实时兴趣"和"物品海量库存"的匹配。向量搜索让"用用户最近行为向量,秒级召回相似物品"成为工程可行方案,不再需要复杂的特征工程和在线计算。

第四,开源生态成熟。Milvus、Pinecone、Weaviate、Qdrant等产品各显神通,云厂商也纷纷上线托管服务。创业公司不用从零造轮子,聚焦业务逻辑即可。

反方:热潮背后有结构性限制

质疑方的论点同样扎实。

第一,向量搜索不是万能药。它解决的是"相似性检索",不是"精确检索"。订单号查询、账户余额校验这类强一致性场景,关系型数据库仍是正统。强行用向量搜索,是技术选型错误。

第二,嵌入质量决定天花板。模型没见过的领域,嵌入可能完全失效。医疗、法律、工业等垂直场景,通用模型往往不如关键词匹配。微调嵌入模型需要数据和算力,成本不低。

第三,可解释性黑洞。"为什么返回这个结果?"向量相似度给不出人类能理解的答案。金融风控、医疗诊断等高风险场景,黑箱检索难以通过合规审计。

第四,成本曲线陡峭。十亿级向量的内存占用、ANN索引的构建时间、多副本的同步开销——这些在Demo里看不见,生产环境会逐一暴露。Pinecone的托管服务不便宜,自建团队需要专门的向量数据库工程师。

第五,数据更新困境。新增数据要重新嵌入,删除数据要清理索引,修改数据更是麻烦。高频变更场景下,向量数据库的实时性和一致性保障,比传统数据库弱得多。

我的判断:向量搜索是必要组件,不是替代方案

两边观点都成立,关键看怎么定位。

向量搜索的真正价值,是把"模糊匹配"从不可能变成可能。以前需要写几百条规则的语义理解,现在一个嵌入模型+向量索引就能覆盖80%场景。这是生产力跃迁。

但它不会取代关系型数据库,而是与之并存。现代架构的趋势是"混合检索":先用向量搜索召回候选集,再用规则过滤、精排;或者向量索引和倒排索引并行,结果融合。每种工具干自己擅长的事。

对技术团队的建议:如果业务涉及非结构化数据检索、语义推荐、RAG应用,向量搜索值得投入。但别被"AI原生"叙事冲昏头,先问自己:嵌入质量怎么保障?更新频率能否承受?结果可解释性要求多高?

向量搜索的普及,本质是把"相似性"这个人类直觉,编码成了机器可计算的数学对象。这扇门打开后,不会关上。但门后不是乌托邦,是另一组工程权衡。

你的场景里,有多少查询是"我知道我要找什么",有多少是"我不知道准确描述,但看到就认得出来"?这个比例,可能决定了向量搜索在你技术栈里的权重。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
去你的0-4!31分,他为大场面而生,3年啊!终于打出来了

去你的0-4!31分,他为大场面而生,3年啊!终于打出来了

体育新角度
2026-04-22 17:36:30
炸穿台湾政坛!蒋友松强行迁走两蒋悬棺,半世纪漂泊终要归乡

炸穿台湾政坛!蒋友松强行迁走两蒋悬棺,半世纪漂泊终要归乡

陈漎侃故事
2026-04-14 17:28:18
欠了2.4万亿 许家印15年前发言:赢一场球奖500万 你要什么有什么

欠了2.4万亿 许家印15年前发言:赢一场球奖500万 你要什么有什么

风过乡
2026-04-22 13:48:05
股市歌舞升平!有人却在迎接饥荒

股市歌舞升平!有人却在迎接饥荒

睿知睿见
2026-04-23 07:24:35
这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

喜欢历史的阿繁
2026-04-16 11:17:28
甘肃天水一佳人好漂亮, 身高168cm,体重48kg 美的让人移不开眼

甘肃天水一佳人好漂亮, 身高168cm,体重48kg 美的让人移不开眼

乡野小珥
2026-04-08 00:48:57
外院缝合被同行怒批:瞎胡闹,游医水平!一个真让做,一个真敢做

外院缝合被同行怒批:瞎胡闹,游医水平!一个真让做,一个真敢做

新浪财经
2026-04-22 12:10:58
记者:如果埃斯特旺立即手术,则意味着他将铁定无缘世界杯

记者:如果埃斯特旺立即手术,则意味着他将铁定无缘世界杯

懂球帝
2026-04-23 01:31:05
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
陈凯琳随时再当妈妈 明示想为郑嘉颖追第四胎!无惧容貌改变身体受苦:绝对愿意再经历

陈凯琳随时再当妈妈 明示想为郑嘉颖追第四胎!无惧容貌改变身体受苦:绝对愿意再经历

TVB资讯台
2026-04-22 22:06:56
前7轮仅一胜,青岛西海岸让郑智执教和让郑智化执教,没啥区别

前7轮仅一胜,青岛西海岸让郑智执教和让郑智化执教,没啥区别

姜大叔侃球
2026-04-22 21:57:06
总市值站上万亿! 中际旭创最近1年飙升超9倍

总市值站上万亿! 中际旭创最近1年飙升超9倍

财联社
2026-04-23 09:34:43
年租金从12.8万飙至28万!杭州一小吃店老板发愁:一上来就涨价,真是扛不牢!搬走又舍不得老街坊;运营方称系市场行为,管理方介入协调

年租金从12.8万飙至28万!杭州一小吃店老板发愁:一上来就涨价,真是扛不牢!搬走又舍不得老街坊;运营方称系市场行为,管理方介入协调

极目新闻
2026-04-22 12:46:14
阿森纳颤抖?曼城11天抹平9分差距 冠军稳了:33轮后领跑从未丢冠

阿森纳颤抖?曼城11天抹平9分差距 冠军稳了:33轮后领跑从未丢冠

我爱英超
2026-04-23 06:36:20
马上评|一部不存在的法规何以被引用多年?

马上评|一部不存在的法规何以被引用多年?

澎湃新闻
2026-04-22 12:06:26
伊朗代表:美国解除对伊海上封锁或可成为谈判基础

伊朗代表:美国解除对伊海上封锁或可成为谈判基础

新京报
2026-04-22 07:35:07
最后时刻签了,高市将全面梭哈?中日航班已停飞,解放军准时出海

最后时刻签了,高市将全面梭哈?中日航班已停飞,解放军准时出海

铁锤简科
2026-04-22 14:07:01
别让停车费吓退消费者

别让停车费吓退消费者

经济日报
2026-04-23 06:37:15
报复说来就来!伊朗三倍扣押巨轮,现代版海盗开打,美国不好收场

报复说来就来!伊朗三倍扣押巨轮,现代版海盗开打,美国不好收场

军机Talk
2026-04-22 18:00:11
央国企的几大乱象:关系户横行、巨大的虚假繁荣......

央国企的几大乱象:关系户横行、巨大的虚假繁荣......

灯锦年
2026-04-22 17:16:25
2026-04-23 12:55:00
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
1663文章数 19关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

媒体:当下越南"极度不安" 苏林访华签文件对冲"焦虑"

头条要闻

媒体:当下越南"极度不安" 苏林访华签文件对冲"焦虑"

体育要闻

莱斯特城降入英甲,一场亏麻了的豪赌

娱乐要闻

《凌探未来》公益纪录片今日发布

财经要闻

全球第一个国家宣布:储备6月耗尽

汽车要闻

长安"1445"战略:一张走向"世界长安"的行军地图

态度原创

旅游
手机
时尚
数码
教育

旅游要闻

男子玩“窝囊版”蹦极摔伤后起诉,景区通报:该案明日第二次开庭

手机要闻

小米REDMI K90 Max风扇5万小时寿命测试采用行业通用加速老化公式

比白衬衫还火!入夏一定要拥有这条裙子,太时髦了

数码要闻

2026游戏本必看!暗影精灵PRO 15耐用解析 适配直播用户+硬核玩家

教育要闻

中南林业科技大学35名研究生被退学,学校公布原因,家长看清现实

无障碍浏览 进入关怀版