网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

向量搜索：为什么你的数据库找不到"相似"的东西？

2026-04-19 07:44:54　来源: 算力游侠

北京举报

0

分享至

你的数据库能回答"6只狗"，却答不出"宠物生了5只小狗"——这不是技术问题，是数学问题。

传统数据库把每个数据点当成孤岛，"狗"和"宠物"之间没有天然联系。但人类提问时，"我有6只宠物"和"我家狗生了5只小狗"明明指向同一件事。这种语义鸿沟，就是向量搜索要填的坑。

向量到底是什么？别被数学吓到

向量最简单的定义：有大小、有方向的量。

想象你站在地图原点。我说"走60公里"——你会反问：往哪？完整指令必须是"向西北走60公里"或"向北走40公里"。方向+距离，这就是向量。

现在三个人同时出发：

• A向西北走60公里

• B向西北走60公里

• C向东南走10公里

C走得最短，但离A最远。B和A方向相同，哪怕距离一样，两人终点也更"近"。这里的"近"不是地理距离，是方向相似度。

怎么量化这种相似？测夹角。夹角越小，方向越像，发散程度越低。

把这个逻辑搬到语言上："我有只狗"设为40°，"狗生了5只小狗"设为60°，"汽车"设为230°。角度差20° vs 190°，相似度一目了然。这就是向量搜索的底层机制——把语义变成几何。

为什么传统数据库搞不定这个？

关系型数据库的设计哲学是精确匹配。你写SELECT * FROM animals WHERE type = 'pet'，它只认"pet"这个标签。

问题是：日常数据80%是非结构化的。用户不会按你的表结构提问，他们会说"我家毛孩子刚生了一窝"——这句话里既没有"pet"也没有"dog"，但人类一听就懂。

传统方案的应对方式是加字段、建关联表、写复杂JOIN。宠物→狗→幼犬→生育记录，层层建模。这套系统在电商SKU、财务科目里能跑，但遇到开放域的文本、图像、语音，工程复杂度指数级爆炸。

更隐蔽的痛点是：相似性无法硬编码。"可爱小狗"和"萌犬幼崽"算不算一回事？不同场景答案不同。规则引擎越写越厚，维护成本压垮团队。

向量搜索换了一条路：不教计算机"什么是相似"，让它自己从数据里学。

嵌入模型：把万物变成坐标

具体怎么操作？需要一个叫"嵌入"（Embedding）的中间层。

嵌入模型是神经网络，训练目标很简单：让语义相近的输入，在向量空间里位置相近。输入一句话、一张图、一段音频，输出一串数字——通常是几百到几千维的向量。

这个向量不是随机数。模型通过海量数据训练，学会了"国王-男人+女人≈女王"这种算术关系，也学会了"特斯拉"和"电动车"比"特斯拉"和"哥斯拉"更近。

关键突破在于：嵌入把"相似性判断"从规则工程变成了数学运算。查询时，把你的问题也变成向量，算它和库中所有向量的距离，返回最近的K个。这就是K近邻搜索（KNN）。

但KNN有个致命问题：数据量大了，逐条计算距离太慢。百万级数据还能忍，十亿级直接卡死。

近似最近邻：用精度换速度

工程上的解法叫ANN（近似最近邻）。不追求100%精确，允许小幅误差，换取数量级的速度提升。

主流ANN算法分几派：

• 基于树：如Annoy，把空间递归划分，查询时快速排除大片区域

• 基于哈希：如LSH（局部敏感哈希），相似向量大概率进同一个桶

• 基于图：如HNSW，构建导航图，查询时贪心游走找近邻

• 基于量化：如PQ（乘积量化），压缩向量维度，减少内存和计算量

实际系统往往是组合拳。比如Faiss库，把PQ和IVF（倒排文件）结合，十亿级向量也能毫秒级响应。

选型时要权衡三个指标：召回率（找得多准）、查询延迟（多快返回）、内存占用。没有银弹，业务场景决定取舍。

正方：向量搜索正在重构数据基础设施

支持方认为，这是搜索技术的范式转移。

第一，语义检索成为标配。ChatGPT带火的RAG（检索增强生成）架构，核心就是向量数据库。大模型有幻觉、有知识截止，用向量搜索从企业私域文档里找相关片段，再让模型组织答案——这套流程已经是AI应用的默认选项。

第二，多模态统一成为可能。文本、图像、音频、视频，全部嵌入到同一向量空间，跨模态检索变成数学问题。上传一张鞋的照片，搜出相似款式；哼一段旋律，找到原曲——这些功能不再需要为每种模态单独建系统。

第三，实时个性化门槛降低。推荐系统的经典难题是"用户实时兴趣"和"物品海量库存"的匹配。向量搜索让"用用户最近行为向量，秒级召回相似物品"成为工程可行方案，不再需要复杂的特征工程和在线计算。

第四，开源生态成熟。Milvus、Pinecone、Weaviate、Qdrant等产品各显神通，云厂商也纷纷上线托管服务。创业公司不用从零造轮子，聚焦业务逻辑即可。

反方：热潮背后有结构性限制

质疑方的论点同样扎实。

第一，向量搜索不是万能药。它解决的是"相似性检索"，不是"精确检索"。订单号查询、账户余额校验这类强一致性场景，关系型数据库仍是正统。强行用向量搜索，是技术选型错误。

第二，嵌入质量决定天花板。模型没见过的领域，嵌入可能完全失效。医疗、法律、工业等垂直场景，通用模型往往不如关键词匹配。微调嵌入模型需要数据和算力，成本不低。

第三，可解释性黑洞。"为什么返回这个结果？"向量相似度给不出人类能理解的答案。金融风控、医疗诊断等高风险场景，黑箱检索难以通过合规审计。

第四，成本曲线陡峭。十亿级向量的内存占用、ANN索引的构建时间、多副本的同步开销——这些在Demo里看不见，生产环境会逐一暴露。Pinecone的托管服务不便宜，自建团队需要专门的向量数据库工程师。

第五，数据更新困境。新增数据要重新嵌入，删除数据要清理索引，修改数据更是麻烦。高频变更场景下，向量数据库的实时性和一致性保障，比传统数据库弱得多。

我的判断：向量搜索是必要组件，不是替代方案

两边观点都成立，关键看怎么定位。

向量搜索的真正价值，是把"模糊匹配"从不可能变成可能。以前需要写几百条规则的语义理解，现在一个嵌入模型+向量索引就能覆盖80%场景。这是生产力跃迁。

但它不会取代关系型数据库，而是与之并存。现代架构的趋势是"混合检索"：先用向量搜索召回候选集，再用规则过滤、精排；或者向量索引和倒排索引并行，结果融合。每种工具干自己擅长的事。

对技术团队的建议：如果业务涉及非结构化数据检索、语义推荐、RAG应用，向量搜索值得投入。但别被"AI原生"叙事冲昏头，先问自己：嵌入质量怎么保障？更新频率能否承受？结果可解释性要求多高？

向量搜索的普及，本质是把"相似性"这个人类直觉，编码成了机器可计算的数学对象。这扇门打开后，不会关上。但门后不是乌托邦，是另一组工程权衡。

你的场景里，有多少查询是"我知道我要找什么"，有多少是"我不知道准确描述，但看到就认得出来"？这个比例，可能决定了向量搜索在你技术栈里的权重。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

ICLR 2026 Oral | Revela：用语言建模重新定义稠密检索器训练

机器之心Pro 2026-03-27 10:33:36
0 跟贴 0
匿名大象模型被蚂蚁认领！推理速度冲到第一，还能生成百万小说

智东西 2026-04-22 15:14:37
21 跟贴 21

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro 2026-04-22 11:01:55
0 跟贴 0

你写的Skill，正在拖慢模型？策略式Gene才是正确答案

机器之心Pro 2026-04-21 18:54:52
0 跟贴 0
CMU开源首份Agentic Search日志数据，把Agent拆开给你看

机器之心Pro 2026-02-09 12:05:13
0 跟贴 0

DeepSeek突然更新！

智东西 2026-04-22 18:26:16
160 跟贴 160

自变量机器人发布全球首个世界统一模型， 35 天后新一代机器人入驻真实家庭

新周刊 2026-04-21 22:07:26
0 跟贴 0
幼儿园的小朋友自学乘法，这种算法还是第一次见

蓬勃资讯 2026-04-19 10:28:49
117 跟贴 117

战后日本首次在境外发射进攻型导弹

北京青年报 2026-04-22 22:28:46
8023 跟贴 8023
Information Shapes Koopman Representation：信息如何决定模拟

机器之心Pro 2026-04-23 11:16:48
0 跟贴 0
Cell子刊：北京大学韩敬东团队开发生成式AI，打造“数字孪生”，预测衰老、疾病及治疗响应

生物世界 2026-04-22 12:12:33
0 跟贴 0
专家号刚放出就瞬间"秒空" 上海三甲医院紧急报警

大风新闻 2026-04-22 15:12:13
7318 跟贴 7318
为什么你总在同一个地方跌倒

晚风也遗憾 2026-04-23 10:12:20
11 跟贴 11
32000条典故：三顾茅庐、红颜祸水，每个都颠覆认知丨书单

历史大学堂 2026-04-22 11:18:40
0 跟贴 0
清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级丨CVPR 2026

雷峰网 2026-04-22 17:02:21
0 跟贴 0
腾讯与阿里被指洽谈投资DeepSeek 估值超过200亿美元

财联社 2026-04-22 19:24:36
3863 跟贴 3863
“荣格揭秘：冷淡如何引发恐惧，权力逻辑揭示人性！”

星云母体在分娩n 2026-04-19 06:49:10
1 跟贴 1
中国历史为何总是北方统一南方？其底层逻辑是什么？

为了更好 2026-04-19 14:49:59
9 跟贴 9
Agent中的“爱马仕”来啦：100k+ Star 的开源AI Agent ，正在偷偷给自己升级

钛媒体APP 2026-04-23 09:27:15
0 跟贴 0
我和 AI 搭子工作了一周，再也回不去了

爱范儿 2026-04-21 17:31:39
0 跟贴 0
俄副外长：俄方获邀以最高级别参加美国G20峰会

财联社 2026-04-23 11:20:05
2577 跟贴 2577
大模型学员平均年薪37.8w？我要验牌！

新浪财经 2026-04-21 15:41:25
0 跟贴 0
特斯拉开源硬件，中国公司回应来了：直接把机器人大脑开源了

量子位 2026-04-23 08:49:45
0 跟贴 0
大模型解剖图火了，30多个开源模型架构差异一目了然，还可接入AI

DeepTech深科技 2026-03-16 17:33:15
30 跟贴 30
"取消午休改16点下班"火了上海人一针见血

鲁中晨报 2026-04-22 14:28:23
888 跟贴 888
从人工到机器，插秧逻辑已经变了！

秘密大爆炸 2026-04-22 10:16:34
1 跟贴 1
知识库3个月必崩？这个结构能撑3年

报错免疫体 2026-04-22 13:46:36
0 跟贴 0
V8发动机模型

制造科技 2026-04-19 17:41:19
0 跟贴 0
动物专家农田设局：野鹿模型引猛兽来袭大揭秘

烟寒若雨s 2026-04-21 03:56:14
1 跟贴 1
ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

机器之心Pro 2026-04-22 12:26:18
0 跟贴 0
春日辟谣图鉴 | 春季求职，别让“前途”变成“钱无”

今日辟谣 2026-04-23 09:53:37
4 跟贴 4
新课发布：虚拟细胞（跟着二十篇顶刊文章学虚拟细胞）

医咖会 2026-04-22 18:28:22
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
宁马线开通场面太火爆，有乘客等三趟车没挤上

现代快报 2026-04-22 14:20:23
487 跟贴 487
AI相对论① | 智能驾驶下半场：从“能跑”到“好用”还有多远？

每日经济新闻 2026-04-23 12:28:25
0 跟贴 0
它喊着防止追尾，却又有意急刹，设计这个逻辑的公司真无敌了！

旅行指南者 2026-04-20 09:47:38
0 跟贴 0
前房产中介、装修从业者揭秘“串串房”：大多在回迁房、老小区，二房东公司化运作，有手上数百套房源，正规中介不做这生意

都市快报橙柿互动 2026-04-22 20:25:46
363 跟贴 363
芬兰语"蓝眼睛"藏着什么产品密码

心事寄山海 2026-04-23 04:42:57
0 跟贴 0
定了！广州一年级七年级新生不分重点班

南方都市报 2026-04-22 16:51:55
865 跟贴 865
论发型的重要性！女生分享6个不挑“建模”的发型

奇妙观探 2026-04-19 15:19:36
0 跟贴 0

去你的0-4！31分，他为大场面而生，3年啊！终于打出来了

去你的0-4！31分，他为大场面而生，3年啊！终于打出来了

体育新角度

2026-04-22 17:36:30

炸穿台湾政坛！蒋友松强行迁走两蒋悬棺，半世纪漂泊终要归乡

炸穿台湾政坛！蒋友松强行迁走两蒋悬棺，半世纪漂泊终要归乡

陈漎侃故事

2026-04-14 17:28:18

欠了2.4万亿许家印15年前发言：赢一场球奖500万你要什么有什么

欠了2.4万亿许家印15年前发言：赢一场球奖500万你要什么有什么

风过乡

2026-04-22 13:48:05

股市歌舞升平！有人却在迎接饥荒

股市歌舞升平！有人却在迎接饥荒

睿知睿见

2026-04-23 07:24:35

这才是宋美龄和继子蒋经国的一张真实合影，都是真人的容貌

这才是宋美龄和继子蒋经国的一张真实合影，都是真人的容貌

喜欢历史的阿繁

2026-04-16 11:17:28

甘肃天水一佳人好漂亮，身高168cm，体重48kg 美的让人移不开眼

甘肃天水一佳人好漂亮，身高168cm，体重48kg 美的让人移不开眼

乡野小珥

2026-04-08 00:48:57

外院缝合被同行怒批：瞎胡闹，游医水平！一个真让做，一个真敢做

外院缝合被同行怒批：瞎胡闹，游医水平！一个真让做，一个真敢做

新浪财经

2026-04-22 12:10:58

记者：如果埃斯特旺立即手术，则意味着他将铁定无缘世界杯

记者：如果埃斯特旺立即手术，则意味着他将铁定无缘世界杯

懂球帝

2026-04-23 01:31:05

东风导弹泄密案！间谍郭万钧一家三口，全部被处以死刑

东风导弹泄密案！间谍郭万钧一家三口，全部被处以死刑

番外行

2026-03-31 08:28:28

陈凯琳随时再当妈妈明示想为郑嘉颖追第四胎！无惧容貌改变身体受苦：绝对愿意再经历

陈凯琳随时再当妈妈明示想为郑嘉颖追第四胎！无惧容貌改变身体受苦：绝对愿意再经历

TVB资讯台

2026-04-22 22:06:56

前7轮仅一胜，青岛西海岸让郑智执教和让郑智化执教，没啥区别

前7轮仅一胜，青岛西海岸让郑智执教和让郑智化执教，没啥区别

姜大叔侃球

2026-04-22 21:57:06

总市值站上万亿！中际旭创最近1年飙升超9倍

总市值站上万亿！中际旭创最近1年飙升超9倍

财联社

2026-04-23 09:34:43

年租金从12.8万飙至28万！杭州一小吃店老板发愁：一上来就涨价，真是扛不牢！搬走又舍不得老街坊；运营方称系市场行为，管理方介入协调

年租金从12.8万飙至28万！杭州一小吃店老板发愁：一上来就涨价，真是扛不牢！搬走又舍不得老街坊；运营方称系市场行为，管理方介入协调

极目新闻

2026-04-22 12:46:14

阿森纳颤抖？曼城11天抹平9分差距冠军稳了：33轮后领跑从未丢冠

阿森纳颤抖？曼城11天抹平9分差距冠军稳了：33轮后领跑从未丢冠

我爱英超

2026-04-23 06:36:20

马上评｜一部不存在的法规何以被引用多年？

马上评｜一部不存在的法规何以被引用多年？

澎湃新闻

2026-04-22 12:06:26

伊朗代表：美国解除对伊海上封锁或可成为谈判基础

伊朗代表：美国解除对伊海上封锁或可成为谈判基础

新京报

2026-04-22 07:35:07

最后时刻签了，高市将全面梭哈？中日航班已停飞，解放军准时出海

最后时刻签了，高市将全面梭哈？中日航班已停飞，解放军准时出海

铁锤简科

2026-04-22 14:07:01

别让停车费吓退消费者

经济日报

2026-04-23 06:37:15

报复说来就来！伊朗三倍扣押巨轮，现代版海盗开打，美国不好收场

报复说来就来！伊朗三倍扣押巨轮，现代版海盗开打，美国不好收场

军机Talk

2026-04-22 18:00:11

央国企的几大乱象：关系户横行、巨大的虚假繁荣......

央国企的几大乱象：关系户横行、巨大的虚假繁荣......

灯锦年

2026-04-22 17:16:25

游走在API与报错之间，用魔法（AI）打败魔法的非硬核玩家。

1663文章数 19关注度

往期回顾全部

科技要闻

车没卖爆，利润却大涨，特斯拉发布财报

头条要闻

媒体：当下越南"极度不安" 苏林访华签文件对冲"焦虑"

头条要闻

媒体：当下越南"极度不安" 苏林访华签文件对冲"焦虑"

体育要闻

莱斯特城降入英甲，一场亏麻了的豪赌

娱乐要闻

《凌探未来》公益纪录片今日发布

财经要闻

全球第一个国家宣布：储备6月耗尽

汽车要闻

长安"1445"战略：一张走向"世界长安"的行军地图

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

手机

时尚

数码

教育

旅游要闻

男子玩“窝囊版”蹦极摔伤后起诉，景区通报：该案明日第二次开庭

手机要闻

小米REDMI K90 Max风扇5万小时寿命测试采用行业通用加速老化公式

比白衬衫还火！入夏一定要拥有这条裙子，太时髦了

数码要闻

2026游戏本必看！暗影精灵PRO 15耐用解析适配直播用户+硬核玩家

教育要闻

中南林业科技大学35名研究生被退学，学校公布原因，家长看清现实

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版