网易首页 > 网易号 > 正文 申请入驻

人人都在说的向量数据库究竟是什么?

0
分享至

  向量数据库的发展历程并非一成不变地遵循着严格的时间线,而是灵活地随着向量检索需求的演变而不断进步。在早期阶段,由于向量检索的需求主要集中在推荐系统等相似性推荐领域,向量数据库的功能相对简单,更多地被视为一种程序库。其中,Facebook开源的FAISS插件库便是这一时期的代表性产品。

  然而,随着技术的持续进步和应用领域的不断拓宽,向量数据库也开始朝着更为复杂和多样化的方向发展。越来越多的标准化数据库产品开始认识到向量检索的重要性,并在其产品中集成了向量特性。这些特性虽然使得数据库能够进行一定程度的向量检索,但在性能和适用场景上仍存在较大的局限性。Elastic Search等全量检索数据库以及PostgreSQL和Redis等传统数据库都是这一时期的代表,它们都在不同程度上提供了向量支持。

  直到最近,随着ChatGPT等大规模语言模型的爆火,向量数据库终于从幕后走到了台前,成为了AI领域中的焦点。尽管向量数据库并非新生事物,它已经存在了很长时间,但正是ChatGPT的成功应用让更多人意识到了它的价值和潜力。

  在构建完整的AI应用过程中,向量数据库扮演着至关重要的角色。除了大家熟知的大语言模型(LLM)外,与模型紧密相关的Embedding技术也是不可或缺的一环。而向量数据库正是连接这两者的桥梁,它负责存储和管理由Embedding技术生成的向量数据,使得高效的相似性检索和推理成为可能。最后,Promote Engineer则负责将AI技术应用于实际场景中并进行优化,确保整个AI应用的顺畅运行。这些环节相互依存、相互支撑,共同构成了开发一个完整的AI应用所必需的知识体系。

  什么是向量数据库

  向量数据库是一种特殊类型的数据库,它专门用于存储和查询向量数据。这些向量数据通常来自于对文本、语音、图像、视频等的向量化处理。向量数据库可以处理更多非结构化数据(比如图像和音频),并且与传统的数据库相比,具有处理这些数据类型的能力。

  在向量数据库中,数据被表示为向量,这些向量可以在多维空间中进行比较和搜索。一个关键特性是它能够快速地找到与给定向量最相似的其他向量,这是通过计算向量之间的距离(例如欧氏距离或余弦相似度)来实现的。

  随着非结构化数据应用的增加,向量数据库在诸如人脸识别、推荐系统、图片搜索、视频指纹、语音处理、自然语言处理、文件搜索等领域有着广泛的应用。此类数据库具备低成本存储和高性能计算两大核心能力,具体包括用于搜索和检索的向量索引、单级过滤、数据分片、复制、混合存储以及API等功能。

  此外,一些向量数据库还支持高维向量索引和向量聚类,其设计和实现需要考虑到向量数据的特殊性质,如高维度、可扩展性、近似计算等。这些特性使得向量数据库成为处理大规模多维度向量数据以及支持复杂向量相似性搜索的重要工具。

  向量数据库的应用场景

  向量数据库的应用场景非常广泛,主要包括以下几个方面:

  推荐系统:向量数据库可以应用于推荐系统,通过计算用户历史行为和物品向量的相似性,为用户推荐最相关的物品。这种推荐方式可以应用于电商、音乐、视频等多个领域,提高用户体验和购买转化率。

  搜索引擎:向量数据库也可以应用于搜索引擎,将网页内容表示为向量,建立索引并实现与查询相关的快速检索。这种方式可以提高搜索质量和效率,为用户提供更准确的搜索结果。

  社交媒体分析:在社交媒体分析领域,向量数据库可以支持相似性查询和聚合操作,快速识别和提取社交媒体数据中的模式和趋势,包括情感分析、主题建模和社区发现等。

  生物信息学:向量数据库在生物信息学领域也有广泛应用,例如将基因序列和蛋白质表示为向量,进行高效的模式识别、聚类和预测。

  图像和视频分析:向量数据库还可以应用于图像和视频分析领域,包括图像检索、物体识别和场景分类等。通过将图像和视频表示为向量,建立索引并实现对相似图像或视频的快速检索。

  此外,随着技术的进步和应用场景的不断拓展,向量数据库也在不断地发展和完善。例如,一些向量数据库开始支持高维向量索引和向量聚类等技术,以更好地处理大规模多维度向量数据;还有一些向量数据库开始支持分布式架构和并行计算技术,以提高处理效率和可扩展性。这些技术的发展将进一步推动向量数据库在各个领域的应用和发展。

  向量数据库的搜索原理

  了解完数据库的产品后,我们先返回来给大家讲解一下向量数据库的搜索原理。这一部分可能会需要一些数学知识。首先,我们回顾一下常用的两种搜索方式:欧氏距离和余弦相似度。

  欧氏距离是指计算两个向量之间的直线距离。在二维坐标系中,假设有两个向量p和q,欧氏距离就是计算p到q中间连的这条直线的距离。在三维坐标系里,每一个向量包含x、y、z三个坐标点,根据公式计算任意两点之间的距离。而在n维坐标系里,有100个坐标点,根据公式计算任意两点之间的距离。距离越短,说明这两个向量在某些维度上相似性越高。


  另一种方式是余弦相似度。除了距离,我们还可以通过向量之间的夹角来描述它们之间的关系。在二维坐标系中,如果夹角越小,说明两个向量之间的关联性越高。我们可以使用公式计算任意两个向量之间的余弦相似度。在三维坐标系里,也可以用同样的原理来计算任意两个向量之间的夹角和余弦相似度。


  这些方法在向量数据库的搜索中非常常用。当然,除了这两种方法,还有很多其他的方法可以用于向量数据库的搜索,感兴趣的小伙伴可以自行查阅资料进一步了解。

  向量索引

  前面讲述了向量数据库的检索原理,但实际上,在向量数据库中进行相似度匹配时,不能完全按照公式计算,因为向量数据库的数据量通常很大,维度也很高。

  如果使用公式计算两个1000维向量之间的相似度,计算量比较大,而且对CPU的计算密集型需求很高。那如果有一亿个向量,每个都要计算一遍的话,时间和计算成本都会更加高。因此,我们此处引入了一个概念叫做向量索引。

  向量索引(vector index):是指通过某种数学模型,对向量构建的一种时间和空间上比较高效的数据结构。借助向量索引,我们能够高效地查询与目标向量相似的若干个向量

  向量索引与关系数据库中的索引类似,但有一点不同。在向量数据库中,通过向量索引找到的是近似结果,而不是100%准确的结果。向量索引描述的是相似度的程度高和低。因此,我们称之为近似最邻近搜索(ANS)。如果没有向量索引的话,寻找一个向量的相似度就类似于关系数据库中的全表搜索。但是,在全表搜索之上还要多加一层的运算,因此成本比关系数据库中的全表搜索要高很多。


  向量数据库是一个非常有前景和潜力的行业,相信未来随着AI技术的不断发展,向量数据库也必将迎来更加广阔的发展空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
何超仪因老公太帅而自卑,被陈子聪天真蠢萌吸引,这辈子都不离婚

何超仪因老公太帅而自卑,被陈子聪天真蠢萌吸引,这辈子都不离婚

娱乐白名单
2024-05-20 11:41:28
一起来游泳吧

一起来游泳吧

祝晓塬
2024-05-21 13:13:43
这集看过为阿森纳预备的颁奖礼舞台荒废在后台,宛若当年利物浦

这集看过为阿森纳预备的颁奖礼舞台荒废在后台,宛若当年利物浦

刺头体育
2024-05-20 18:02:03
报应来的太快!日本遭遇紧急危机,中国制裁升级,世界沉默了...

报应来的太快!日本遭遇紧急危机,中国制裁升级,世界沉默了...

新财迷
2024-05-20 10:42:38
*ST有树年报遭问询,被追问收入大幅下滑原因,公司核心竞争力是否发生重大不利变化

*ST有树年报遭问询,被追问收入大幅下滑原因,公司核心竞争力是否发生重大不利变化

界面新闻
2024-05-21 14:15:16
卡塔尔驱逐哈马斯最高领袖 以色列战争内阁分裂

卡塔尔驱逐哈马斯最高领袖 以色列战争内阁分裂

西楼饮月
2024-05-19 20:30:02
蒙哥马利一盒“三五”香烟换走了毛主席亲笔一幅书法精品,咋回事

蒙哥马利一盒“三五”香烟换走了毛主席亲笔一幅书法精品,咋回事

农人老寓
2024-05-20 08:38:46
丈夫性欲太强,妻子自知无法满足,竟伙同丈夫性侵女保姆

丈夫性欲太强,妻子自知无法满足,竟伙同丈夫性侵女保姆

娱乐洞察点点
2024-05-21 07:55:20
笑不活了!卫健委发催二胎宣传片,网友评论区,各种花式拒绝

笑不活了!卫健委发催二胎宣传片,网友评论区,各种花式拒绝

阿燕姐说育儿
2024-05-18 15:19:22
你是牛仔控吗?

你是牛仔控吗?

匹夫来搞笑
2024-05-21 12:16:01
5年3.18亿,掘金新合同曝光!队史第一顶薪,华子暗讽无能

5年3.18亿,掘金新合同曝光!队史第一顶薪,华子暗讽无能

一才说个球
2024-05-21 11:27:28
海外版“奥迪A6”完成进化!可选运动包围,内饰质感超奔驰E

海外版“奥迪A6”完成进化!可选运动包围,内饰质感超奔驰E

音乐时光的娱乐
2024-05-21 09:30:50
10月7日被哈马斯恐怖分子绑架22岁年轻女子的遗体已被发现

10月7日被哈马斯恐怖分子绑架22岁年轻女子的遗体已被发现

老马拉车莫少装
2024-05-18 02:33:24
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
记者谈国足名单:好像还有阿兰、艾克森、谭龙,进攻确实有点难

记者谈国足名单:好像还有阿兰、艾克森、谭龙,进攻确实有点难

直播吧
2024-05-21 13:00:12
论广告植入,谁有《庆余年2》肆无忌惮?大logo恨不得怼观众脸上

论广告植入,谁有《庆余年2》肆无忌惮?大logo恨不得怼观众脸上

娱乐圈十三太保
2024-05-19 11:52:44
大S气炸!给现任具俊晔谈妥的代言大合同,被汪小菲一句话搅局!

大S气炸!给现任具俊晔谈妥的代言大合同,被汪小菲一句话搅局!

阿芒娱乐说
2024-05-20 12:31:14
喝麻了⁉️曼城夺冠后,格拉利什、德布劳内等人摇摇晃晃走出酒吧

喝麻了⁉️曼城夺冠后,格拉利什、德布劳内等人摇摇晃晃走出酒吧

直播吧
2024-05-20 15:40:25
张康阳融资失败!放弃国米换巨额差价,意媒:外国资本不信任他

张康阳融资失败!放弃国米换巨额差价,意媒:外国资本不信任他

梦与体育
2024-05-21 10:40:16
陈都灵新剧《贵女》爆火,被50岁王艳惊艳,诠释了什么叫天选古人

陈都灵新剧《贵女》爆火,被50岁王艳惊艳,诠释了什么叫天选古人

大铁猫娱乐
2024-05-19 16:54:45
2024-05-21 15:00:49
ITPUB学院
ITPUB学院
分享技术干货,了解最新动态
771文章数 627关注度
往期回顾 全部

科技要闻

理想业绩下滑:纯电车跳票 好日子告一段落

头条要闻

检察官自称诬陷了一名公安局副局长 致其获刑2年6个月

头条要闻

检察官自称诬陷了一名公安局副局长 致其获刑2年6个月

体育要闻

兄弟们,为了我,拿下冠军吧!

娱乐要闻

杨洋乔欣聊天记录曝光!还牵扯张天爱

财经要闻

重营销轻研发 “扫地茅”股价已跌去78%

汽车要闻

四排八座纯电MPV/续航超过800km 翼真L380开启预订

态度原创

健康
时尚
亲子
教育
数码

在中国,到底哪些人在吃“伟哥”?

夏天穿衣没有头绪?来看看50岁女性的搭配模板,气质素雅干净

亲子要闻

孩子英语考二十多分家长会上老师问我俩在中国做什么工作我俩说做家政实在没脸说

教育要闻

【李自然说】穿越回去当自己的爹会发生什么?

数码要闻

华为笔记本镌刻服务上线,支持 MateBook D 14 2024、MateBook 14

无障碍浏览 进入关怀版