网易首页 > 网易号 > 正文 申请入驻

AI 原生向量数据库 : 大模型的“黄金搭档”, 能提供“记忆海绵”

0
分享至

本文首发微信公众号:飞总聊IT

向量数据库,顾名思义,是用来存储和查询向量数据的数据库。这本来是一个相对小众的数据库产品,主要服务于人工智能和信息检索领域,但是伴随大模型的流行,越来越重要了。

要理解向量数据库,首先要理解什么是向量。这就要回到微积分和线性代数了。在向量数据库里,一个向量数据,就是一个以原点为起点,n-维度空间任意一个点为终点的向量,我们通常记录其终点,用一个大小为n的数组来表达。

向量数据库里面存储了很多的向量数据。其最常用的检索功能是给定一个输入的向量,找出Top-k个距离最近的向量。

那么,向量数据库为什么和机器学习,大模型相关呢?

我们知道,目前的大语言模型主要基于深度学习技术。深度学习的输入可以是文本,图片,视频等语料。这些数据被神经网络真正作为输入使用之前,需要经过一个从语料到向量的转化过程。神经网络真正使用的输入是向量,这个过程叫做embedding。

举例来说,如果输入是一篇pdf,我们通常要先对pdf的文本进行分段(segment),然后对每一段的文字进行embedding,最后得到的若干个向量,会被存入向量数据库被后续的训练等场景使用。如下图所示:

向量数据库的应用很多,在大模型兴起之前,向量数据库最成功的应用是搜索引擎。谷歌和微软的必应搜索引擎都应用了向量数据库来帮助搜索。

具体来说,用户在搜索框中输入问题,问题被embedding成一个向量。向量数据库里面则存了各种网页经过embedding以后的向量。

系统只需要对输入的向量进行top-k查询,这最近的k个向量对应的文字,就是需要返回的搜索结果。通过embedding操作,可以把语义的相关性问题,转化成为n维空间向量之间的最近距离的问题。

针对不同的数据,比如文本,图片,视频,等进行embedding以后,向量数据库可以做的操作非常的多,下图展示了一些向量数据库能做的事情:

在大模型时代,训练大模型和使用大模型,是很多企业都想做的事情。

通常来说,大模型使用有三种方式:自己训练,基于现有模型微调,或者直接用。

对自己训练和基于现有模型微调两种使用方式的训练阶段,使用向量数据库的主要目的是提高对训练数据的分类,去重和清洗的效率。

而在大模型的推理阶段,向量数据库的作用就更大,主要有三个作用。

首先,大模型的训练语料有截止日期,比如说GPT系列的数据库到2021年9月。但是在推理阶段,大模型需要根据最新的数据来回答问题。

此外,每个企业都有自己内部独有的知识库,这些知识库,在大模型的预训练和finetune阶段可能也没有被大模型学习过,需要额外提供给大模型。

向量数据库可以成为一个知识库的作用,给大模型提供最新的数据,和每个客户企业独有的内部知识库。下图展示了这种场景下向量数据库的作用。

其次,大模型有token数限制。一旦超过了最大的Token数,大模型就开始忘记上下文。向量数据库可以记录客户端和大模型之间的对话聊天信息,为大模型提供理论上没有上限的长期记忆。这就解决了大语言模型对Token数的限制,避免上下文信息丢失的问题了。下图展示了这种场景下向量数据库的作用。

最后,向量数据库还可以为大语言模型提供缓存。系统可以先在缓存中搜索相似的问题和对应的答案,如果缓存命中的话,就不可以直接返回结果。这可以减少对大模型调用的开销,提高服务响应速度。下图展示了这种应用场景。

2023年7月4日,腾讯云正式发布AI 原生(AI Native)向量数据库 Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景,是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。

下图展示了AI 原生向量数据库 Tencent Cloud VectorDB 的架构。

据介绍,腾讯云AI 原生向量数据库Tencent Cloud VectorDB 最高支持10亿级向量检索规模,延迟控制在毫秒级,相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。

值得关注的是,腾讯云重新定义了AI Native的开发范式,提供了接入层、计算层、存储层的全面AI化解决方案,使用户在使用向量数据库的全生命周期,都能应用到AI能力。

具体而言,在接入层,腾讯云向量数据库支持自然语言文本的输入,同时采用“标量+向量”的查询方式,支持全内存索引,最高支持每秒百万的查询量(QPS);在计算层,AI Native开发范式能实现全量数据AI计算,一站式解决企业在搭建私域知识库时的文本切分(segment)、向量化(embedding)等难题;在存储层,腾讯云向量数据库支持数据智能存储分布,助力企业存储成本降低50%。

据了解,腾讯云向量数据库的向量化能力(embedding)曾多次获得权威机构认可,2021年曾登顶MS MARCO榜单第一、相关成果已发表于EMNLP顶会ACL。

由于大模型的训练数据,无法突破时间和空间的维度限制,用好大模型,就必然需要一个外部知识库。在当前的技术选型中,向量数据库是最成熟和有效的外部知识库解决方案。

再加上大模型本身有token数的限制,调用大模型耗时久,费用高,而向量数据库能通过给大模型提供长期记忆,以及作为大模型缓存的功能,同时解决了这些问题。

所以大模型加向量数据库的系统架构,也必然会伴随着大模型的流行而普及开来。而腾讯云AI 原生向量数据库Tencent Cloud VectorDB这款产品,经过腾讯的内部技术沉淀,经过了腾讯海量业务场景的验证,无疑大模型的“黄金搭档”。

统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2—4个数量级。

伴随着大模型相关应用的迅速发展和落地,AI Native向量数据库也会成为企业数据处理的标配,腾讯云AI 原生向量数据库Tencent Cloud VectorDB这款产品也必然受到客户青睐。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
很多人已经进入过年式破产!

很多人已经进入过年式破产!

黯泉
2026-02-13 22:56:04
喜讯!中超球队逼平欧冠劲旅,新赛季手握冲击冠军优势,球迷沸腾

喜讯!中超球队逼平欧冠劲旅,新赛季手握冲击冠军优势,球迷沸腾

罗掌柜体育
2026-02-14 09:37:42
加拿大冰壶队“作弊”后续!世界壶联紧急发文,规范投壶规则

加拿大冰壶队“作弊”后续!世界壶联紧急发文,规范投壶规则

全景体育V
2026-02-14 20:53:22
不打了!宣布赛季报销!正式俯冲NBA状元签

不打了!宣布赛季报销!正式俯冲NBA状元签

篮球实战宝典
2026-02-14 20:34:34
天空:从赛程与分差来看,本赛季争冠天平第一次向曼城倾斜

天空:从赛程与分差来看,本赛季争冠天平第一次向曼城倾斜

懂球帝
2026-02-14 08:25:05
这个春节,三亚彻底火了!游客8499元订的民宿被临时毁约,附近民宿涨到三四万,机票价同比翻倍!95后、00后也多起来了

这个春节,三亚彻底火了!游客8499元订的民宿被临时毁约,附近民宿涨到三四万,机票价同比翻倍!95后、00后也多起来了

每日经济新闻
2026-02-12 22:13:04
从金融战到生物战,美国碰了中国最痛的底线

从金融战到生物战,美国碰了中国最痛的底线

华山穹剑
2026-02-02 20:38:46
马斯克语出惊人:“日本若继续这样下去,迟早会从世界上消失!”

马斯克语出惊人:“日本若继续这样下去,迟早会从世界上消失!”

忠于法纪
2025-11-29 22:02:53
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-05 15:32:53
特朗普惊出一身冷汗,中美已无法开战,一杀手锏让美军无计可施

特朗普惊出一身冷汗,中美已无法开战,一杀手锏让美军无计可施

健身狂人
2026-02-14 15:44:06
埃奇库姆当选新秀赛MVP:半决赛17分中投绝杀 决赛6分罚球绝杀

埃奇库姆当选新秀赛MVP:半决赛17分中投绝杀 决赛6分罚球绝杀

醉卧浮生
2026-02-14 11:59:44
13岁体操冠军傅佳丽被虐待导致跳楼 央媒跟进:2名涉事教练被立案

13岁体操冠军傅佳丽被虐待导致跳楼 央媒跟进:2名涉事教练被立案

做一个合格的吃瓜群众
2026-02-13 10:27:49
闫学晶被曝偷税漏税大结局!博主通报最新进展,终于真相大白了

闫学晶被曝偷税漏税大结局!博主通报最新进展,终于真相大白了

奇思妙想草叶君
2026-02-15 03:14:15
网传字节将出售沐瞳:有望2月敲定,金额或超400亿元

网传字节将出售沐瞳:有望2月敲定,金额或超400亿元

PChome电脑之家
2026-02-14 17:15:23
又摊事了,蔡正元放狠话遭举报:若我在北京,明天导弹就到凯道

又摊事了,蔡正元放狠话遭举报:若我在北京,明天导弹就到凯道

雪中风车
2026-02-14 16:52:10
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
我妈来住5天妻子甩脸色,岳母来住,我一句话让她瞬间哑口无言

我妈来住5天妻子甩脸色,岳母来住,我一句话让她瞬间哑口无言

千秋历史
2026-02-14 20:39:15
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

清欢百味
2026-02-14 14:26:47
湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

哄动一时啊
2026-02-09 16:56:31
2026-02-15 05:27:00
飞总聊IT incentive-icons
飞总聊IT
互联网技术与商业分析
2539文章数 15386关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

教育
手机
亲子
时尚
本地

教育要闻

假期作业,要定时督促吗?

手机要闻

魅族这回,真的要“凉”了?

亲子要闻

回到“儿童友好”的家乡,很适合遛娃

推广中奖名单-更新至2026年2月3日推广

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

无障碍浏览 进入关怀版