网易首页 > 网易科技 > 网易科技 > 正文

零一万物自研全导航图向量数据库,权威榜单评测6项第一

0
分享至

(原标题:零一万物自研全导航图向量数据库,权威榜单评测6项第一)

3月11日,零一万物宣布成功研发出基于全导航图的新型向量数据库 “笛卡尔(Descartes)”,已包揽权威榜单ANN-Benchmarks 6项数据集评测第一名。

在国际权威评测平台ANN-Benchmarks离线测试中,零一万物笛卡尔(Descartes)向量数据库登顶6份数据集评测第一名,比之前榜单上同业第一名有显著性能提升,部分数据集上的性能提升甚至超过2倍以上。

零一万物表示,笛卡尔向量数据库将用在近期即将正式亮相的AI产品中,未来也将结合工具提供给开发者。

向量数据库成AI 2.0基础设施,获资本市场青睐

向量数据库,又被称为AI时代的信息检索技术,是检索增强生成(Retrieval-Augmented Generation, RAG)内核技术之一。随着大模型为代表的AI 2.0时代到来,图片、视频、自然语言等多模态的非结构化数据量陡增,区别于用来处理结构化数据的传统数据库。向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据;它就像一块外接的记忆盘,可供大模型随时调用,以形成“长期记忆”,也被昵称为大模型记忆的“海马体”。对大模型应用开发者来说,向量数据库是非常重要的基础设施,在一定程度上影响着大模型的性能表现。

大模型天然有四个缺陷,向量数据库仿佛量身定制的“特效药”,能精准解决每个痛点。

•            实时信息:大模型训练时间长,更新慢,无法反应最新的信息,其知识存在“截止期”的挑战。向量数据库采用轻量化更新机制,可以快速补充最新信息。

•            隐私保护:用户的安全隐私数据不宜直接提供给大模型训练,否则会有泄密风险,向量数据通过在推理阶段扮演信息传递的中间载体,破解了隐私保护的难关。

•            幻觉矫正:大模型常表现出的推理失真或产生幻觉的现象,可以通过向量数据库提供的丰富知识参照,有效矫正和减轻此类问题。

•            推理效率:大模型推理成本高,向量数据库能够作为一种缓存机制,避免每一次查询请求都需要重新执行复杂的推理计算,大大节省了计算资源。

AI 2.0掀起的科技变革和平台变革,进一步强化了向量数据库的作用。Google、微软、Meta 等大厂的相关产品先后问世,Zilliz、Pinecone、Weaviate、Qdrant等创业公司也异军突起。2023年,OpenAI的向量数据库合作方Pinecone完成了B轮1.38亿美元融资,国内初创企业Fabarta ArcNeural也完成了上亿元Pre-A轮融资。

零一万物向量数据库包揽权威榜单评测六项第一

零一万物笛卡尔(Descartes)向量数据库在ANN-Benchmarks六项数据集测试均位居第一。

图说:截至3月10日,ANN-Benchmarks6项评测中,零一万物笛卡尔(Descartes)向量数据库均居第一

ANN-Benchmarks是当下业界最权威的向量数据库性能测试工具,它可以展示不同算法在不同真实数据集下的表现。

在上述6份评测数据集涵盖glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean六大数据集,横坐标代表召回、纵坐标代表QPS(每秒内处理的请求数),曲线位置越偏右上角意味着算法性能越好,零一万物笛卡尔向量数据库在6项数据集评测中都处于最高位。

图说:零一万物笛卡尔向量数据库与原榜单TOP1 QPS 性能对比

“吞吐量 QPS” 是衡量信息检索系统(例如搜索引擎或数据库)查询处理能力的重要指标。在原榜单TOP1基础上,零一万物笛卡尔向量数据库实现了显著性能提升,部分数据集上的性能提升超过2倍以上,在gist-960-euclidean数据集维度更大幅领先榜单原TOP1 286%。

RAG是一种结合了检索和生成的技术,它通过从海量数据中检索查询到的信息,来增强语言模型的生成能力。和传统检索方法类似,从本质上讲,RAG向量检索主要解决两大问题:

1. 通过建立某种索引结构,减少检索考察的候选集;

2. 降低单个向量计算的复杂度。

零一万物笛卡尔向量数据库在处理复杂查询、提高检索效率以及优化数据存储方面相比业界拥有显著的比较优势。针对第1个问题,零一万物团队有两大杀手锏:

•            领先的全导航图技术。目前业内现状主要通过哈希、KD-Tree、VP-Tree等方式,导航效果不够精确,裁剪力度不够,零一万物研发的全局多层缩略图导航技术,图上坐标系导航,既能保证精度,又能裁剪大量无关向量。

•            首创自适应邻居选择策略,填补业界空白。零一万物自研的自适应邻居选择策略,突破了以往仅依赖真实topk或固定边选择策略的局限,新策略使每个节点可以根据自身及邻居的分布特征动态地选取最佳邻居边,更快收敛接近目标向量,从而让RAG向量检索性能提高15%-30%。

针对第2个问题,零一万物采用了两级量化方案增强RAG。零一万物用两级量化降低计算复杂度,同时列式存储充分利用SIMD的并发能力,进一步发挥硬件能力,相比传统PQ查表,性能得到大幅提升到2-3倍。

除此之外,零一万物还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

全栈向量技术:精度更高、性能更强

通过上述全栈向量技术的加持,让零一万物笛卡尔向量数据库不仅登顶权威榜单ANN-Benchmarks6项评测第一名。更在实际应用场景中具有精度更高、性能更强等核心优势。

零一万物笛卡尔向量数据库目前聚焦于高性能向量数据库高性能向量数据库通常是指向量数据集规模在千万级及以下(如2000万128维浮点型向量),通常而言,高性能向量数据库可以轻松应对百分之八九十的日常场景,比如帮助企业客户构建私域知识库、智能客服系统;在自动驾驶领域,使用高性能向量数据库可来加速自动驾驶模型训练等。

零一万物高性能向量数据库具有以下优点:

•            超高精度:基于多层缩略图和坐标系实现层间导航和图上方位导航,以及图连通性保障,实现精度大于99%,相同性能下,精度大幅领先业内水平。

•            超高性能:高效的边选择和裁剪技术,千万数据库ms响应。

以电商推荐场景为例,上架商品数量可能千万级,每个商品可以由一个向量表达。即使库中向量数不算很大,如果电商用户基数非常庞大,高峰时每秒用户请求数非常大,可能达到几十万甚至上百万的QPS。使用高性能向量数据库可以有效提升电商场景里面搜索、广告业务的推荐效果,让大家忍不住一直买买买。

零一万物表示,笛卡尔向量数据库是团队基于RAG的初步尝试,将在近期发布的AI生产力产品中得到有效应用。未来各家大模型优化到一定程度后,向量数据库的能力可能决定各家大模型的天花板。零一万物后续会持续专注研发和分享,为用户带来更好的技术和体验。

相关推荐
热点推荐
一夜之间,多国的货币全崩了!美国在尽情收割!

一夜之间,多国的货币全崩了!美国在尽情收割!

唐根英爱音乐
2024-04-30 02:50:54
安切洛蒂:希望当一个无为而治的教练 我对拜仁没有报复之心

安切洛蒂:希望当一个无为而治的教练 我对拜仁没有报复之心

直播吧
2024-04-30 01:19:09
“老泄残精,人穷寿尽”是什么意思?提醒:60岁以后,牢记4件事

“老泄残精,人穷寿尽”是什么意思?提醒:60岁以后,牢记4件事

番茄健康
2024-04-27 11:12:06
祸害人三年的新冠消失了,四大奇怪现象却出现了,很多人没察觉

祸害人三年的新冠消失了,四大奇怪现象却出现了,很多人没察觉

李昕言温度空间
2024-04-19 21:12:55
支付宝突然更新,结果把全国网友都看傻了

支付宝突然更新,结果把全国网友都看傻了

锋潮评测
2024-04-29 16:39:22
特斯拉向部分中国车主发出FSD Beta体验邀请 稳了?

特斯拉向部分中国车主发出FSD Beta体验邀请 稳了?

手机中国
2024-04-29 19:18:21
1-3!没有奇迹,怀特轰38+4+3力压双探花,热火三分失准黑八难了

1-3!没有奇迹,怀特轰38+4+3力压双探花,热火三分失准黑八难了

球哥侃球
2024-04-30 10:12:28
带伤作战!贾马尔-穆雷半场15中6拿到并列最高16分 三分8中3

带伤作战!贾马尔-穆雷半场15中6拿到并列最高16分 三分8中3

直播吧
2024-04-30 11:14:22
城管打伤一个老人,大批警察包围城管办公室,坚决抓打老人的城管

城管打伤一个老人,大批警察包围城管办公室,坚决抓打老人的城管

乔生桂
2024-04-28 09:31:07
外贸订单去哪了?高中低端市场全面崩溃,未来只能依赖国内消费?

外贸订单去哪了?高中低端市场全面崩溃,未来只能依赖国内消费?

蚂蚁虾侃
2024-04-29 08:31:13
德国上千人走上街头反对新闻自由,呼吁建立哈里发王国

德国上千人走上街头反对新闻自由,呼吁建立哈里发王国

土澳的故事
2024-04-29 21:04:31
赵本山黑脸巡视儿子公司!生意冷清亏损严重,砸钱数亿或血本无归

赵本山黑脸巡视儿子公司!生意冷清亏损严重,砸钱数亿或血本无归

清欢渡语
2024-04-28 22:38:17
吴亦凡有没有后悔没有给都美竹索要的800万,如果最初给了800万是不是就不会发生后面的事?

吴亦凡有没有后悔没有给都美竹索要的800万,如果最初给了800万是不是就不会发生后面的事?

阿芒娱乐说
2024-04-24 07:55:26
玉渊谭天:五星红旗与金门岛同框意味着什么

玉渊谭天:五星红旗与金门岛同框意味着什么

环球网资讯
2024-04-29 21:46:23
你也不能全怪华为的车,对吧?

你也不能全怪华为的车,对吧?

走读新生
2024-04-29 23:58:50
美大选恐提前结束,下任总统已定?

美大选恐提前结束,下任总统已定?

壹号评论
2024-04-29 10:03:50
国产品牌近乎全军覆没的安全漏洞:唯一不受影响的只有华为

国产品牌近乎全军覆没的安全漏洞:唯一不受影响的只有华为

快科技
2024-04-29 11:46:57
外交部回应美国法案涉华消极条款,连用四个“严重”

外交部回应美国法案涉华消极条款,连用四个“严重”

澎湃新闻
2024-04-29 15:42:43
恭喜马琳! 祝贺刘国梁! 国乒又一天才横空出世, 张本美和高兴早了

恭喜马琳! 祝贺刘国梁! 国乒又一天才横空出世, 张本美和高兴早了

蒙里蒙外
2024-04-30 02:06:37
受够了!红魔太子开炮:我已竭尽所能 原本离开曼联可获更丰厚薪水

受够了!红魔太子开炮:我已竭尽所能 原本离开曼联可获更丰厚薪水

小豆豆赛事
2024-04-30 05:54:57
2024-04-30 12:36:49

科技要闻

特斯拉和百度独家深度定制车道级高辅地图

头条要闻

内蒙古开鲁县回应承包人身份传言:确实曾任县政协常委

头条要闻

内蒙古开鲁县回应承包人身份传言:确实曾任县政协常委

体育要闻

上海男篮:年轻人,学费总是要交的

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

健康
教育
房产
时尚
本地

春天野菜不知不识莫乱吃

教育要闻

#新航道 第十一届 #519雅思节 9分梦想,10分坚持

房产要闻

拆迁致富成过去式?广州旧改探索新出路

40、50岁女人想要变优雅?衣穿简单不穿花,谁见了都会夸美

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

无障碍浏览 进入关怀版
×