网易首页 > 网易号 > 正文 申请入驻

走过十年仍在第一梯队:千亿级数据!毫秒级搜索算法!

0
分享至

2016 年,我在博士期间提出了 EFANNA 算法;一年后,我又提出了 NSG(Navigating Spreading-out Graph) ——一种能让 AI 在亿级数据中实现毫秒级查找 的图向量检索算法。

从 EFANNA 到 NSG,这些算法已经陪我走过将近十年的研究旅程。站在 2025 年的今天,我也很好奇:它们现在还处在什么位置?

自己说好不算数,我们不妨看看外部视角:学术界和工业界的评价。最近,数据库领域国际顶会 SIGMOD 2025 公布了一篇来自法国团队的系统性研究——《Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art》。

这篇论文回顾了近十年来图向量检索算法的发展脉络,并在多个大规模数据集上对 12 种主流算法进行了对比实验(最大规模达到10亿向量)。

结果显示,性能最优的算法通常采用“邻域扩展(neighborhood propagation)”与“邻域多样化(neighborhood diversification)”两类设计策略。作为这一路线下的代表性方法,NSG 在评测中依旧展现出稳定而突出的表现,处在高召回、低延迟的第一梯队。

01

图向量检索的演化路径:

从结构探索到索引融合

我们先来看看,图向量检索算法经历了一个怎样的研究历程。这里作者们做了一个很好的脉络梳理,而我在这个总结的基础上给图算法发展进一步划分了三个阶段,如下图:


1. KNN 图与随机图

绿框是图算法发展的第一阶段:基于K近邻图和随机图的结构探索。无论什么图算法,主要通过贪婪游走(类A*算法)来完成检索。那么图结构及其理论支持最为重要。而在图几何拓扑的茫茫大海中,K近邻图(KNNG)和随机链接图拥有比较好的理论基础,那么初期的尝试也从此开始。

2. 图稀疏化:裁剪边,提升效率

红框是图算法发展的第二阶段,图的稀疏化。这一阶段研究者们发现图索引中,并不是所有边都有价值,因此我们可以对第一阶段的一些不错的图索引进行有效的裁剪,来得到一个精简、稀疏但高效的索引。

3. 索引融合:跨越单一瓶颈

最下面蓝框代表的是图算法发展的第三阶段:索引融合。这一阶段研究者们开始发现图索引的非最优性,即在特定的数据集上图算法出现明显的瓶颈,其中代表性的就是ELIPS——把图结构和Hercules EAPCA树进行结合。LSHAPG把图索引和哈希表结合。通过吸收不同向量检索算法的优势来强化效果。

从第三阶段的发展来看,我们也大概能得到一个结论:图索引的算法基础已经陷入明显的瓶颈。从我的NSG引入了图裁剪带来效果提升的理论基础后,后续几年图算法在裁剪策略上没有获得更明显、有效的提升了。

02

NSG 的定位与实证:

高性能算法第一梯队

在 SIGMOD 2025 的实验结果中,我曾提出的 NSG、SSG 依然稳居第一梯队,尤其在高召回、低延迟的任务中表现突出。这说明:尽管过去十年涌现了许多新方法,NSG 依旧是图检索的标杆算法之一。


上图我篮框圈选出来了文章实验部分NSG、SSG所在位置,处在高recall 低延迟的位置。

同时也能看到,单一图算法的优化已接近瓶颈。这为我们提供了一个重要启示:未来十年,复合索引将是主题。这一点也可以从广为人知的ANN Benchmark

https://github.com/erikbern/ann-benchmarks?tab=readme-ov-file的结果观察到:


图中第一梯队的方法Descartes(https://github.com/01-ai/Descartes)是零一万物开发的基于图和量化算法结合的复合型算法,利用了量化算法的距离计算加速和图算法的快速导航,是常见的两阶段或多阶段检索加速算法。

02

方法延伸:

从NSG到MAG的演进

如果说 NSG 解决的是 欧式空间中的图裁剪问题,那么我近年的工作则顺应了 内积相似度(cosine / dot product)崛起的趋势。

过去两年,向量检索研究已从 理论结构优化 转向 复合加速与产品化。在这一背景下,我研发了两类新算法:

1. PSP:定位与 NSG 类似,但作用在泛内积检索 场景。它首次证明了内积与欧式检索的对偶性,为内积检索奠定了系统的理论基础。

2. MAG:更强调产品化与易用性。它将内积和欧式度量统一在一套图索引中,用户无需维护多套索引,就能在两种度量之间无缝切换,大幅降低了工业应用门槛。

我们接下来的工作则是推动MAG的进一步产品化,在更加广泛的不同模态、维度、分布的大规模向量数据库中,分析当前图算法在内积、欧式两种度量下的短板,从而研发一种对数据集分布不敏感、自适应,同时融合多阶段复合索引的傻瓜式检索算法,尽量让用户可以一键集成、几乎无需调参就可以获得极致检索加速、享受高精度召回。

如果你对这方向感兴趣,欢迎加入我们的开源项目,我们的团队有工作十余年经验丰富的大厂老兵,有顶会发表多篇论文的博士生青年才俊,欢迎和我们一起探索下一代向量检索!

开源代码

NSG:https://github.com/ZJULearning/nsg

SSG:https://github.com/ZJULearning/SSG

PSP:https://github.com/ZJU-DAILY/PSP

MAG:https://github.com/ZJU-DAILY/MAG

欢迎同行们评论、留言、私信!

我是傅聪Cong,《业务驱动的推荐系统:方法与实践》作者,高性能向量检索算法NSG、SSG、PSP、MAG的发明者,资深算法专家,现居新加坡。

我们的算法团队和国内外很多一流大学和实验室都有长期paper合作,方向不限于大模型、搜推广、机器学习!

我们也非常欢迎各界研究者,一起合作探索出产学研结合、高可用性的算法!

github主页:https://github.com/CongFu92

个人邮箱:fucong92@126.com

傅聪Cong

NSG/SSG/PSP/MAG作者

向量检索/搜推广资深算法专家

别忘了点一下「在看」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“人民咖啡馆”被央媒点名批评后紧急改名,记者实探:店铺已开始整改,店名被遮盖

“人民咖啡馆”被央媒点名批评后紧急改名,记者实探:店铺已开始整改,店名被遮盖

极目新闻
2025-11-08 13:20:10
摊牌了!高市早苗提对台海出兵,日本高层的反应,如中国所料

摊牌了!高市早苗提对台海出兵,日本高层的反应,如中国所料

云鹏叙事
2025-11-10 10:46:15
陈慧琳演唱会穿三角裤衩,五十多了合适吗?

陈慧琳演唱会穿三角裤衩,五十多了合适吗?

草莓解说体育
2025-11-10 06:24:55
内娱欠她一个爆红!神颜实力派为何无人识?

内娱欠她一个爆红!神颜实力派为何无人识?

乡野小珥
2025-11-09 14:45:34
三位勇士以一身伤痕,为14亿人辟出法治生路

三位勇士以一身伤痕,为14亿人辟出法治生路

深度报
2025-11-07 22:56:16
李嘉诚曾和梁洛施私下做交易,不把3个孙子纳入李家,是一种算计

李嘉诚曾和梁洛施私下做交易,不把3个孙子纳入李家,是一种算计

娱乐团长
2025-11-09 14:33:37
银行批量直售房产

银行批量直售房产

经济观察报
2025-11-07 21:22:29
异人必有异相!吴宜泽上限或高于赵心童,英媒早就赞他能统治未来

异人必有异相!吴宜泽上限或高于赵心童,英媒早就赞他能统治未来

杨华评论
2025-11-09 23:04:18
爆冷2分惜败,又14分惨败!NBA退步最快球队,这笔交易亏大了

爆冷2分惜败,又14分惨败!NBA退步最快球队,这笔交易亏大了

篮球扫地僧
2025-11-10 12:44:15
菲律宾这次灾害,全世界保持沉默,就连美日欧盟都按下了暂停键

菲律宾这次灾害,全世界保持沉默,就连美日欧盟都按下了暂停键

诗意世界
2025-11-09 21:35:14
全运会爆大冷!女乒名将被淘汰,最新赛程:孙颖莎、樊振东迎硬战

全运会爆大冷!女乒名将被淘汰,最新赛程:孙颖莎、樊振东迎硬战

知轩体育
2025-11-09 22:58:45
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
拍案叫绝!主席如何识破101阴险两面派?居然是一次不起眼的谈话!

拍案叫绝!主席如何识破101阴险两面派?居然是一次不起眼的谈话!

博览历史
2023-12-23 18:40:48
陕西咸阳一男子打晕妻子误以为已死,将人扔下土崖致其死亡被公诉

陕西咸阳一男子打晕妻子误以为已死,将人扔下土崖致其死亡被公诉

上游新闻
2025-11-09 15:23:04
拿40万镑顶薪!利物浦头牌成球霸 空门不传队友+过人0成功仅获6分

拿40万镑顶薪!利物浦头牌成球霸 空门不传队友+过人0成功仅获6分

我爱英超
2025-11-10 03:14:29
钓鱼岛究竟有多大?上面能住人吗?终于揭开钓鱼岛神秘的面纱

钓鱼岛究竟有多大?上面能住人吗?终于揭开钓鱼岛神秘的面纱

缘史记
2025-11-07 18:14:40
霍震霆父子三人现身全运会开幕式,打扮风格不一样!霍启山好松弛

霍震霆父子三人现身全运会开幕式,打扮风格不一样!霍启山好松弛

心静物娱
2025-11-10 10:39:04
事出反常,东大为什么忽然沉默了?

事出反常,东大为什么忽然沉默了?

每日一见
2025-11-09 12:33:19
曝皇家马德里计划用罗德里戈交换利物浦1.25亿欧元先生

曝皇家马德里计划用罗德里戈交换利物浦1.25亿欧元先生

油泼辣不辣
2025-11-10 07:46:28
秦基伟下放劳动,战士问他以前是多大的官,秦:我是师里农场场长

秦基伟下放劳动,战士问他以前是多大的官,秦:我是师里农场场长

林子说事
2025-11-08 08:13:22
2025-11-10 13:36:49
开源中国 incentive-icons
开源中国
每天为开发者推送最新技术资讯
7415文章数 34479关注度
往期回顾 全部

科技要闻

存储芯片大厂涨价50%!华强北一天一个价

头条要闻

老人花1500元装的净水器次日就漏水 生产厂家经营异常

头条要闻

老人花1500元装的净水器次日就漏水 生产厂家经营异常

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

郝蕾风波升级?

财经要闻

俄罗斯大幅加税 中国汽车出口骤降58%

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

旅游
健康
房产
本地
公开课

旅游要闻

聚焦河南新密溱洧水城:千年文脉碰撞创新活力

超声探头会加重受伤情况吗?

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版