网易首页 > 网易号 > 正文 申请入驻

谷歌TurboQuant争议背后:小团队如何守住学术底线

0
分享至

「他们不仅不愿意在谷歌博客更正这两个方法的相似性,并且只同意在ICLR 2026会议结束后才会修正论文。」高健扬在等了一天、未获谷歌副总裁回复后,选择了公开发声。

2026年3月25日,谷歌Research官方博客发布TurboQuant论文,宣称可将大模型KV Cache内存占用减少6倍。当日内存股集体大跌。但很快,这项研究陷入学术不端风波:涉嫌隐瞒核心技术借鉴、错误贬低先行研究、实验中进行极度不公平的硬件对比——且作者团队明知存在大量事实性错误,仍将一年前公布的预印本投稿至ICLR 2026。


这场争议的另一方RaBitQ,是2024年提出并开源的向量压缩算法。它已被20多家国内外互联网大厂和数据库厂商引入产品。两位作者——新加坡南洋理工大学副教授龙程、苏黎世联邦理工学院博士后高健扬——在发声前已尝试沟通近一年。

我们4月初与两位作者进行了深入交流。以下从五个维度拆解这场小团队与大公司的学术较量。

一、沟通时间线:近一年的私下努力

RaBitQ团队的行动远早于公开舆论。

2025年5月,他们开始积极联络TurboQuant团队,希望修正论文事实性错误。2025年11月,通过官方渠道联系ICLR 2026 PC Chairs。2026年3月公开发声前,再次向PC Chairs发出请求,希望对TurboQuant进行正式的学术道德审查。

高健扬提到,谷歌官方博客发布后,他第一时间给TurboQuant所有作者发邮件要求更正。收到的回复来自第一作者Amir Zandieh,态度强硬:拒绝在谷歌博客更正方法相似性,仅同意在ICLR 2026会议结束后修正论文。

「错误的事实已经大规模传播了,这种以冷处理的方式我们无法接受。」

等待一天,未获其他作者回复,尤其是最后一位作者——谷歌副总裁Vahab Mirrokni——的回应后,高健扬选择公开。

二、技术溯源:向量检索的三十年演进

要理解RaBitQ的位置,需要回到向量检索的历史脉络。

龙程介绍,相关研究可追溯至1990年代末期。1998年,Piotr Indyk与导师Rajeev Motwani提出局部敏感哈希(LSH),解决高维数据的近似搜索问题。当时「高维数据」本质就是高维向量——一张图片的长、宽、颜色等特征组合成一个向量,典型应用是搜图。

2014至2015年后,深度学习普及,文字、图片、音频、视频均可通过表征技术转化为高维向量。业界开始开发专门存储、管理和查询这些非结构化数据的系统。

算法层面,基于图的索引(如HNSW)和倒排索引方法涌现。工业界代表是Facebook Research(现Meta)发布的Faiss库。2017年Faiss和HNSWlib开源后,向量检索长期以HNSW图索引、IVF倒排索引为主要演进路线。

龙程团队在2021年底进入该领域,契机是高健扬攻读博士需要确定课题。经过几个月探索,选定向量搜索方向。「当时我们也没有意识到后面会有如此大的应用前景。」

2022年底ChatGPT出现后,检索增强生成(RAG)技术流行:将问题提交给大模型前,先从知识库搜索相关上下文,结合后再提交,以获得更准确、更具时效性、更少幻觉的答案。向量数据库在大模型推理pipeline中的作用被广泛认识。

2023年美国西雅图SIGMOD会议期间,各类向量数据库大量涌现。龙程记得,「那个时候,开源的、闭源的、基于通用数据库扩展的、专门针对向量数据开发的系统」都在出现。

三、RaBitQ的技术定位:从存储痛点切入

高健扬是VectorDB@NTU最早从事向量量化与向量检索研究的博士生,RaBitQ系列是他的第一作者成果。

他这样解释RaBitQ的核心目标:解决向量存储空间占用大的问题。它利用高维空间中的特殊性质,在大幅缩减向量存储空间的同时,仍能保证使用压缩后的向量进行精确计算。

具体研究脉络上,2023年团队发表「ADSampling」,提升向量数据库中两个向量间距离计算算子的速度。随后设计出RaBitQ向量压缩算法,成果发表在数据库顶会SIGMOD 2024和SIGMOD 2025。

此后围绕RaBitQ这一基础算法,团队将其与向量数据库中流行的索引结构结合。2025年发表的新工作「SymphonyQG」,是图索引与RaBitQ结合的成果。

近期与英伟达合作,致力于GPU加速场景下的向量检索,成果正在英伟达cuVS向量检索库的预审阶段。

目前RaBitQ已得到多个版本演进,包括重构代码及开源RaBitQ Library。在向量检索之外的场景,如大模型KV Cache量化等工程解法,RaBitQ依然存在可拓展空间。

四、产业渗透:20多家厂商的实际采用

技术价值最终由产业验证。

RaBitQ已被20多家国内外互联网大厂和数据库厂商引入其向量产品。这一数字在2024年算法提出并开源后快速积累。

向量压缩的需求背景是明确的:随着大模型应用爆发,向量数据的存储和检索成本急剧上升。无论是RAG场景中的知识库向量,还是大模型推理中的KV Cache,内存占用都是核心瓶颈。

TurboQuant宣称的「6倍压缩」之所以引发市场剧烈反应,正是因为戳中了这一痛点。但争议在于:其技术路径与RaBitQ的相似性未被恰当披露,且实验对比存在硬件不公。

高健扬的邮件沟通记录显示,对方团队对「方法相似性」这一核心质疑采取回避态度。这种处理方式,与RaBitQ团队近一年来的多次私下沟通尝试形成对照。

五、学术较量的未完结态

截至访谈时,这场争议的输赢暂无定论。

TurboQuant作者团队曾做出公开澄清,但未正面回应隐瞒借鉴、贬低先行研究、硬件对比不公等问题。ICLR 2026的学术道德审查请求仍在流程中。

对RaBitQ团队而言,公开发声是沟通失败后的最后选项。高健扬的表述很直接:错误事实已经大规模传播,冷处理无法接受。

一个细节值得注意:谷歌副总裁Vahab Mirrokni作为TurboQuant最后一位作者,在整轮沟通中未予回复。这种沉默,与第一作者的强硬回复共同构成了对方的应对策略。

向量检索领域的发展脉络中,开源社区与学术规范一直是技术进步的底层基础设施。Faiss和HNSWlib的开源奠定了2017年后的技术路线,RaBitQ的开源延续这一传统。当大公司的研究团队被质疑违背这些规范时,小团队的坚守本身成为了一种技术之外的变量。

龙程和高健扬的学术背景提供了这种坚守的底气:前者是VectorDB@NTU负责人,后者是该实验室最早从事向量量化研究的博士生。他们的工作从2021年底开始,经历了向量数据库从冷门到热门的完整周期,也见证了RAG技术如何将基础研究转化为产业刚需。

这场较量的结果,将影响的不仅是两篇论文的声誉归属,还包括学术社区对「大公司研究」信任成本的重新计算。

毕竟,当「6倍压缩」的消息能让内存股大跌时,市场已经在用脚投票——只是这次,它可能投错了方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冼恒汉按正军职离休,被留党察看两年,他认为上级对自己处理草率

冼恒汉按正军职离休,被留党察看两年,他认为上级对自己处理草率

翠羽
2026-05-05 10:15:09
哈登7中1铁哭了!1比0,这次拒绝爆冷!

哈登7中1铁哭了!1比0,这次拒绝爆冷!

左右为篮
2026-05-06 10:12:45
随着利雅得胜利1-3,吉达国民4-0,沙特联排名出炉:C罗冠军悬了

随着利雅得胜利1-3,吉达国民4-0,沙特联排名出炉:C罗冠军悬了

林子说事
2026-05-05 20:23:40
谢娜演唱会最大惊喜不是李小冉,而是那个坐几小时飞机赶来的男人

谢娜演唱会最大惊喜不是李小冉,而是那个坐几小时飞机赶来的男人

老吴教育课堂
2026-05-06 09:56:52
五一之际美伊冲突撕下美“强国”伪装

五一之际美伊冲突撕下美“强国”伪装

风铃草语
2026-05-06 06:37:37
蔚来4月交付2.9万辆:增速断崖背后,三品牌集体失速

蔚来4月交付2.9万辆:增速断崖背后,三品牌集体失速

Ping值焦虑
2026-05-05 10:03:10
干得漂亮!47节高速狂飙,美舰硬闯海峡,伊朗C-802与远火混合炸

干得漂亮!47节高速狂飙,美舰硬闯海峡,伊朗C-802与远火混合炸

有范又有料
2026-05-05 10:47:06
一颗直径不到500公里的冰块,被发现有大气层

一颗直径不到500公里的冰块,被发现有大气层

报错免疫体
2026-05-05 09:47:14
五年后的南京,房子真正值钱的只有这五个板块 !

五年后的南京,房子真正值钱的只有这五个板块 !

林子说事
2026-05-06 00:10:35
美国媒体民调显示:除雷霆所在州,全美都希望詹姆斯带湖人晋级!

美国媒体民调显示:除雷霆所在州,全美都希望詹姆斯带湖人晋级!

历史第一人梅西
2026-05-05 17:09:52
“香港演员几乎全军覆没! 无戏可拍”引发网友热议

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

许三岁
2026-03-26 11:35:13
豆包开始收费了,我反而觉得是好事

豆包开始收费了,我反而觉得是好事

新眸深度
2026-05-06 09:32:39
《天道》丁元英:给员工8千他干6千的活;你给员工1万,他好好干

《天道》丁元英:给员工8千他干6千的活;你给员工1万,他好好干

富书
2026-05-05 09:59:09
李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

西楼知趣杂谈
2026-04-26 10:18:11
大连市副市长赵东,添新职

大连市副市长赵东,添新职

黄河新闻网吕梁
2026-05-06 08:53:52
港星鼎爷怒曝家丑!被大儿子榨干200万积蓄,身后事全权托付幼子

港星鼎爷怒曝家丑!被大儿子榨干200万积蓄,身后事全权托付幼子

橙星文娱
2026-05-06 09:21:08
“等有一天你被别人按在地x的时候....”女校长当众侮辱爆粗口女生,教育局回应

“等有一天你被别人按在地x的时候....”女校长当众侮辱爆粗口女生,教育局回应

南京择校
2026-05-05 22:42:09
震惊!徐向前揭露西安事变背后的惊天秘密!

震惊!徐向前揭露西安事变背后的惊天秘密!

鉴史录
2026-04-23 00:15:03
史上首次!iPhone 18 确认延期,15 年传统破了

史上首次!iPhone 18 确认延期,15 年传统破了

新浪财经
2026-05-05 07:05:20
燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

匹夫来搞笑
2026-04-20 13:24:51
2026-05-06 11:20:49
码上闲叙
码上闲叙
有态度网友ytd
3335文章数 41关注度
往期回顾 全部

科技要闻

告别废话文学与幻觉!GPT-5.5 Instant发布

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

70亿,保时捷把布加迪卖了

汽车要闻

吉利原生新能源越野架构亮相 AI如何带来极致越野

态度原创

亲子
时尚
手机
家居
军事航空

亲子要闻

宝蓝用玩具彩沙假装卖水果冰淇淋好有趣,爸爸过来买还摔倒了。

卷首语|这届年轻人,全员渡劫奥德赛

手机要闻

Q1全球十大畅销机型出炉,苹果+三星赢麻了

家居要闻

大胆前卫 时尚大宅

军事要闻

特朗普威胁伊朗不要向美国船开火

无障碍浏览 进入关怀版