网易首页 > 网易号 > 正文 申请入驻

本科生推翻姚期智40年前的猜想,哈希表的平均查询时间竟与填满程度无关

0
分享至

来源:选自量子杂志

作者:Steve Nadis

编译:机器之心

1985 年,著名计算机科学家、图灵奖得主姚期智提出了一个与哈希表有关的猜想。现在,40 年过去了,一名本科生却成功推翻了这个猜想。而这项成就却源自一个始于 2021 年秋的故事。

量子杂志近日报道了这个故事,机器之心编译了该文章以飨读者。

原文地址:

https://www.quantamagazine.org/undergraduate-upends-a-40-year-old-data-science-conjecture-20250210/

2021 年秋季的某天,罗格斯大学的一位本科生 Andrew Krapivin 遇到了一篇论文,而这篇论文将改变他的一生。不过那时候,Krapivin 倒没有多想。两年之后,当他终于有空细读这篇论文时(他说当时只是为了好玩),他还没意识到:他的工作将让人重新审视计算机科学领域一种被广泛使用的工具。

这篇论文题为「Tiny Pointers」,即微型指针。这是一种类似箭头的东西,指向的是计算机内存中的一段信息或一个元素。Krapivin 很快就发现了一种有望进一步降低指针内存使用量的方法。但首先,他需要一种更好的方法来组织指针指向的数据。

  • 论文标题:Tiny Pointers

  • 论文地址:https://arxiv.org/pdf/2111.12800

他的方法是使用一种常用于存储数据的方法,即哈希表(hash table)。在探索研究的过程中,Krapivin 最终发现了一种新的哈希表。并且这种新哈希表的工作速度更快 —— 用更少的时间和步数便能找到指定元素。

不过,Krapivin 之前的教授 Martín Farach-Colton 起初对这个新设计深感怀疑,毕竟哈希表似乎早已被人研究透了,很难再取得新进展。

但直觉上的看法并不一定总是对的。为了确认这个新设计的有效性,Farach-Colton 邀请了卡内基梅隆大学的 William Kuszmaul 检查 Krapivin 的新发明。

Kuszmaul 深感振奋。他记得自己当时对 Krapivin 说:「你不只是想出了一个很酷的哈希表,你实际上彻底推翻了一个已有 40 年的猜想!」

Andrew Krapivin 颠覆了人们对哈希表的普遍看法 —— 即便他一开始并没有这样的打算。哈希表是计算机科学中被研究得最透彻的工具之一。

本科生推翻存在 40 年的猜想

Krapivin 推翻的是著名计算机科学家、图灵奖得主姚期智在 1985 年提出的一项研究。

他们的研究过程是这样的。1 月份,剑桥大学研究生 Krapivin、任职于纽约大学的 Farach-Colton 以及 Kuszmaul 共同发表了一篇文章。

这篇文章重新探讨了开放寻址哈希表(open-addressed hash table)的最优搜索复杂度,以便在检索时能以尽可能少的探测次数找到元素。文章提出了两种新的哈希表插入策略 —— 弹性哈希(elastic hashing)和漏斗哈希(funnel hashing),并证明了,即使不随时间重新排列元素,也可以构建一种哈希表,其预期的搜索复杂度(无论是摊销复杂度还是最坏情况)远超以往认为可能的水平。

  • 论文标题:Optimal Bounds for Open Addressing Without Reordering

  • 论文地址:https://arxiv.org/pdf/2501.02305

在论文摘要部分,他们强调了这项研究推翻了姚期智在其开创性论文《Uniform Hashing is Optimal》中留下的核心猜想,并给出了相关的下界证明。

众所周知,哈希表在计算领域已变得无处不在,主要在于其简单性和易用性。它通过将数据映射到一个固定大小的数组中,从而实现快速的插入、删除和查询操作。哈希表的核心思想是利用哈希函数(Hash Function)将数据的键(Key)转换为数组的索引(Index),从而快速定位数据存储的位置。

最早的哈希表可以追溯到 20 世纪 50 年代初,自那时起,计算机科学家一直在研究和使用它们。研究人员希望弄清楚这些操作的速度极限。例如,新的搜索或插入可能有多快?

Martín Farach-Colton 帮助 Krapivin 证明了新哈希表与一个长期存在的猜想相矛盾

答案通常取决于在哈希表中找到一个空位所需的时间。而这通常又取决于哈希表的填充程度。

填充程度可以用百分比表示,比如 50% 或 90%,但在研究中,哈希表往往接近完全填满。

为了更精确地描述这种高填充状态,研究者们可能会使用一个整数(记作 x)来表示哈希表接近 100% 满的程度。如果 x 是 100,那么哈希表是 99% 满的;如果 x 是 1,000,那么哈希表是 99.9% 满的。

这种衡量填充程度的方法为评估执行查询或插入等操作所需的时间提供了一种便捷的方式。

此前,研究人员得出这样一个结论,对于某些常见的哈希表,执行最坏情况下插入操作所需的预期时间与 x 成正比。Kuszmaul 表示:「如果你的哈希表是 99% 满的,那么你需要查看大约 100 个不同的位置才能找到一个空闲槽位,这种情况是合理的。」

著名计算机科学家姚期智在这篇论文中提出,在具有特定属性的哈希表中,查找单个元素或空位的最佳方法是随机地遍历潜在的位置 —— 这种方法被称为均匀探测(uniform probing)。他还指出,在最坏的情况下(即寻找最后一个空闲位置时),你无法做得比 x 更好。

  • 论文标题:Uniform Hashing Is Optimal

  • 论文地址:

https://dl.acm.org/doi/pdf/10.1145/3828.3836

40 年来,大多数计算机科学家都认为姚期智的猜想是正确的。

Krapivin 没有囿于传统的想法,原因很简单:他不知道这个传统的想法。他说:「我在不知道姚期智猜想的情况下做到了这一点。」这让 Tapline 联合创始人兼 CEO 不禁在 上感叹说:「无知也是一种福气。」

Krapivin 在微型指针方面进行的探索最终得到了一种新的哈希表 —— 一种不依赖于均匀探测的哈希表。

对于这种新的哈希表,最坏情况查询和插入所需的时间与 (log x)² 成正比 —— 比 x 快得多。这个结果直接与姚期智的猜想相矛盾。Farach-Colton 和 Kuszmaul 帮助 Krapivin 证明了 (log x)² 是姚期智所写的常见哈希表类别的最佳、不可超越的界限。

卡内基梅隆大学的 Guy Blelloch 赞道:「这个结果非常美妙,因为它重新审视并解决了这样一个经典问题。」

滑铁卢大学的 Sepehr Assadi 表示:「他们不仅证否了 [姚期智猜想],还找到了该问题的最佳答案。我们原本可能还要再等 40 年才能知道这个正确答案。」

Krapivin 在剑桥大学的国王学院桥上。他的新哈希表可以超出研究者预料的速度更快地查找和存储数据。

除了证否姚期智的猜想外,这篇论文还包含许多更惊人的结果。这与一个相关但略有不同的情况有关:1985 年,姚期智不仅研究了查询的最坏情况时间,还研究了所有可能查询的平均时间。他证明:具有某些属性的哈希表(包括被标记为「贪婪」的哈希表,这意味着新元素必须放在第一个可用位置)的平均时间永远不会比 log x 好。

Farach-Colton、Krapivin 和 Kuszmaul 想看看对于非贪婪哈希表,这个限制是否同样适用。

最终,他们表明这个限制不适用。证明过程很简单,他们提供了一个反例,即一个平均查询时间远远好于 log x 的非贪婪哈希表。事实上,它根本与 x 无关。

Farach-Colton 说:「你会得到一个数值,而这个数值就是一个常量,与哈希表的填满程度没有关系。」也就是说,无论这个哈希表的填满程度如何,平均查询时间都是一个常量。

这一事实大出人们意料 —— 甚至连这几位作者自己也没有想到。

Conway 说,该团队得到的结果可能不会带来任何直接的应用,但这并不重要。「更好地理解这些类型的数据结构很重要。你不知道这样的结果何时会造就一些东西,从而让你创造更好的实践。」

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长江存储陈南翔:华为“韬定律”非常好,中国半导体人要扛起大旗

长江存储陈南翔:华为“韬定律”非常好,中国半导体人要扛起大旗

21世纪经济报道
2026-05-29 12:28:49
1990年,作家三毛到新疆和76岁的王洛宾同居,王洛宾说:“可以同居,不可以发生关系!

1990年,作家三毛到新疆和76岁的王洛宾同居,王洛宾说:“可以同居,不可以发生关系!

犀利辣椒
2026-05-20 06:23:07
6岁小天赐从寄宿学校回家,还得配合拍广告,家中装修老气又憋闷

6岁小天赐从寄宿学校回家,还得配合拍广告,家中装修老气又憋闷

嫹笔牂牂
2026-05-30 07:28:31
孙俪万万没想到!14岁儿子爆火:化个妆就能演少年甄嬛

孙俪万万没想到!14岁儿子爆火:化个妆就能演少年甄嬛

阿废冷眼观察所
2026-05-28 05:35:27
银行存款大局已定?今明两年,存款50万以上的家庭,坚持4不做

银行存款大局已定?今明两年,存款50万以上的家庭,坚持4不做

王二哥老搞笑
2026-05-29 13:29:17
埃及公布世界杯26人名单:33岁萨拉赫第2次参赛 巴萨18岁天才入选

埃及公布世界杯26人名单:33岁萨拉赫第2次参赛 巴萨18岁天才入选

我爱英超
2026-05-30 07:30:51
河南网红狗被陌生男女带走以180元卖掉宰杀,主人中断环球旅行悬赏5000元寻找,民警上门时对方拒不配合,称“狗已经死了,别再折腾我们”

河南网红狗被陌生男女带走以180元卖掉宰杀,主人中断环球旅行悬赏5000元寻找,民警上门时对方拒不配合,称“狗已经死了,别再折腾我们”

极目新闻
2026-05-28 22:10:06
涉嫌严重违纪违法,韩培武被查

涉嫌严重违纪违法,韩培武被查

都市快报橙柿互动
2026-05-29 21:03:30
休渔期“第一鲜”,在青岛大批上岸:有人4小时,收获四五十斤!肥美鲜甜,今年价格低了

休渔期“第一鲜”,在青岛大批上岸:有人4小时,收获四五十斤!肥美鲜甜,今年价格低了

环球网资讯
2026-05-30 08:25:12
夫妻一吃自己做的饭就拉肚子,吃外卖却没事,一年半还没找到原因

夫妻一吃自己做的饭就拉肚子,吃外卖却没事,一年半还没找到原因

夜深爱杂谈
2026-05-29 07:56:08
爆小冷!德约25冠梦想破灭!苦战5盘惨遭逆转!紫薇登顶机会来了

爆小冷!德约25冠梦想破灭!苦战5盘惨遭逆转!紫薇登顶机会来了

搏击江湖
2026-05-30 07:42:12
《给阿嬷的情书》持续热映,潮州、揭阳、汕头市委书记相继与导演交流座谈

《给阿嬷的情书》持续热映,潮州、揭阳、汕头市委书记相继与导演交流座谈

澎湃新闻
2026-05-29 19:50:26
“只要大陆敢打,我就敢送”,他公开宣称

“只要大陆敢打,我就敢送”,他公开宣称

安安说
2026-05-24 15:20:17
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
6500 万!曼联弃将或重返英超 红魔当初看走眼肠子悔青

6500 万!曼联弃将或重返英超 红魔当初看走眼肠子悔青

澜归序
2026-05-29 06:50:02
72岁TVB绿叶在成都提新车,自曝已在当地买房,每年旅居住三个月

72岁TVB绿叶在成都提新车,自曝已在当地买房,每年旅居住三个月

树娃
2026-05-28 13:20:21
10名车主诉特斯拉FSD欺诈案近日开庭,索赔金额数百万元

10名车主诉特斯拉FSD欺诈案近日开庭,索赔金额数百万元

新京报
2026-05-29 19:19:44
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
回顾:孙小果被注射死刑后,以前女同学透露其习惯,令人感到害怕

回顾:孙小果被注射死刑后,以前女同学透露其习惯,令人感到害怕

飞云如水
2025-01-11 15:15:34
德约呕吐一幕曝光!详解出局6大遗憾 赛后回应自己发挥没太大问题

德约呕吐一幕曝光!详解出局6大遗憾 赛后回应自己发挥没太大问题

醉卧浮生
2026-05-30 07:50:01
2026-05-30 09:55:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4776文章数 37469关注度
往期回顾 全部

科技要闻

英伟达、微软一同发布神秘预告 下周亮相?

头条要闻

参赛车手张秀军身亡:和领航员翻进水沟里被困一小时

头条要闻

参赛车手张秀军身亡:和领航员翻进水沟里被困一小时

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
数码
时尚
教育
公开课

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

猫头鹰预告2026台北电脑展将展示热虹吸一体式水冷散热器

aespa治好了我的黑眼圈焦虑

教育要闻

从“拼盘”迈向“融合”:雄安中芬教育对话定义未来“好课堂”——2026小学跨学科融合课程建设与教学创新研讨会深度观察

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版