网易首页 > 网易号 > 正文 申请入驻

科学家为图自编码器打造普适优化方案,助推图神经网络预测规模化

0
分享至

近日,来自北京大学的马唯硕和所在团队总结出了一套针对图自编码器(GAE,Graph Autoencoder)或以 GAE 为基础的模型的普适性优化方案,并通过实验来重估性能。结果十分令人惊讶:经过这些优化,GAE 这个相对“古老”的模型,竟能以更快的速度达到与最先进模型相当或更好的结果。例如,研究团队在美国斯坦福大学发布的大规模数据集 ogbl-ppa 上,取得了排行榜 Rank#1 的性能。


图 | 马唯硕(来源:马唯硕)

总结来看,本次成果的贡献主要有两点:首先,构建了优化版本的 GAE 模型并取得了 SOTA 结果,确认了本次基本方法所蕴含的巨大潜力;其次,归纳出了对以 GAE 为基础的链路预测模型普遍有效的一系列技术,有助于指导 AI 社区的后续模型构建。

“我们很荣幸地收到了一个接收(accept)意见和两个强烈接收(strong accept)意见。”谈及投稿过程马唯硕这样告诉 DeepTech。审稿人也认可了这一成果的核心观点——“精心优化的简单模型可以达到或超越复杂模型在链路预测任务上的表现”,并在原创性方面给予高度肯定。

从应用角度来看,这一成果最重大意义在于,研究团队证明在链路预测任务上,效率和性能在某种程度上是可以兼得的。经过他们优化之后的 GAE 模型,相较以前的一些模型,有着几十倍甚至上百倍的效率提升,这会为图神经网络链路预测模型的规模化扫清重要阻碍。

举例来说,在现代推荐系统任务中,部署图神经网络的一个重大阻碍是:建模出的物品-关系图可能有着数十亿甚至更多条边,这对图神经网络的效率提出了非常高的要求,复杂的模型所增加的额外计算成本,在这种情况下往往是不可接受的。而 GAE 模型的计算开销在这样的情境下有着天然的优势。总之,优化 GAE 架构在应用方面所能带来的核心优势便是,能在大规模部署场景下带来大幅度的效率优势。


(来源:https://arxiv.org/pdf/2411.03845)

谈及本次成果的研究背景,马唯硕表示链路预测——是图学习领域中最重要且基础的问题之一,在推荐系统、知识图谱构建等领域有着重要的应用,也是该课题组一直以来的重要研究方向之一。近年来,基于图神经网络的方法逐渐成为主流,并取得了良好的效果。但是,人们逐渐关注到,基础的图神经网络架构并不能有效捕捉到预测连边所需的结构特征。因此,该领域内的工作引入了大量复杂的模型架构改进来克服这一点,在获得性能提升的同时,计算成本也相应升高。

在追求复杂性的潮流中,研究团队观察到一个重要的评测缺陷:许多新发布的模型,其性能提升往往是被高估的,原因在于用来比较的基线模型,往往是多年前未经任何优化的原始版本,而近期模型往往都经过了非常精细的优化。这个问题可能导致人们不能正确评估模型所改进的效果,让 AI 社区过分关注模型本身的新颖程度,而忽视了对于基础模型潜力的挖掘。

基于这个观察,研究团队聚焦于近 10 年前提出的一个重要的模型——GAE,并提出了这样一个问题:在不改变模型简洁的核心架构的前提下,对 GAE 使用流行的现代优化技术进行全面优化,它的性能究竟能达到什么水平?总而言之,研究团队并不是在创建一个全新的模型,而是通过针对基础模型进行全面优化,为 AI 社区提供一个更公允、更强大的基线,并为后续模型设计提供优化方面的重要参考。

另据悉,本次课题组最开始是针对另一个课题的跟进。在此前课题里,研究团队主要研究负采样技术对于链路预测的促进作用,并侧重于强调其优秀的效率。因此,他们希望在这一课题的启示之下,寻求效率与性能平衡的新方向。当时,马唯硕作为一名本科实习生,得到了导师张牧涵教授和师兄们的信任与帮助,负责主导此次课题组的推进。“而这对我来说也是一个全新且激动人心的挑战。”马唯硕表示。

研究初期,他和其他团队成员开展了一系列的消融实验,逐个去掉了模型中的每个模块,直到只剩下 GAE 的基座模型部分。他们很快发现当去掉这些模块,并没有对性能造成较大冲击,其表现仍然远远好于早期测得的 GAE 基线结果。这让他们立刻意识到,很有可能 GAE 本身的表现是被大大低估的。后续实验很快证明他们的观察是正确的:即仅仅通过基础的模型架构改进,比如线性卷积等技术,以及最基本的参数调优,就能在部分数据集上取得不错的结果,那怕和当时最先进的基线相比依然如此。通过仔细审阅代码,他们确定没有出现数据泄露这类问题,即不存在会导致表现虚高的问题,基于此他们觉得这个方向值得继续挖掘。

为了探明 GAE 模型的全部潜能,马唯硕大量阅读了近期所有知名链路预测模型的源代码,以便确定它们的流水线中存在对于链路预测任务最有利的部分,并将其融入了 GAE 基线的基本架构中,同时设计了大规模实验方案来确定每一个优化技术的最佳实践。在针对每一个模块进行大规模实验研究与验证之后,他们逐渐总结出一套详尽的优化方案,并在该方案的指导之下做出了不错的结果。

当然,仅有实验结果是远远不够的,还需要从理论来进行阐释。实际上,人们之所以不信任 GAE 架构的一个主要原因在于,它在理论上存在表达能力限制,简单来说它不能捕捉到那些对于连边形成至关重要的结构信息。“而如果我们的模型能够表现出非常优秀的性能,那一定表明其通过某种方式突破了这个限制。”马唯硕表示。

实际上,他和所在团队在很早就意识到这个原因。此前,已有论文指出正交噪声可以用来估计公共邻居信息,这对于链路预测十分重要。而将这个结论与 GAE 相结合,研究团队发现当 GAE 使用正交初始化的初始节点表征,辅以线性的卷积传播和点积预测,这些公共邻居信息同样能够得以保留,而这是一个相当强的结构信号。这表明本次实验中展示出来的强大性能并非偶然。

研究推进到这里其实已经比较充分,但是他们最初并没有打算将其作为正式会议论文进行投稿,而是准备制作一份研究报告。转机在于该团队另一一篇中稿神经信息处理系统大会(NeurIPS,Conference on Neural Information Processing Systems)的论文,让本次成功在其他领域得到了验证。也让类似 GAE 这样既简单又强大的基础模型得到了广泛的认可。这坚定了他们的信心,让他们更加清楚地意识到此次工作对于整个领域可能具有重要价值。

所以在导师和师兄的支持之下,马唯硕决定将这一成果整理为论文并将其投稿到信息与知识管理国际会议(CIKM,Conference on Information and Knowledge Management)。在整个论文写作过程中,他和所在团队系统性地汇总了一系列的实验结果,并陆续迭代了数次论文叙述方式,确保每一个细节都做到最好。

“而值得一提的是,上述那篇 NeurIPS 论文也成为了我们在这篇论文写作过程中的重要行文结构参考。也很高兴这篇论文被 CIKM 最终接收,并获得了审稿人的良好反馈。”马唯硕表示。

他认为,扎实的基础理解和冷静的观察视角必不可少。相对浮躁的研究思路可能会让人们选择追求复杂性的潮流,从而会在完善的架构基础上继续增加复杂的设计,而不去将更底层的机制理解透彻。这样的方式很难做出真正的创新成果,也可能会错过基础架构中仍然存在的设计空间与优化可能。

后续,研究团队主要关注以下两个方向:

首先,他们希望可以把本次论文拓展到动态图之中。在动态图场景中,图是会持续变化的,这为图学习提供了全新的挑战。而由于它与工业场景比如推荐系统有着最紧密的结合,因此在近年来成为了最热门的方向之一。因此,他们希望能够研究基础架构在动态图设置下的潜能。

其次,他们计划研究图基础模型。近年来,构建一个单一的、强大而灵活的模型,以便处理不同图上的不同下游任务,是图学习领域的一贯追求。研究团队希望可以利用本次论文提供的对于 GNN 优化的一系列观察,为图基础模型的设计提供更多启发。

参考资料:

https://arxiv.org/pdf/2411.03845

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安世立下规矩,日本欧洲全线停产,荷兰承认误判:强抢是无奈之举

安世立下规矩,日本欧洲全线停产,荷兰承认误判:强抢是无奈之举

华庭讲美食
2025-11-01 07:35:28
申花三位外援合同年底到期!只有一人续约可能性最大,引发热议

申花三位外援合同年底到期!只有一人续约可能性最大,引发热议

懂个球
2025-11-03 15:23:07
吃他汀不能喝牛奶?医生建议:不只是牛奶,这5物再爱也要管住嘴

吃他汀不能喝牛奶?医生建议:不只是牛奶,这5物再爱也要管住嘴

刘哥谈体育
2025-11-04 05:36:49
关于爸妈的瓜能有多炸裂?网友:这搁古代都是浸猪笼的大罪啊!

关于爸妈的瓜能有多炸裂?网友:这搁古代都是浸猪笼的大罪啊!

解读热点事件
2025-11-02 14:48:17
面相又变了!50岁赵薇近照曝光,婚礼上用心打扮,却走不了回头路

面相又变了!50岁赵薇近照曝光,婚礼上用心打扮,却走不了回头路

鑫鑫说说
2025-11-03 13:57:21
气温直逼30℃!南宁或有“回南天”,时间→

气温直逼30℃!南宁或有“回南天”,时间→

鲁中晨报
2025-11-03 21:55:05
曼城多纳鲁马愤怒推开多库!花样年华被迫隔山打牛,英超角球难防

曼城多纳鲁马愤怒推开多库!花样年华被迫隔山打牛,英超角球难防

英超德甲才疯狂
2025-11-03 06:58:46
曼联哭晕?2200万卖掉GOAT!37分钟两轰世界波+助攻,获10分满分

曼联哭晕?2200万卖掉GOAT!37分钟两轰世界波+助攻,获10分满分

我爱英超
2025-11-03 07:04:59
王紫璇李鸿其官宣结婚,携手共创艺术人生

王紫璇李鸿其官宣结婚,携手共创艺术人生

动物奇奇怪怪
2025-11-04 03:01:05
张兰与亲家母同框,祖孙三代游成都,一家团圆好幸福,孩子也开心

张兰与亲家母同框,祖孙三代游成都,一家团圆好幸福,孩子也开心

晓劗就是我
2025-11-03 08:58:58
官宣!首都医科大学校长调整

官宣!首都医科大学校长调整

医学界
2025-11-03 20:46:52
北京地铁6号线,请向东再迈一步!打通“最后10公里”,全面激活北三县发展新动能

北京地铁6号线,请向东再迈一步!打通“最后10公里”,全面激活北三县发展新动能

小鹿姐姐情感说
2025-11-03 15:45:45
年底引退的日本知名女星被电诈骗光存款,宣布撤回计划再干一年

年底引退的日本知名女星被电诈骗光存款,宣布撤回计划再干一年

温辞韫
2025-11-03 10:38:03
里子面子都丢了!时隔5月,鹿晗的最新动态,没给晓彤留一丝体面.

里子面子都丢了!时隔5月,鹿晗的最新动态,没给晓彤留一丝体面.

可乐谈情感
2025-11-04 01:28:26
林总死后,有人在他卧室找到本小册子,里面内容让毛主席悲痛不已

林总死后,有人在他卧室找到本小册子,里面内容让毛主席悲痛不已

文史达观
2025-10-03 15:40:06
太原一座“烂尾商业”,彻底没救了...

太原一座“烂尾商业”,彻底没救了...

无比
2025-11-03 20:24:10
全红婵虽然夺冠了,但恐怕回不去了!

全红婵虽然夺冠了,但恐怕回不去了!

乡野小珥
2025-11-04 03:56:24
港媒爆料赵雅芝日子挺苦的,被3个儿子长期啃老,71岁还不能老!

港媒爆料赵雅芝日子挺苦的,被3个儿子长期啃老,71岁还不能老!

木子爱娱乐大号
2025-07-05 09:37:33
41岁白百何现身东京,她的下跨变得好大啊,脸也胖了,变化真大

41岁白百何现身东京,她的下跨变得好大啊,脸也胖了,变化真大

小椰的奶奶
2025-10-28 00:50:29
金靖报复王家卫!吴签嘎了是帮墨镜导演背锅!

金靖报复王家卫!吴签嘎了是帮墨镜导演背锅!

八卦疯叔
2025-11-03 14:10:03
2025-11-04 07:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15815文章数 514262关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

朝鲜最高人民会议常任委员会前委员长金永南逝世

头条要闻

朝鲜最高人民会议常任委员会前委员长金永南逝世

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

家居
游戏
教育
亲子
时尚

家居要闻

岁月柔情 现代品质轻奢

小岛秀夫谈最喜欢的死亡搁浅2角色:可惜不能复活他

教育要闻

赶紧!高考报名今天(4号)18:00结束!

亲子要闻

接受孩子的天性,让孩子自然发展,多看电子产品没什么问题

这些才是适合普通人的穿搭!多穿基础款和半身裙,简约又得体

无障碍浏览 进入关怀版