网易首页 > 网易号 > 正文 申请入驻

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

0
分享至

作者|李梅

编辑|陈彩娴

近日,备受关注的第十九届机器学习国际会议(ICML 2022)在美国马里兰州巴尔的摩市举办。自新冠疫情以来,大会首次恢复线下形式,采取线上线下结合的方式举办。

1

ICML2022概况

本届大会共收到5630 篇投稿,其中,1117 篇被接收为short oral,118篇被接收为long oral。接收率为21.94%,与以往几年基本持平。前几日,本届大会的全部奖项公布,共评选出15 篇杰出论文奖和 1 项时间检验奖。其中,复旦大学、上海交通大学、厦门大学、莱斯大学等多个华人团队的工作被评位杰出论文奖。ICML 2012 的一篇论文《Poisoning Attacks against Support Vector Machines》获得了时间检验奖。

获奖论文信息详见:https://icml.cc/virtual/2022/awards_detail

今年的杰出论文奖不同寻常,评选数量多达 15 篇。而同样是 21% 左右的接受率,前年只评选出2篇杰出论文,去年则仅有1篇。

本文我们来关注一下今年获奖的一篇优秀工作。AI 科技评论此次采访到获得杰出论文奖的莱斯大学胡侠团队,为我们解读他们的研究工作。该团队的获奖论文题目为:《G-Mixup: Graph Data Augmentation for Graph Classification》。作者:Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu。

论文地址:https://arxiv.org/pdf/2202.07179.pdf

在这项研究中,作者提出了一种新的图数据增强方法:G-Mixup,实验表明,G-Mixup 能够提高图神经网络的泛化性和鲁棒性。

胡侠,现任美国莱斯大学终身副教授,数据科学中心主任,AIPOW联合创始人兼首席科学家。其主导开发的开源系统AutoKeras成为最常用的自动机器学习框架之一(超过8000次star及1000次fork),开发的NCF算法及系统(单篇论文他引3000余次)成为主流人工智能框架TensorFlow的官方推荐系统,主导开发的异常检测系统在通用、Trane、苹果等公司的产品中得到广泛应用,研究工作多次获得最佳论文(提名)奖。

2

获奖工作G-Mixup介绍

研究背景

图数据在我们的现实生活中无处不在,我们可以使用图来建模和描述各种复杂网络系统。而为了将图数据应用于具体任务,我们首先需要对图数据进行表征。近年来,通过深度学习技术对图数据进行表示学习的图神经网络(GNNs),在节点分类任务上取得了最优性能,因而已被广泛用于图形分析。同时,数据增强(data augmentation)和 Subgraph(子图)也被用于图分析,它们通过生成合成图来创建更多训练数据,以提高图分类模型的泛化性能。

当前流行的数据增强方法 Mixup 通过在两个随机样本之间插入特征和标签,在提高神经网络的泛化性和鲁棒性方面显示出优越性。但是,Mixup 更适用于处理图像数据或表格数据,直接将其用于图数据并非易事,因为不同的图通常:(1)有不同数量的节点;(2)不容易对齐;(3)在非欧几里得空间中的类型学具有特殊性。

为此,提出了一种 class-level 的图数据增强方法:G-Mixup。具体来说,首先使用同一类中的图来估计一个 graphon。然后,在欧几里得空间中对不同类的 graphons 进行插值,得到混合的 graphons,合成图便是通过基于混合 graphons 的采样生成的。经实验评估,G-Mixup 显着提高了图神经网络的泛化性和鲁棒性。

G-Mixup的实现方法

G-Mixup。G-Mixup 是一种通过图形插值的class-level数据增强方法。具体来说,G-Mixup 对不同的图生成器(graphon)进行线性插值以获得新的混合的生成器。然后,基于混合的新的生成器对合成图进行采样得到新的图数据以进行数据增强。改论文从理论上证明从该生成器中采样的图部分具有原始图的属性。

如图1所示,G-Mixup包括三个关键步骤:(1)为每一类图估计一个graphon,(2)混合不同图类的graphons,以及(3)基于混合的graphons采样生成合成图。

Graphon 估计和 Mixup。作者使用矩阵形式的阶进函数作为graphon来混合和生成合成图。对阶跃函数估计方法,作者首先根据节点测量值将节点对齐在一组图中,然后从所有对齐的邻接矩阵中估计阶跃函数。

合成图的生成。一个 graphon W 提供一个分布来生成任意大小的图。

G-Mixup 的性能评估

那么,G-Mixup 在真实世界的图数据上表现如何?作者团队对 G-Mixup 的性能进行了评估。

一个数据集中不同类别的图的 graphons 显著不同。图 2 表明现实世界中不同类别的图有完全不同的graphons,这为通过融合 graphon 来生成混合的图奠定了基础。

G-Mixup 合成的图是原始图的混合。作者团队将在 REDDIT-BINARY 数据集上生成的合成图进行可视化,如图 3,混合 graphon(0.5∗W0+0.5∗W1) 能够生成包含高度节点和密集子图的图,这可看作是包含 1 个高度节点和包含 2 个高度节点的图的混合图。这验证了 G-Mixup 更倾向于保留来自原始图的区别性图案,其合成图确实是原始图的混合。

图3:在 REDDIT-BINARY 数据集上生成的合成图的可视化。

G-Mixup 可以提高 GNN 在各种数据集上的性能。作者比较了使用 G-Mixup 的各种GNN主干网络在不同数据集上的性能。实验结果表明,G-Mixup可以提高图神经网络在各种数据集上的性能。

G -Mixup 可以提高 GNN 的鲁棒性。作者对 G-Mixup 的两种鲁棒性(标签腐蚀的鲁棒性和拓扑腐蚀的鲁棒性)进行研究,发现 G-Mixup 能够提高 GNN 的鲁棒性。

结论

这项工作提出了一种名为 G-Mixup 的新型图增强方法。与图像数据不同,图数据是不规则的、未对齐的且处于非欧几里得空间中,因此很难进行混合。然而,同一类别中的图具有相同的生成器(即graphon),它是规则的、良好对齐的且处于欧几里得空间中。因此,作者转而对不同类别的 graphons进行混合来生成合成图。综合实验表明,使用 G-Mixup 训练的 GNN 获得了更好的性能和泛化能力,并提高了模型对噪声标签和被损坏拓扑的鲁棒性。

3

AI 科技评论对话G-Mixup作者团队

AI 科技评论:祝贺你们的研究获得ICML 2022杰出论文奖。首先,能否概括一下你们这项工作的主要贡献?

作者团队:我们提出了 G-Mixup 来增强用于图分类的训练图。由于直接混合图是难以处理的,因此 G-Mixup 将不同类别的图的图元混合以生成合成图。其次,我们理论上证明合成图将是原始图的混合,其中源图的关键拓扑(即判别主题)将被混合。最后,我们证明了所提出的 G-Mixup 在各种图神经网络和数据集上的有效性。大量的实验结果表明,G-Mixup 能够增强图神经网络的泛化性和鲁棒性。

AI 科技评论:当时论文收到的审稿意见是怎样的?

作者团队:审稿意见总体比较positive,不过当时审稿人对我们做数据增强的意义有一点疑问,我们对此作了详细的解释,比如就训练而言,有时训练数据集特别少,我们就可以用数据增强来获取更多的数据。审稿人在最后的意见中也表明认识到了数据增强的重要意义。

AI 科技评论:与以往的Mixup方法相比,G-Mixup的不同之处在什么地方?

作者团队:Mixup 技术主要应用在图像上,已经比较成熟,它是将训练数据中的两个数据集线性地加起来,得到一个新的训练数据,从而完成数据扩增。但它在图数据上还没有一个很好的解决方案。而我们的G-Mixup 是一个简单且有效的方法,它是对不同类别的图生成器进行混合来生成合成图。

AI科技评论:与图像数据和表格数据相比,对图数据做mixup的难点在什么地方?

作者团队:目前针对图的mixup的研究比较少,因为图数据比较难处理,它不容易表示,而且两个图的节点数量、无结构信息是不一样的,所以很难将其融合到一起。图像数据和表格数据可以表示成连续的向量或矩阵的形式,所以很容易做融合,但图数据无法表示成这种形式。

AI科技评论:为什么说G-Mixup 是一种Class-level的图数据增强方法?

作者团队:我们是用两个类来生成一个新的类,我们用多张图来估计图的生成规则也就是图的生成器,然后对每一类图来估计一个生成器,这样来生成一个新的类别。以往针对图像的mixup是用两张图片来做,属于instance-level,但针对图的处理方法与此不同。

AI科技评论:有哪些途径可以提高图神经网络的泛化性?

作者团队:比如设计新的网络结构,做数据增强,以及训练技巧方面的一些工作,都可以提高泛化性,我们这项工作展示的是其中一种方法。

AI科技评论:针对这项工作所研究的问题,有什么下一步的研究计划?

作者团队:我们这项工作提出的方法主要是用于图分类任务,以后我们可以进一步考虑在节点分类任务上做融合,节点分类也是图神经网络方面的一个重要任务。

AI科技评论:这次获得杰出论文奖,有没有什么经验、体会可以分享?

作者团队:首先文章的写作质量要好,要将研究清楚地表述出来;研究的 idea 要十分合理;以及,研究问题本身要有意义和价值。

AI科技评论:这项研究的成果对相关领域有怎样的影响?有哪些实际应用的价值?

作者团队:由于图数据的本身特性,使得mixup这个在其他数据上很有效的方法不能直接适用在图数据上,我们提出的g-mixup使用了图生成器去融合图数据,实现了class-level的图数据mixup, 希望能对图数据的mixup能有一定的启发作用。希望提出的方法能够在图生成,新药物发现方向能有一定的启发。

更多内容,点击下方关注:

扫码添加 AI 科技评论 微信号,投稿&进群:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法网第2比赛日赛程公布:郑钦文17点迎首秀,吴易昺郭涵煜登场

法网第2比赛日赛程公布:郑钦文17点迎首秀,吴易昺郭涵煜登场

全景体育V
2026-05-24 19:59:15
从35万跌到18.9万,英菲尼迪QX50成了今年车市最惨烈的价格屠夫

从35万跌到18.9万,英菲尼迪QX50成了今年车市最惨烈的价格屠夫

华庭讲美食
2026-05-23 14:25:59
王宝强女儿近照曝光,当年被嘲“最丑星二代”,如今竟长成了这样

王宝强女儿近照曝光,当年被嘲“最丑星二代”,如今竟长成了这样

木子娱你同行
2026-05-24 10:00:50
高晓松母亲结束23年旅美生活,计划回北京养老,网友吵翻了

高晓松母亲结束23年旅美生活,计划回北京养老,网友吵翻了

眼底星碎
2026-05-22 23:21:01
《主角》编剧曝原定王晓晨饰演花彩香!孙浩强推秦海璐理由超搞笑

《主角》编剧曝原定王晓晨饰演花彩香!孙浩强推秦海璐理由超搞笑

可乐谈情感
2026-05-24 20:38:44
上海交大女生私吞奖金后续:处分落地4个头衔被撤,本人主动退校

上海交大女生私吞奖金后续:处分落地4个头衔被撤,本人主动退校

白浅娱乐聊
2026-05-24 21:35:21
哪个瞬间你突然觉得读书很有用?网友的一树梨花压海棠让人破防了

哪个瞬间你突然觉得读书很有用?网友的一树梨花压海棠让人破防了

夜深爱杂谈
2026-05-22 20:48:07
中国疾控中心发布埃博拉病毒病防控提示

中国疾控中心发布埃博拉病毒病防控提示

新京报
2026-05-24 09:32:43
特斯拉FSD入华!月费783元,老车主只能喝汤!

特斯拉FSD入华!月费783元,老车主只能喝汤!

趣味萌宠的日常
2026-05-23 11:46:45
河南一临产孕妇哭诉丈夫经同学介绍赴泰后失联,疑被卖至妙瓦底,“不想孩子一辈子都看不到他爸爸 ”;警方已立案并刑拘3名嫌疑人

河南一临产孕妇哭诉丈夫经同学介绍赴泰后失联,疑被卖至妙瓦底,“不想孩子一辈子都看不到他爸爸 ”;警方已立案并刑拘3名嫌疑人

大风新闻
2026-05-24 12:10:06
上海申花1-2深圳新鹏城,赛后评分出炉:深圳新鹏城11号排第一

上海申花1-2深圳新鹏城,赛后评分出炉:深圳新鹏城11号排第一

俯身冲顶
2026-05-24 21:58:19
武契奇刚抵达中国,塞尔维亚爆发数万人抗议,有人不愿看到他访华

武契奇刚抵达中国,塞尔维亚爆发数万人抗议,有人不愿看到他访华

阿裤趣闻君
2026-05-24 21:26:05
上海楼市开始离谱了!浦东新区三林板块房价从14.5万变成8.9万

上海楼市开始离谱了!浦东新区三林板块房价从14.5万变成8.9万

美食格物
2026-05-22 14:55:10
8年友谊一夜打脸?王鹤棣深夜破防、沈月长文道歉:再好的关系,也扛不住没分寸的玩笑

8年友谊一夜打脸?王鹤棣深夜破防、沈月长文道歉:再好的关系,也扛不住没分寸的玩笑

东方不败然多多
2026-05-24 10:50:49
英超官方:阿森纳客战水晶宫后捧杯领奖,下赛季佩戴冠军金标

英超官方:阿森纳客战水晶宫后捧杯领奖,下赛季佩戴冠军金标

懂球帝
2026-05-24 20:18:40
俄军确认使用“榛树”导弹对乌发动大规模打击

俄军确认使用“榛树”导弹对乌发动大规模打击

澎湃新闻
2026-05-24 17:41:04
沪上水果摊老板免费送杨梅!一上午送出5000斤:烂树上可惜,都有检测证书

沪上水果摊老板免费送杨梅!一上午送出5000斤:烂树上可惜,都有检测证书

上观新闻
2026-05-24 17:21:17
张侨伟成黑马!参院换帅大势已定,参议长如下台,老杜家族不算输

张侨伟成黑马!参院换帅大势已定,参议长如下台,老杜家族不算输

开着车去流浪
2026-05-23 22:18:32
2026年5月18日起,耕地建房全面作废,农村房产迎来大变天

2026年5月18日起,耕地建房全面作废,农村房产迎来大变天

闻香阁
2026-05-24 19:05:57
心理学有个残忍真相:子女长大后不心疼你,从来不是他不懂感恩,也不是他薄情寡义,而是你早年这两种“隐形伤害”,亲手关闭他心疼人开关

心理学有个残忍真相:子女长大后不心疼你,从来不是他不懂感恩,也不是他薄情寡义,而是你早年这两种“隐形伤害”,亲手关闭他心疼人开关

心理观察局
2026-05-07 10:05:05
2026-05-24 23:08:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7298文章数 20753关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

手机
教育
本地
亲子
房产

手机要闻

三星机身框架新技术曝光,Galaxy S26 FE现身

教育要闻

教育部:跨境远程文凭证书不在认证范围内

本地新闻

用云锦的方式,打开江苏南京

亲子要闻

机智的小砾和路马营救莱德 #汪汪队 #大型挖掘机挖土玩具

房产要闻

疯狂周末,海口楼市突然爆了!

无障碍浏览 进入关怀版