网易首页 > 网易号 > 正文 申请入驻

CIKM 2021 | 蚂蚁集团提出CD-GNN:一种跨领域的图神经网络模型

0
分享至

近日,蚂 蚁集团提出了CD-GNN,通过图神经网络基于关系数据为目标和源领域搭建和对齐统一的特征空间,并通过领域无关层迁移源领域信息帮助目标领域的图神经网络学习。

该工作的相关论文《Learning Representations of Inactive Users: A Cross Domain Approach with Graph Neural Networks》已被CIKM 2021短文录用。目前,CD-GNN已作为解决方案服务于支付宝低活跃用户/新用户的运营和推荐等场景。

题目: CD-GNN: 一种跨领域的图神经网络模型 会议:CIKM 2021 论文链接: https://dl.acm.org/doi/abs/10.1145/3459637.3482131

近期,蚂蚁集团公开了一个全新的基于图神经网络的跨领域学习方法,用于解决由于低活跃用户/新用户缺乏特征和标签导致其偏好理解难的问题。该工作将低活跃用户偏好理解问题形式化为一个跨领域学习问题,通过引入源领域中高活用户的信息帮助低活跃用户的学习。

对于源领域和目标领域用户无交集且目标领域缺乏特征、标签的问题,传统跨领域方法并不适用。CD-GNN通过图神经网络以关系数据(社交网络)为桥梁,为源领域和目标领域的用户构建可迁移的特征空间,并基于此通过跨领域方法迁移源领域的知识。

一、背景

理解用户的偏好在推荐场景尤为重要。然而在真实的工业场景(如支付宝APP)中,往往会针对一些特定的人群,如低活跃用户、新用户等,专门推荐特殊的券、权益、服务等,希望以此来提高其在特点产品中的活跃程度。但是直接使用这种低活跃场景的数据做建模是困难的,原因是这种场景往往标签少,且低活跃用户的特征稀少。

为了解决这种数据稀疏问题,一个常用的方法是迁移学习或多任务学习。即寻找一个数据充分的源领域场景,把该领域的知识迁移到目标领域,以解决目标领域缺少数据的问题。近年来,基于深度学习的跨领域迁移学习方法得到了广泛使用,比如基于实例的方法、映射的方法、基于网络的方法、基于对抗的方法等等。自然地,为了帮助某个目标领域的人群学的更好,通常可以加入拥有更大量级的用户在支付宝全域行为数据作为源领域,辅助目标领域的学习,通过上述迁移或多目标任务的方式。

然而,已有方法只关注如何将源领域的知识迁移应用到目标领域,而忽略了在迁移之前,源、目标领域是否具备一个合理的表征空间,使得任务可以迁移。以低活跃用户/新用户为例,这些用户自身特征几乎没有。简单的迁移无法将源丰富的信息对齐到他们身上。

为此,蚂蚁集团的研究人员提出一种结合图神经网络来做表征的迁移方法,该方法可以为低活跃用户/新用户学到更好的表征并应用于推荐中。思路很简单,分为两步

1. 对于无论是源领域用户还是目标领域用户,分析关系数据,探索什么关系对于用户自身的行为具有强相关性。找到强相关的关系数据,就可以通过去除自身的关系数据来表征自身。这样,模型就可以将无论是源领域还是目标领域的用户表征放在同一个表征空间下。

2. 通过经典迁移方法将源领域的信息迁移到目标领域,从而帮助目标领域学的更好。

基于此,蚂蚁集团的研究人员提出了一种结合GNN表征学习能力的跨领域联合建模方案CD-GNN(Cross Domain-Graph Neural Networks),解决源领域和目标领域通过网络关联的情况下进行跨领域建模的问题。接下来,本文将介绍该方法的实现细节,及其在低活跃用户上的应用。

二、CD-GNN: 跨领域图神经网络

CD-GNN的整体结构如下图所示。可以看到,模型包括源领域目标领域两个部分,这两个部分结构类似,中间是公共的领域无关层和领域判别器。首先,源领域和目标领域原始特征包括用户的关系网络和item信息,关系网络输入GNN层后,得到用户的特征表示。这样,GNN层根据网络结构信息,将两个领域用户的特征对齐到一个相同的特征空间中。其次,源领域和目标领域用户的特征分布是不同的,本文提出要学习一个映射,根据GNN学到的特征表示得到领域无关的特征,希望这个领域无关特征,一方面对两个领域的学习任务有帮助,同时对领域的差异不敏感。下文将具体介绍图神经网络层和领域无关层的结构。

GNN层

源领域用户集合为 ,目标领域用户的集合为 。所有用户的集合为 。用户的网络结构可以表示为 。这样,图可以表示为 。借助GNN的能力来学习用户的特征表达,设特征矩阵为 ,其中 表示节点数量, 表示特征维度。设用户 的特征为 ,GNN的聚合过程可以表示为:

其中, 是GNN的参数, 为embedding维度, 是一个非线性激活函数。那么该GNN层可以表示为 。

领域无关层

需要注意的是,源领域和目标领域用户的特征分布可能是有显著差异的。如果不能从GNN特征中提取出领域无关的特征,我们很难把源领域学到的知识应用到目标领域用户上。为此,本文使用了一个迁移学习中经典的领域无关层(domain invariant layer)来解决这个问题[1]。

领域无关层可以表示成一个映射 ,输入是用户 的特征表达,输出是该用户的领域无关特征 。为了学习这个映射,需要从两个方向优化,首先,领域无关特征需要有领域不变性。其次,这些特征应当对源领域和目标领域的学习任务是有区分力的。我们在下面loss的定义中说明如何得到领域无关特征。

优化目标

最终的损失函数包括三个部分:

1. 源领域的分类损失

其中, 是 的embedding, 是一个MLP的layer,用于对源领域的分类任务,输入是用户的领域无关特征和 的embedding。分类器的输出用于计算交叉熵的损失 。

2. 目标领域的分类损失

其中, 是 item 的embedding, 是一个MLP的layer,用于对目标领域的分类任务。分类器的输出用于计算交叉熵的损失 。

3. 领域判别器的损失

分类器 的作用是判断样本来自哪个领域,即源领域对应的label为0,目标领域的label为1。

最终的损失函数为:

这里 用于控制领域无关损失的强度。

三、CD-GNN在低活跃用户

推荐上的应用

活跃用户推荐场景,即需要为低活跃用户提供合适的推荐内容,促进用户的活跃度。这里面临两个挑战

1. 低活跃用户的行为信息稀疏,同时缺少画像特征,难以刻画其兴趣偏好;

2. 低活跃用户的点击数据很少,只利用该场景的数据建模,存在严重的行为特征或标签数据稀疏问题。

那么,能否借助其他信息,来对这部分用户的推荐提供帮助呢?

首先,本文发现,很多低活跃用户可以通过社交网络与其好友连接起来,从而进行信息的传播和汇聚。数据分析表明,用户的行为偏好与其朋友的行为偏好是相关的,即好友网络中相邻的用户,倾向于拥有相似的行为特征。本文在支付宝的数据上做了以下的数据分析。

首先,从活跃用户当中随机采样了5000个用户。对每个用户,计算他的行为和其他用户行为的皮尔逊相关系数。下图中,蓝点表示用户行为与其社交好友行为的相关系数,红点表示用户行为与一个随机选取的用户的行为相关系数。可以看到用户与其社交好友的行为是高度相关的。

因此,本文借助关系网络,利用社交好友的行为来学习对应目标用户的表达。这样就解决了低活跃用户特征缺失和特征空间对齐的问题。

对于第二个挑战,可以借助迁移学习的思路来解决。这里需要寻找一个信息丰富的源领域,同时与低活跃用户的推荐具有相关性。以支付宝场景为例,支付宝的活跃用户有着丰富的行为。可以使用活跃用户的行为信息作为源领域,低活跃用户的推荐问题作为目标领域,应用跨领域的方法进行建模。得到最终的模型后即可应用于面向低活跃用户的推荐场景上。

这个跨领域的方法可以利用CD-GNN模型。具体来说,对于源领域,预测活跃用户对应用的点击。对于目标领域,预测低活跃用户对item的点击。本文利用的图结构为用户-用户的社交网及用户-应用的偏好网络。整个学习任务可以表示成下面图中的形式。

四、实验效果

本文在支付宝某低活用户推荐场景的数据集上对CD-GNN和其他方法进行了评测,结果如下。

几个baseline方法包括:

1.Matrix Factorization (MF):基于目标领域用户对item的点击行为的统计模型。

2.Multiple Perceptron Layers (MLP):利用目标领域用户item的点击行为以及用户profile特征。

3.DATNN:在MLP基础上增加领域无关层,利用源领域和目标领域的迁移学习模型。

4.Graph Convolutional Network (GCN)在MLP基础上增加GCN层,利用用户社交网络和偏好网络数据对目标领域建模。

此外,本文在该真实场景进行了线上A/B实验,CD-GNN的模型相比单独的GNN,点击率有明显的提升。在活跃度特别低的用户上,其效果增益更为明显:

并非所有目标域的用户都有高质量的关系。这制约了本方法的上限。在这里,本文分析了随着目标用户(低活跃用户)的高活跃好友数量增多,目标用户的效果:

该图显示,随着高活跃邻居的增多,即关系数据信息增量越大,目标用户的效果的趋势是会更好。这意味着,如何给定任务找到一个合适的关系数据对我们的方法具有很重要的影响。

五、总结

蚂蚁集团提出的CD-GNN通过图神经网络基于关系数据为目标和源领域搭建和对齐统一的特征空间,并通过领域无关层迁移源领域信息帮助目标领域的图神经网络学习。对已有跨领域方法无法解决源和目标领域用户不成交且目标领域缺少特征、标签的问题,该方法可以被看做是已有跨领域学习方法的强有力的补充。

参考文献

[1] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, Franc ̧ois Laviolette, Mario Marchand, and Victor Lempitsky. Domain-adversarial training of neural networks. In Domain Adaptation in Computer Vision Applications, pages 189–209. Springer, 2017.


本文来自:公众号【北邮GAMMA Lab】 作者:刘子奇

Illustrastion by Aleksandr Smetanov from Icons8

-The End-

扫码观看!

本周上新!

高质量活动太密集?我们帮你梳理!

近期活动

12.02(周四)

12.07(周二)

12.08(周三)

12.09(周四)

12.12(周日)

12.16(周四)

MMAI系列Talk④莫纳什在读博士戈宗元

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电脑涨疯了,连卖电脑的都劝你别买

电脑涨疯了,连卖电脑的都劝你别买

辉哥说动漫
2026-07-05 20:37:44
一夜3次!四川绵竹连续发生地震,暗藏什么?地磁场曾24小时异常

一夜3次!四川绵竹连续发生地震,暗藏什么?地磁场曾24小时异常

八戒说科学
2026-07-06 01:36:35
“台独记者”范琪斐,狂黑大陆几十年,亲赴大陆后下场大快人心

“台独记者”范琪斐,狂黑大陆几十年,亲赴大陆后下场大快人心

阿郎娱乐
2026-07-04 06:22:27
1995年看露天电影时,邻家嫂子偷偷摸了一下我的手,示意我跟她走

1995年看露天电影时,邻家嫂子偷偷摸了一下我的手,示意我跟她走

千秋文化
2026-07-02 19:32:08
前挪威国脚:我认为挪威有概率击败巴西,因为球队比98年更强了

前挪威国脚:我认为挪威有概率击败巴西,因为球队比98年更强了

懂球帝
2026-07-06 02:35:09
7闺蜜众筹70万开咖啡馆  4个月后从“七仙女”变成“战国七雄”

7闺蜜众筹70万开咖啡馆 4个月后从“七仙女”变成“战国七雄”

尘埃里的看客
2026-06-28 10:42:41
美媒评10大最被低估签约!火箭续签伊森在列 76人太阳均两度上榜

美媒评10大最被低估签约!火箭续签伊森在列 76人太阳均两度上榜

罗说NBA
2026-07-05 21:43:42
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
歌手2026第七期帮唱嘉宾出炉,阵容离谱!网友:请不到人就别办

歌手2026第七期帮唱嘉宾出炉,阵容离谱!网友:请不到人就别办

星宿影视鸭
2026-07-03 14:29:23
一家3代短命!蔡磊处境曝光,斥资续命收效甚微,儿子也成牺牲品

一家3代短命!蔡磊处境曝光,斥资续命收效甚微,儿子也成牺牲品

周哥一影视
2026-07-04 20:40:16
1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

阿胡
2024-07-31 11:50:32
4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

白宸侃片
2026-07-05 00:26:23
西安严鹏追悼仪式曝光:现场全是花圈,外地网友送千束菊花

西安严鹏追悼仪式曝光:现场全是花圈,外地网友送千束菊花

娱乐圈圈圆
2026-07-05 13:27:55
“先把车费结了再哭”,一句话让1548万人破防

“先把车费结了再哭”,一句话让1548万人破防

阿振观点
2026-07-06 03:18:30
巴蒂:劳塔罗、小蜘蛛都是世界级前锋,很难在其中选择一人

巴蒂:劳塔罗、小蜘蛛都是世界级前锋,很难在其中选择一人

天光破云来
2026-07-05 17:13:10
美股指期货开盘上涨,标普500指数期货开盘涨0.4%

美股指期货开盘上涨,标普500指数期货开盘涨0.4%

每日经济新闻
2026-07-06 06:09:05
喜事将近?霍家正式官宣!让香港四大家族刮目相看,郭晶晶说对了

喜事将近?霍家正式官宣!让香港四大家族刮目相看,郭晶晶说对了

天天热点见闻
2026-07-05 08:55:05
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
中吉乌铁路加紧建设,线路图铺开一看,哈萨克斯坦被绕得干干净净

中吉乌铁路加紧建设,线路图铺开一看,哈萨克斯坦被绕得干干净净

雅儿姐在遛弯
2026-05-16 16:17:07
把意大利踢出局,2-1淘汰巴西!这支北欧弱旅,正在颠覆世界杯

把意大利踢出局,2-1淘汰巴西!这支北欧弱旅,正在颠覆世界杯

萌兰聊个球
2026-07-06 06:52:02
2026-07-06 07:40:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2423文章数 596关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

男子为救3岁儿童变成植物人 妻子咬丈夫脚趾将其唤醒

头条要闻

男子为救3岁儿童变成植物人 妻子咬丈夫脚趾将其唤醒

体育要闻

哈兰德绝杀巴西:效率恶魔,吃人不眨眼

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
教育
房产
艺术
时尚

手机要闻

澎湃OS 4:最快下月登场!修复新进展:也已出炉!

教育要闻

当“问题学生”成为一种标签

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

3年赚46亿,杨幂喊出一个安徽富豪

无障碍浏览 进入关怀版