网易首页 > 网易号 > 正文 申请入驻

港理工、浙大、阿里等机构联合推出宏观图推荐模型,助力图模型的工业落地

0
分享至

近年来,基于图神经网络(GNN)的推荐系统在CTR预估任务中备受关注,尽管其在理论上表现强大,但计算效率仍是挑战。GLSM和GMT等方法通过邻域采样技术提取数百个交互邻居,然而存在采样偏差、统一采样策略的不适用性和个性化的邻居节点数量问题。

为此,港理工联合浙大和阿里提出了更适合亿级推荐系统的宏观推荐图(MAG),减少节点数量,避免传统采样方法的局限性。他们开发了宏观图神经网络(MacGNN),在离线实验和工业A/B测试中验证了其有效性,并成功应用于阿里淘宝电商平台,为亿级用户提供了有效CTR预估,为图模型的工业落地提供了新思路。


论文题目: Macro Graph Neural Networks for Online Billion-Scale Recommender Systems 论文链接: https://arxiv.org/pdf/2401.14939.pdf 开源链接: https://github.com/YuanchenBei/MacGNN

一、简介

在当今数字化时代,亿级规模的推荐系统在电商、短视频等众多工业应用领域(例如抖音、淘宝等)扮演着至关重要的角色,其现实意义和价值不言而喻。这类亿级线上系统的精排阶段,即点击率(CTR)预估,是实现个性化推荐的关键。

CTR 预估的核心目标在于实时预测用户对特定商品、广告或视频内容等的点击意愿。在这一领域,经典算法如 DIN [1] 和 DIEN [2] 通过结合目标用户、目标商品以及用户近期的商品交互序列,实现了预测准确率与计算效率的双重保障。

为了建模更长的用户交互序列,UBR4CTR [3] 和 SIM [4] 等算法采用了检索式策略,从用户的长交互序列中筛选出最相关的商品,以此作为建模的依据。尽管取得了成功,出于对计算效率的考量,这些方法主要聚焦于利用用户的一阶交互邻居进行建模,这在一定程度上限制了模型建模的深度和广度。


▲ 图1:DIN [1] 模型计算示例

图神经网络(GNN)因其在处理具有图结构数据时的卓越表现,近年来在推荐系统中的 CTR 预估任务中受到了广泛关注。尽管 GNN 在理论上展现出了强大的交互数据建模能力,但由于计算效率的挑战,其在推荐系统的精排阶段尚未得到广泛应用。

近期,一些基于 GNN 的工作在 CTR 预估任务取得了一定的成功,如 GLSM [5] 和 GMT [6]。这些方法通过邻域采样技术从目标用户/商品的交互历史中提取出数百个一阶和二阶交互邻居,进而利用 GNN 进行用户行为的深层次建模。然而,现有基于采样的图神经网络方案在亿级推荐系统中仍具有一定的局限性:

1. 采样偏差:如图 2-(a) 展示了淘宝平台上用户-商品点击交互图(简称为“micro graph”)的邻域数量分布,可以看出:尽管用户和商品在整体上拥有一定数量的一阶和二阶邻居,但通过采样方法选取的数百个邻居仅能覆盖大约 5% 的用户邻居和 0.2% 的商品邻居。这种采样策略可能导致对用户和商品交互模式的不完整理解,从而影响推荐质量。

2. 统一采样策略的不适用性:用户和商品的邻居数量分布存在显著差异,如图 2-(a) 所示。这意味着,采用统一的采样策略来固定获取用户和商品邻居数据可能不合适。

3. 个性化的邻居节点数量:在固定采样数量的条件下,采样出的邻居数量可能无法准确反映用户和商品在采样前的真实交互情况。例如,一个只有数百次交互的用户和一个有数万次交互的用户,如果采用相同的采样数量,可能无法区分两者在交互深度和广度上的差异。

基于现有待解决的局限性,港理工联合浙大和阿里巴巴等机构提出了更适合亿级线上推荐系统的宏观推荐图(简称为“MAcro recommendation Graph”,MAG),如图 2-(b) 所示,MAG 通过将具有相似行为模式的用户和商品聚合为宏观可学习节点(“macro node”),有效地减少了节点数量,同时避免了传统采样方法可能带来的局限性。

为了在 MAG 上进行节点建模,研究团队开发了宏观图神经网络(MacGNN),该网络专门设计用于处理和建模这些宏观节点的信息。研究者同时在离线实验和工业线上 A/B 测试验证了模型的有效性,并已成功应用于阿里巴巴的淘宝电商平台,为阿里巴巴淘宝电商平台的亿级用户提供了有效的 CTR 预估落地实践,为解决图模型在工业落地的难点提供了新思路。


▲ 图2:淘宝推荐系统上 micro graph 和 macro graph 的邻居数量分布示意

二、方法

针对推荐系统中精排阶段图模型面临的挑战,研究团队首先提出了一种更适合这一场景的创新解决方案:宏观推荐图(Macro Graph, MAG)。这一方法通过将具有相似行为特征的用户和商品聚合为宏观节点,有效减少了节点数量,从而降低了计算复杂度。

为了在 MAG 上进行高效的用户和商品建模,研究者们进一步开发了宏观图神经网络(MacGNN)。MacGNN 专门设计用于处理 MAG 结构,能够对用户和商品的行为模式进行深入挖掘,并最终实现点击率(CTR)的预估。

2.1 宏观推荐图(MAG)

研究者们首先根据用户和商品的历史交互行为模式进行聚类分组(如基于 k-means 的算法等),从而形成宏观节点(Macro Node)。这些宏观节点会被分配可学习的表征向量。因此,每个用户和商品节点都会属于一个宏观节点。随后,研究者们针对每个目标用户和商品,提取其原生的高阶子图,并将其 k-hop 邻域转换为宏观邻域。

在这个过程中,研究者们根据微观邻居属于同一宏观节点的数量,计算出带权的宏观边,构建出新的交互子图。这一动态过程如图示 3 所示,以用户侧为例,商品侧的处理方式类似。通过这种方法,研究者们能够在保持图结构信息的同时,有效地减少计算量,提高推荐系统的效率并尽量保持准确性。


▲ 图3. 传统微观图(micro graph)到宏观图(macro graph)生成过程的目标用户侧示例

2.2 宏观图神经网络(MacGNN)

为了深入挖掘宏观推荐图(MAG)中的信息并有效建模目标用户和商品,研究者们进一步为 MAG 设计了一种专门的宏观图神经网络模型——MacGNN。如图 4-(a) 所示,MAG 通过聚类用户和商品的历史交互行为模式,构建了一个层次化的图结构,其中每个宏观节点代表了一组具有相似行为的用户或商品。

MacGNN 模型如图 4-(b) 所示,它利用这些宏观节点的表征、宏观边的权重以及用户的近期微观交互数据,来学习目标用户和商品的表征。这些学习到的表征随后被用于进行点击率(CTR)的预估。

这种方法的优势在于,它能够在保持图结构信息的同时,通过宏观节点的聚合和微观交互的细化,有效地平衡了计算效率和预测精度。通过这种方式,MacGNN 模型能够为推荐系统提供更加个性化和准确的推荐,提升用户体验和系统的整体性能。


▲ 图4. 宏观图(MAG)与宏观图神经网络(MacGNN)

三、实验评估

3.1 离线实验评估

研究者在三个公开数据集(表1)和亿级的阿里巴巴工业数据集(表2)均采用 CTR 预估常用的三个指标进行了离线实验,实验结果表明所提出的宏观图推荐模型能取得优于现有 CTR 预估推荐模型的表现。


▲ 表1. 在三个公开数据集的离线实验结果


▲ 表2. 在阿里巴巴亿级工业数据集的离线实验结果

3.2 效率分析

同时,为了评估 MacGNN 的计算效率,作者将其与代表性的 5 个 CTR 预估模型对比了每个目标用户-商品对的平均推理时间,如下图 4 所示。可以看出,通过结合线上部署的宏观图系统架构,MacGNN 能取得优于现有兴趣建模模型和 GNN 模型的计算效率,并且接近于特征交叉模型的计算效率。


▲ 图4. MacGNN 的推理效率分析

3.3 工业A/B测试

作者在阿里巴巴淘宝首页推荐流中部署 MacGNN 与最优表现的两个基线模型 SIM 和 GMT 进行了线上 A/B 测试。测试结果显示,MacGNN 不仅在响应时间上表现出色,而且在提升线上指标方面也取得了显著的成效。

这表明 MacGNN 在处理大规模数据集时,能够有效地进行点击率(CTR)预估,并且已经成功地在淘宝的推荐系统中实现了稳定部署,为数亿级别的用户和商品提供了精准的个性化推荐服务。


▲ 表3. MacGNN 在淘宝首页推荐的 A/B 测试结果

四、总结

本文是香港理工大学、浙江大学以及阿里巴巴集团等机构联合发表的宏观图推荐模型论文,已被国际万维网大会 WWW 2024 所接收。在这篇论文中,作者们针对当前图模型在工业推荐系统中落地应用时面临的困难和局限性,提出了一种创新的解决方案:宏观推荐图(MAG)以及与之相适配的宏观图神经网络(MacGNN)模型。

在广泛的离线实验和在线 A/B 测试中,所提出的方法均展现了有效性并落地于淘宝首页推荐系统中,助力了图模型在大规模工业场景中进行实践应用。

参考文献

[1] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 2018: 1059-1068.

[2] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 5941-5948.

[3] Qin J, Zhang W, Wu X, et al. User behavior retrieval for click-through rate prediction[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020: 2347-2356.

[4] Pi Q, Zhou G, Zhang Y, et al. Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 2685-2692.

[5] Sun H, Yu G, Zhang P, et al. Graph Based Long-Term And Short-Term Interest Model for Click-Through Rate Prediction[C]//Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2022: 1818-1826.

[6] Min E, Rong Y, Xu T, et al. Neighbour interaction based click-through rate prediction via graph-masked transformer[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 353-362.

Illustration From IconScout By Pabolo Stanley‍

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州孤男寡女爬山真相大白,同学关系,女子擦伤的地方很清白!

杭州孤男寡女爬山真相大白,同学关系,女子擦伤的地方很清白!

小怪吃美食
2024-04-27 13:56:30
布林肯:推迟制裁,给以色列时间“纠正错误”

布林肯:推迟制裁,给以色列时间“纠正错误”

参考消息
2024-04-27 21:39:45
大乐透第24047期开奖:11 19 21 26 35 - 10 11,派奖第18期!

大乐透第24047期开奖:11 19 21 26 35 - 10 11,派奖第18期!

小宇宙双色球
2024-04-27 23:06:12
媒体人:申花绝杀进球被吹本身没问题,相似情况裁判尺度不一样

媒体人:申花绝杀进球被吹本身没问题,相似情况裁判尺度不一样

直播吧
2024-04-27 22:23:33
曝拼多多公然违反苹果规定,利用灵动岛向用户推送广告,且不留痕迹

曝拼多多公然违反苹果规定,利用灵动岛向用户推送广告,且不留痕迹

西游日记
2024-04-26 11:11:48
坐拥大唐不夜城、大唐芙蓉园等“摇钱树”,A股旅游龙头深夜公告:董事长被留置!

坐拥大唐不夜城、大唐芙蓉园等“摇钱树”,A股旅游龙头深夜公告:董事长被留置!

每日经济新闻
2024-04-27 00:40:14
减持美债1644亿,吃进黄金2800吨,我们给耶伦,送上了一份惊喜

减持美债1644亿,吃进黄金2800吨,我们给耶伦,送上了一份惊喜

户外钓鱼哥阿旱
2024-04-27 21:44:36
越扒越深!干部阻拦春耕,纪云浩上边领导被挖出,曝更大的瓜

越扒越深!干部阻拦春耕,纪云浩上边领导被挖出,曝更大的瓜

180°视角
2024-04-26 15:41:15
几乎长得一模一样的几对女明星!撞脸不可怕,谁不红谁尴尬

几乎长得一模一样的几对女明星!撞脸不可怕,谁不红谁尴尬

娱乐的小灶
2024-04-26 07:50:15
周恩来逝世后谁当总理?毛主席力推一人,此人婉拒:您考虑别人吧

周恩来逝世后谁当总理?毛主席力推一人,此人婉拒:您考虑别人吧

伍伍六六
2024-04-27 03:55:29
A股:震惊大A市场,超级大利好要来了,2亿股民将一起见证历史

A股:震惊大A市场,超级大利好要来了,2亿股民将一起见证历史

彩云的夕阳
2024-04-27 12:49:45
广东三名厅官被“双开”!

广东三名厅官被“双开”!

人民资讯
2024-04-26 16:45:22
有网友看清了长久以来对人才的态度

有网友看清了长久以来对人才的态度

清晖有墨
2024-03-23 12:20:11
伊朗60多名前外交官集体发声,要求与中俄保持距离,不要敌视西方

伊朗60多名前外交官集体发声,要求与中俄保持距离,不要敌视西方

慢聊的历史
2024-04-27 12:11:56
大约在秋季,美国应会让乌以同时打响,大帝和神权向何方?

大约在秋季,美国应会让乌以同时打响,大帝和神权向何方?

邵旭峰域
2024-04-25 14:20:03
篮协重罚!停赛5场+罚款30万,这个CBA“恶汉”下手真狠

篮协重罚!停赛5场+罚款30万,这个CBA“恶汉”下手真狠

刺头体育
2024-04-27 17:49:31
尘埃落定!马宁本轮吹罚国安点球犯规是不是误判,终于有权威结论

尘埃落定!马宁本轮吹罚国安点球犯规是不是误判,终于有权威结论

罗掌柜体育
2024-04-27 18:48:24
你碰到过哪些在某方面天赋极高的人?网友:那个小孩惊呆了众人

你碰到过哪些在某方面天赋极高的人?网友:那个小孩惊呆了众人

小鬼头体育
2024-03-31 23:48:52
“工业母机”5朵金花,喜迎“王炸”利好,或将走出翻倍行情?

“工业母机”5朵金花,喜迎“王炸”利好,或将走出翻倍行情?

农村阿祖
2024-04-27 16:48:59
范伟62岁再夺影帝,凭借电影《朝云暮雨》斩获北影节天坛奖影帝

范伟62岁再夺影帝,凭借电影《朝云暮雨》斩获北影节天坛奖影帝

娱乐寡姐
2024-04-26 22:44:47
2024-04-28 03:20:49
将门创投
将门创投
加速及投资技术驱动型初创企业
1756文章数 582关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

体育要闻

ESPN记者:利拉德遭遇跟腱拉伤 在今日球队录像课后已穿上保护靴

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

游戏
亲子
教育
公开课
军事航空

《剑星》引发众怒了!大量玩家退订PS+会员以示不满

亲子要闻

喜欢黏着哥哥的妹妹,睡醒了也要跑到哥哥被窝里睡个回笼觉

教育要闻

高三女生扶起摔倒大妈却被反咬一口,拿出监控作证后,大妈破防了

公开课

睡前进食会让你发胖吗?

军事要闻

军事专家:福建舰距离海试为期不远

无障碍浏览 进入关怀版