网易首页 > 网易号 > 正文 申请入驻

扩散模型也能推荐短视频!港大腾讯提出新范式DiffMM

0
分享至

DiffMM团队 投稿
量子位 | 公众号 QbitAI

想象一下你在刷短视频,系统想要推荐你可能会喜欢的内容。

但是,如果系统只知道你过去看过什么,而不了解你喜欢视频的哪些方面(比如是画面、文字描述还是背景音乐),那么推荐可能就不会那么精准

对此,来自港大和腾讯的研究人员推出了全新多模态推荐系统范式——DiffMM。

简单来说,DiffMM创建了一个包含用户和视频信息的图,这个图会考虑视频的各种元素。

然后它通过一种特殊的方法(图扩散)来增强这个图,让模型更好地理解用户和视频之间的关系。

最后,它使用一种叫做对比学习的技术,来确保不同元素(比如视觉和声音)之间的一致性,这样推荐系统就能更好地理解用户的喜好。

为了测试效果,团队在三个公共数据集上进行了大量实验,结果证明DiffMM相比于各种竞争性基线模型均达到SOTA

目前相关论文已公开,代码也已开源。

模型方法

DiffMM的总体框架图如下所示,主要包含三个部分:

  1. 多模态图扩散模型,通过生成扩散模型实现多模态信息引导的模态感知用户-物品图生成;
  2. 多模态图聚合,通过在生成的模态感知用户-物品图上进行图卷积操作以实现多模态信息聚合;
  3. 跨模态对比增强,通过对比学习的方式来利用不同模态下用户-物品交互模式的一致性,进一步增强模型的性能。

多模态图扩散

受到扩散模型在保留其生成输出中的基本数据模式方面的成功的启发,DiffMM框架提出了一种新颖的多模态推荐系统方法

具体而言,作者引入了一个多模态图扩散模块,用于生成包含模态信息的用户-物品交互图,从而增强对用户偏好的建模。

该框架专注于解决多模态推荐系统中无关或噪声模态特征的负面影响

为实现这一目标,作者使用模态感知去噪扩散概率模型将用户-物品协同信号与多模态信息统一起来。

具体而言,作者逐步破坏原始用户-物品图中的交互,并通过概率扩散过程进行迭代学习来恢复原始交互。

这种迭代去噪训练有效地将模态信息纳入用户-物品交互图的生成中,同时减轻了噪声模态特征的负面影响。

此外,为实现模态感知的图生成,作者提出了一种新颖的模态感知信号注入机制,用于指导交互恢复过程。这个机制在有效地将多模态信息纳入用户-物品交互图的生成中起到了关键作用

通过利用扩散模型的能力和模态感知信号注入机制,DiffMM框架为增强多模态推荐器提供了一个强大而有效的解决方案。

图概率扩散范式

在用户-物品交互上进行图扩散包含两个关键工程

第一个过程称为前向过程,它通过逐步引入高斯噪声来破坏原始的用户-物品图。这一步骤逐渐破坏了用户和物品之间的交互,模拟了噪声模态特征的负面影响。

第二个过程称为逆向过程,它专注于学习和去噪受损的图连接结构。这个过程旨在通过逐步改进受损的图来恢复用户和物品之间的原始交互。

对于前向图扩散过程,考虑用户和物品集合中每个物品的交互,定义为 =[

],这里

等于0或1表示用户是否和物品有发生交互。首先将扩散过程进行初始化: 0= ,这个前向过程之后在步中逐渐添加高斯噪声,以马尔可夫链的形式构建1:。

具体而言,从t-1到t的过程参数化为:

当→∞时,状态逐渐趋向于一个标准的高斯分布。作者使用重参数技巧以及独立高斯噪声可相加的性质,直接从0得到t:

对于逆向图扩散过程,DiffMM旨在消除从t引入的噪声,逐步恢复t-1。这个过程使得多模态扩散能够有效地捕捉复杂的生成过程中的微小变化。从开始,去噪过程逐步恢复用户-物品交互,逆向过程展开如下:

作者使用参数为的神经网络来生成一个高斯分布的均值(t,t)和协方差 (t,t)。

模态感知的图扩散优化

扩散模型的优化目标是引导逆向图扩散过程。为了实现这一目标,应优化0的负对数似然的Evidence Lower Bound (ELBO):

对于t,有三种情况

这里,0是0的负重建误差;是一个在优化中可以忽略的常量项,因为它不包含可优化的参数;(t∊{1,2,…,T-1})旨在通过KL离散度使分布(t-1|t)和可计算的分布q(t-1|t,0)对齐。

为了实现图扩散的优化,作者设计了一个神经网络,以在反向过程中进行去噪处理。根据贝叶斯法则,q(t-1|t,0)可被表示为如下近似表达:

更进一步,t可以表示为:

这里,

(t,t)是基于t和时间t预测的0,作者使用神经网络来实现它。具体而言,作者使用一个多层感知器(MLP)来实现

,该MLP以t和时间t的嵌入表示作为输入来预测0。对于0,可以被表示为:

在实际实现中,作者从 {1,2,…,} 中均匀采样来得到时间步t:

多模态图扩散的目标是通过模态感知的用户-物品图来增强推荐系统

为此,作者设计了一种模态感知信号注入(MSI)机制,引导扩散模块生成带有相应模态的多个用户-物品图。

具体而言,作者将对齐的物品模态特征与预测的模态感知用户-物品交互概率进行聚合

同时,作者还将物品id嵌入与观察到的用户-物品交互0进行聚合。

最后,计算上述两个聚合嵌入之间的均方误差损失,并与ebo一起进行优化。形式化地,模态的均方误差损失如下所示:

跨模态对比增强

在多模态推荐场景中,不同物品模态(例如:视觉、文本和音频)上的用户交互模式存在一定程度的一致性

例如,在短视频的情况下,其视觉和音频特征可以共同吸引用户观看。

因此,用户的视觉偏好和音频偏好可能以复杂的方式交织在一起。为了捕捉和利用这种模态相关的一致性来提高推荐系统的性能,作者设计了两种基于不同锚点的模态感知对比学习范式。

一种范式以不同的模态视图作为锚点,另一种范式则以主视图(协同过滤)作为锚点。

模态感知的对比视图

为了生成特定模态的用户/物品嵌入表示作为对比视图,作者使用了基于GNN的表示学习方法

具体而言,在图扩散模型生成的模态感知用户-物品图上进行消息传递。

首先,作者将物品原始模态信息转化为相同维度的物品模态特征:

接下来,对用户嵌入和物品模态特征进行信息聚合,得到聚合的模态感知嵌入m∈ℝd:

这里,m∈ℝ×表示通过图扩散模型生成的模态感知图。为了获得多模态感知的高阶协同信息,作者进一步在原始用户-物品交互图进行了迭代的消息传递:

模态感知的对比增强

通过模态感知的对比视图,作者采用了两种不同的对比方法

其中一种利用不同的模态视图作为锚点,而另一种则使用主视图作为锚点。

前者的思想是基于用户在不同模态中的行为模式具有关联性,而后者则希望用户在不同模态中的行为模式可以引导及提升主视图的偏好表达。这里的主视图指通过GNN在多个模态感知图上聚合再进一步融合得到的用户与物品表达。两种对比方法的对比损失(InfoNCE loss)分别如下所示。

模态视图作为锚点:

主视图作为锚点:

多模态图聚合

为了生成最终的用户(物品)表示以进行预测,作者首先对所有的模态感知嵌入和相应的模态感知用户-物品图进行聚合:

之后通过一个可学习的参数化向量Km控制各个模态的权重,以求和的方式融合各个模态的表示:

之后在原始的用户-物品交互图上进行消息传递,以利用高阶的协同信号:

多任务模型训练

DiffMM的训练包含两个部分:对于推荐任务的训练和对于多模态图扩散模型的训练。

对于扩散模型的联合训练,也包括两个部分:ELBO损失和MSI损失。对于模态的扩散模型去噪网络的优化损失如下:

对于推荐任务的训练,作者引入了经典的贝叶斯个性化排名(BPR)损失和多模态对比增强损失c,BPR损失定义如下:

推荐任务的联合优化目标如下:

实验结果

作者在三个公开数据集上对比了多个类型最新的基线模型,包括传统的协同过滤方法,基于GNN的方法,生成扩散推荐方法,自监督推荐方法以及SOTA的多模态推荐方法。

通过广泛而充分的实验,结果表明提出的DiffMM在总体性能上具有最优的性能

为了验证所提出方法各个模块的有效性,作者进行了细致的消融实验,实验结果表明所提出的各个子组件均有提升推荐效果的功能:

作者进一步探索了DiffMM在数据稀疏问题上的表现,实验结果表明DIffMM中的跨模态对比学习方式可以有效缓解数据稀疏的问题,它通过使用图扩散模型生成的模态感知用户-物品图来获得高质量的自监督信号。


对于所提出的DiffMM,作者对一些重要的超参数进行了分析,包括多模态图聚合模块中的超参数、模态感知扩散模型中的MSI权重、以及多模态对比增强范式中的温度系数等:

为了更直观地评估所提出的模态感知图扩散模型对推荐系统性能的影响,作者研究了模态感知用户-物品图(由DiffMM生成)和通过边丢弃进行随机增强的用户-物品图之间的融合比率对于自监督增强对比视图构建的影响。

融合比率为0表示仅使用模态感知的用户-物品图来构建对比视图,而融合比率为1则表示仅使用随机增强方法。

结果明确表明,在两个数据集中,融合比率的增加导致模型性能的下降

这一发现表明模态感知的图扩散模型通过提供模态感知的对比视图而不是随机增强视图来增强跨模态对比学习的优越性。这个优势可以归因于基于图扩散的生成方法对潜在交互模式的有效建模,以及通过精心设计的生成机制将多模态上下文纳入到用户-物品交互图的扩散过程中。

总结

本文介绍了一种新的多模态推荐模型DiffMM,它通过结合模态意识丰富了概率扩散范式。

该方法利用多模态图扩散模型重构了模态感知的用户-项目图,同时利用跨模态数据增强模块的优势提供有价值的自监督信号。

为了评估DiffMM的有效性,作者进行了大量的实验,并将其与几种竞争基线模型进行了比较,结果证明了DiffMM在推荐性能方面的优越性。

论文:https://arxiv.org/abs/2406.11781
代码:https://github.com/HKUDS/DiffMM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
厉害了!郑丽文参访美团,惊叫连连,这波行程安排,太懂人心

厉害了!郑丽文参访美团,惊叫连连,这波行程安排,太懂人心

魔都姐姐杂谈
2026-04-08 22:44:10
比亚迪被巴西列入“耻辱名单”:中国车企出海,踩了最狠的坑

比亚迪被巴西列入“耻辱名单”:中国车企出海,踩了最狠的坑

戗词夺理
2026-04-08 16:09:00
马上检查你家冰箱!23岁女孩开颅3次,元凶就在冰箱里,你家可能也有

马上检查你家冰箱!23岁女孩开颅3次,元凶就在冰箱里,你家可能也有

奇妙的本草
2026-04-08 12:01:43
最后通牒前紧急停火!以色列无视美伊协议,大批战机起飞轰炸伊朗

最后通牒前紧急停火!以色列无视美伊协议,大批战机起飞轰炸伊朗

书纪文谭
2026-04-08 18:07:08
社保基金最新重仓硬科技龙头,市值低至40亿,最长已横盘526天

社保基金最新重仓硬科技龙头,市值低至40亿,最长已横盘526天

长风价值掘金
2026-04-08 15:15:57
致13人死亡,西成铁路“8·22”重大垮塌事故调查报告公布

致13人死亡,西成铁路“8·22”重大垮塌事故调查报告公布

界面新闻
2026-04-08 19:18:18
不到2小时,油价就暴跌40%,人民币暴涨1000点,国内油价会降吗?

不到2小时,油价就暴跌40%,人民币暴涨1000点,国内油价会降吗?

次元君情感
2026-04-09 03:24:46
张雪峰去世15天,原配李丽婧罕见发声,透露张姩菡近况,令人担忧

张雪峰去世15天,原配李丽婧罕见发声,透露张姩菡近况,令人担忧

秋姐居
2026-04-08 17:19:31
美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

澎湃新闻
2026-04-08 20:56:27
全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

眼光很亮
2026-04-08 14:51:46
河北两名群众、一名辅警为救落水女子不幸牺牲,四人全部遇难,事发地被市民摆满鲜花,当地多方回应

河北两名群众、一名辅警为救落水女子不幸牺牲,四人全部遇难,事发地被市民摆满鲜花,当地多方回应

大风新闻
2026-04-08 18:56:14
网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

罗纳尔说个球
2026-04-08 23:08:09
大风315 | 在淘宝买卡萨帝冰箱,店家限时优惠又送高档电器,保温杯顶替冰箱发了货,冰箱没收到店铺已关闭

大风315 | 在淘宝买卡萨帝冰箱,店家限时优惠又送高档电器,保温杯顶替冰箱发了货,冰箱没收到店铺已关闭

大风新闻
2026-04-08 18:45:10
太可怜了!全红婵被霸凌,282人微信群聊天曝光,体育总局动真格

太可怜了!全红婵被霸凌,282人微信群聊天曝光,体育总局动真格

乌娱子酱
2026-04-08 14:10:45
中俄投下反对票!傅聪:不给使用武力开通行证

中俄投下反对票!傅聪:不给使用武力开通行证

看看新闻Knews
2026-04-08 16:59:04
侯佩岑全家悉尼度假,一家四口幸福满溢,侯佩岑牵小儿子手好温馨

侯佩岑全家悉尼度假,一家四口幸福满溢,侯佩岑牵小儿子手好温馨

扒虾侃娱
2026-04-08 15:26:40
郑丽文大陆行第二天:美团王兴接待,马伯庸樊登陪同,严月霞保镖

郑丽文大陆行第二天:美团王兴接待,马伯庸樊登陪同,严月霞保镖

影像温度
2026-04-08 22:26:47
全红婵遭群聊辱骂再升级!国家一锤定音,主谋被扒,势力大也没用

全红婵遭群聊辱骂再升级!国家一锤定音,主谋被扒,势力大也没用

林雁飞
2026-04-08 20:07:41
韩国电视台报道:破防了!餐馆里九成的泡菜,竟全是中国山东造的

韩国电视台报道:破防了!餐馆里九成的泡菜,竟全是中国山东造的

潮鹿逐梦
2026-04-08 16:19:31
比被新能源车淘汰更可怕的是:油车车主,或将面临这3个难题

比被新能源车淘汰更可怕的是:油车车主,或将面临这3个难题

小熊侃史
2026-04-08 09:53:12
2026-04-09 06:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12443文章数 176446关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

数码
游戏
手机
教育
艺术

数码要闻

最轻ThinkPad来了!ThinkPad X13 Gen 7发布

曝《腐烂国度3》内部测试好玩的很 简直不可思议!

手机要闻

苹果“三年计划”曝光,iPhone要大变样了?

教育要闻

“新型啃老”席卷全国:孩子不工作也不伸手要钱,家长害怕毁一生

艺术要闻

陆俨少大气山水手卷18幅

无障碍浏览 进入关怀版