网易首页 > 网易号 > 正文 申请入驻

中科大华为发布生成式推荐大模型,昇腾NPU部署,背后认知公开

0
分享至

认知智能全国重点实验室&华为诺亚方舟 投稿
量子位 | 公众号 QbitAI

推荐大模型也可生成式,并且首次在国产昇腾NPU上成功部署

在信息爆炸时代,推荐系统已成为生活中不可或缺的一部分。Meta率先提出了生成式推荐范式HSTU,将推荐参数扩展至万亿级别,取得显著成果。

近期,中科大与华为合作开发了推荐大模型部署方案,可应用于多个场景。

探索过程中还有哪些经验与发现?最新公开分享来了。

报告亮点包括:

  • 总结推荐范式发展历程,指出具备扩展定律的生成式推荐范式是未来趋势;
  • 复现并研究不同架构的生成式推荐模型及其扩展定律;通过消融实验和参数分析,解析HSTU的扩展定律来源,并赋予SASRec以可扩展性;
  • 验证HSTU在复杂场景和排序任务中的表现及扩展性;
  • 团队展望并总结未来研究方向。

具备扩展定律的生成式推荐范式正在成为未来趋势

如图1所示,推荐系统的发展趋势是逐渐减少对手工设计特征工程和模型结构的依赖。在深度学习兴起之前,受限于计算资源,人们倾向于使用手工设计的特征和简单模型(图1A)。

随着深度学习的发展,研究者专注于复杂模型的设计,以更好地拟合用户偏好,并提升对GPU并行计算的利用率(图1B)。

然而,随着深度学习能力的瓶颈,特征工程再次受到关注(图1C)。

如今,大语言模型扩展定律的成功启发了推荐领域的研究者。扩展定律描述了模型性能与关键指标(如参数规模、数据集规模和训练资源)之间的幂律关系。通过增加模型深度和宽度,并结合大量数据,可以提升推荐效果(图1D),这种方法被称为推荐大模型。

近期,HSTU等生成式推荐框架在此方向取得了显著成果,验证了推荐领域的扩展定律,引发了生成式推荐大模型研究的热潮。团队认为,生成式推荐大模型正在成为颠覆当前推荐系统的下一个新范式。

在此背景下,探索哪些模型真正具备可扩展性,理解其成功应用扩展定律的原因,以及如何利用这些规律提升推荐效果,已成为当前推荐系统领域的热门课题。

基于不同架构的生成式推荐大模型扩展性分析

为了评估生成式推荐大模型在不同架构下的扩展性,团队对比了HSTU、Llama、GPT和SASRec四种基于Transformer的架构。

在三个公开数据集上,通过不同注意力模块数量下的性能表现进行分析(见表1)。结果显示,当模型参数较小时,各架构表现相似,且最优架构因数据集而异。

然而,随着参数扩展,HSTU和Llama的性能显著提升,而GPT和SASRec的扩展性不足。尽管GPT在其他领域表现良好,但在推荐任务上未达预期。团队认为,这是因为GPT和SASRec的架构缺乏专为推荐任务设计的关键组件,无法有效利用扩展定律。

生成式推荐模型的可扩展性来源分析

为了探究HSTU等生成式推荐模型的可扩展性来源,团队进行了消融实验,分别去除了HSTU中的关键组件:相对注意力偏移(RAB)、SiLU激活函数,以及特征交叉机制。

实验结果(见表2)显示,单一模块的缺失并未显著影响模型的扩展性,但RAB的移除导致性能明显下降,表明其关键作用。

为了进一步分析赋予模型扩展定律的因素,团队比较了SASRec与扩展性良好的HSTU和Llama的区别,发现主要差异在于RAB和注意力模块内的残差连接方式。

为验证这些差异是否为扩展性的关键,团队为SASRec引入了HSTU的RAB,并调整其注意力模块的实现方式。

实验结果(见表3)显示,单独添加RAB或修改残差连接并未显著改善SASRec的扩展性。然而,当同时修改两个组件后,SASRec展现出良好的扩展性。这表明,残差连接模式与RAB的结合,为传统推荐模型赋予了扩展性,为未来推荐系统的扩展性探索提供了重要启示。

生成式推荐模型在复杂场景和排序任务中的表现

复杂场景中的表现

HSTU在多域、多行为和辅助信息等复杂场景中表现出色。以多域为例,HSTU在AMZ-MD的四个域中始终优于基线模型SASRec和C2DSR(见表4)。

与单域独立训练的HSTU-single相比,多域联合训练的HSTU表现更佳,证明了多域联合建模的优势。表5显示,HSTU在多域行为数据上的扩展性显著,尤其在规模较小的场景如Digital Music和Video Games上。这表明HSTU在解决冷启动问题上具有潜力。

在排序任务中的表现

排序是推荐系统中重要的一环,团队深入探讨了生成式推荐模型在排序任务中的有效性和扩展性。正如表6所示,生成式推荐大模型在性能上显著优于DIN等传统推荐模型。尽管在小规模模型下,Llama的表现优于HSTU,但HSTU在扩展性方面更具优势,而Llama在扩展性上显得不足。

团队还研究了负采样率和评分网络架构对排序任务的影响,并进行了全面分析。此外,还探讨了缩减embedding维度对性能的影响。缩小embedding维度(表7)提升了小数据集ML-1M和AMZ-Books的性能,但在大数据集ML-20M上则有所下降。这表明,推荐大模型的扩展定律不仅受垂直扩展(注意力模块数量)影响,也受水平规模(embedding维度)影响。

未来方向和总结

在技术报告中,团队指出了数据工程、Tokenizer、训练推理效率等推荐大模型未来研究的潜力方向,这些方向将帮助解决当前的挑战并拓宽应用场景。

论文链接:https://arxiv.org/abs/2412.00714
主页链接: https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全场梦游!曼联队魂变 “漏勺”,球迷怒喊:赶紧卖了!

全场梦游!曼联队魂变 “漏勺”,球迷怒喊:赶紧卖了!

澜归序
2026-02-02 06:19:14
郭文奇率中共代表团赴蒙古国、新加坡宣介中共二十届四中全会精神

郭文奇率中共代表团赴蒙古国、新加坡宣介中共二十届四中全会精神

新华社
2026-02-02 17:49:08
“谁还敢用你?”211女硕士被体制内劝退,网友看清现实:自找的

“谁还敢用你?”211女硕士被体制内劝退,网友看清现实:自找的

妍妍教育日记
2025-12-26 18:10:09
马龙陈梦参赛奖金被拖欠!国乒老帅退休后现身,对林诗栋提新要求

马龙陈梦参赛奖金被拖欠!国乒老帅退休后现身,对林诗栋提新要求

三十年莱斯特城球迷
2026-02-01 22:20:07
一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

每日经济新闻
2026-02-01 16:10:05
美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

我心纵横天地间
2026-02-01 13:08:34
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

墨印斋
2026-01-31 16:37:48
宋仲基夫妇罕见同框!三年两娃,婚姻真相浮出水面

宋仲基夫妇罕见同框!三年两娃,婚姻真相浮出水面

草莓解说体育
2026-02-02 20:40:49
出头鸟来了!印度明确宣布!

出头鸟来了!印度明确宣布!

达文西看世界
2026-02-02 14:40:46
国家为什么要在当下这个节点提出共同富裕?

国家为什么要在当下这个节点提出共同富裕?

流苏晚晴
2026-01-28 18:25:23
回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

阿纂看事
2026-01-09 09:48:35
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
德转:加布里埃尔正式加盟上海海港;上赛季贡献16球8助攻

德转:加布里埃尔正式加盟上海海港;上赛季贡献16球8助攻

懂球帝
2026-02-02 20:43:40
郑丽文8小时霸气拿回56亿现金,还让中天复台,蓝营终于起死回生

郑丽文8小时霸气拿回56亿现金,还让中天复台,蓝营终于起死回生

头条爆料007
2026-02-02 07:10:27
伊朗!爆炸开始了!

伊朗!爆炸开始了!

大嘴说天下
2026-02-01 23:40:03
保洁母亲苦寻女儿七年,女儿一家集体“潜逃”?网友:快跑别掺和

保洁母亲苦寻女儿七年,女儿一家集体“潜逃”?网友:快跑别掺和

另子维爱读史
2026-02-02 18:24:16
突然发现我妈好像没有朋友?网友分享一针见血:看完沉默了

突然发现我妈好像没有朋友?网友分享一针见血:看完沉默了

另子维爱读史
2026-02-02 21:18:30
沪银,20%跌停!

沪银,20%跌停!

中国基金报
2026-02-02 22:59:18
金价暴跌!做好准备,黄金大风暴马上就到,谁都躲不开

金价暴跌!做好准备,黄金大风暴马上就到,谁都躲不开

户外钓鱼哥阿旱
2026-02-02 15:54:50
6天亏90万,投资33万日销仅百元!造富神话正让普通人挥尽血汗钱

6天亏90万,投资33万日销仅百元!造富神话正让普通人挥尽血汗钱

品牌观察官
2026-02-02 19:05:53
2026-02-03 02:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12101文章数 176369关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

教育
数码
艺术
房产
公开课

教育要闻

俞敏洪说“一大半老师不合格”?别急着骂,先听他说完

数码要闻

LG宣布停止生产8K电视 内容匮乏与需求不振让“超高清时代”夭折

艺术要闻

2026年,中国最值得期待的20个新建筑

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版