网易首页 > 网易号 > 正文 申请入驻

中科大华为发布生成式推荐大模型,昇腾NPU部署,背后认知公开

0
分享至

认知智能全国重点实验室&华为诺亚方舟 投稿
量子位 | 公众号 QbitAI

推荐大模型也可生成式,并且首次在国产昇腾NPU上成功部署

在信息爆炸时代,推荐系统已成为生活中不可或缺的一部分。Meta率先提出了生成式推荐范式HSTU,将推荐参数扩展至万亿级别,取得显著成果。

近期,中科大与华为合作开发了推荐大模型部署方案,可应用于多个场景。

探索过程中还有哪些经验与发现?最新公开分享来了。

报告亮点包括:

  • 总结推荐范式发展历程,指出具备扩展定律的生成式推荐范式是未来趋势;
  • 复现并研究不同架构的生成式推荐模型及其扩展定律;通过消融实验和参数分析,解析HSTU的扩展定律来源,并赋予SASRec以可扩展性;
  • 验证HSTU在复杂场景和排序任务中的表现及扩展性;
  • 团队展望并总结未来研究方向。

具备扩展定律的生成式推荐范式正在成为未来趋势

如图1所示,推荐系统的发展趋势是逐渐减少对手工设计特征工程和模型结构的依赖。在深度学习兴起之前,受限于计算资源,人们倾向于使用手工设计的特征和简单模型(图1A)。

随着深度学习的发展,研究者专注于复杂模型的设计,以更好地拟合用户偏好,并提升对GPU并行计算的利用率(图1B)。

然而,随着深度学习能力的瓶颈,特征工程再次受到关注(图1C)。

如今,大语言模型扩展定律的成功启发了推荐领域的研究者。扩展定律描述了模型性能与关键指标(如参数规模、数据集规模和训练资源)之间的幂律关系。通过增加模型深度和宽度,并结合大量数据,可以提升推荐效果(图1D),这种方法被称为推荐大模型。

近期,HSTU等生成式推荐框架在此方向取得了显著成果,验证了推荐领域的扩展定律,引发了生成式推荐大模型研究的热潮。团队认为,生成式推荐大模型正在成为颠覆当前推荐系统的下一个新范式。

在此背景下,探索哪些模型真正具备可扩展性,理解其成功应用扩展定律的原因,以及如何利用这些规律提升推荐效果,已成为当前推荐系统领域的热门课题。

基于不同架构的生成式推荐大模型扩展性分析

为了评估生成式推荐大模型在不同架构下的扩展性,团队对比了HSTU、Llama、GPT和SASRec四种基于Transformer的架构。

在三个公开数据集上,通过不同注意力模块数量下的性能表现进行分析(见表1)。结果显示,当模型参数较小时,各架构表现相似,且最优架构因数据集而异。

然而,随着参数扩展,HSTU和Llama的性能显著提升,而GPT和SASRec的扩展性不足。尽管GPT在其他领域表现良好,但在推荐任务上未达预期。团队认为,这是因为GPT和SASRec的架构缺乏专为推荐任务设计的关键组件,无法有效利用扩展定律。

生成式推荐模型的可扩展性来源分析

为了探究HSTU等生成式推荐模型的可扩展性来源,团队进行了消融实验,分别去除了HSTU中的关键组件:相对注意力偏移(RAB)、SiLU激活函数,以及特征交叉机制。

实验结果(见表2)显示,单一模块的缺失并未显著影响模型的扩展性,但RAB的移除导致性能明显下降,表明其关键作用。

为了进一步分析赋予模型扩展定律的因素,团队比较了SASRec与扩展性良好的HSTU和Llama的区别,发现主要差异在于RAB和注意力模块内的残差连接方式。

为验证这些差异是否为扩展性的关键,团队为SASRec引入了HSTU的RAB,并调整其注意力模块的实现方式。

实验结果(见表3)显示,单独添加RAB或修改残差连接并未显著改善SASRec的扩展性。然而,当同时修改两个组件后,SASRec展现出良好的扩展性。这表明,残差连接模式与RAB的结合,为传统推荐模型赋予了扩展性,为未来推荐系统的扩展性探索提供了重要启示。

生成式推荐模型在复杂场景和排序任务中的表现

复杂场景中的表现

HSTU在多域、多行为和辅助信息等复杂场景中表现出色。以多域为例,HSTU在AMZ-MD的四个域中始终优于基线模型SASRec和C2DSR(见表4)。

与单域独立训练的HSTU-single相比,多域联合训练的HSTU表现更佳,证明了多域联合建模的优势。表5显示,HSTU在多域行为数据上的扩展性显著,尤其在规模较小的场景如Digital Music和Video Games上。这表明HSTU在解决冷启动问题上具有潜力。

在排序任务中的表现

排序是推荐系统中重要的一环,团队深入探讨了生成式推荐模型在排序任务中的有效性和扩展性。正如表6所示,生成式推荐大模型在性能上显著优于DIN等传统推荐模型。尽管在小规模模型下,Llama的表现优于HSTU,但HSTU在扩展性方面更具优势,而Llama在扩展性上显得不足。

团队还研究了负采样率和评分网络架构对排序任务的影响,并进行了全面分析。此外,还探讨了缩减embedding维度对性能的影响。缩小embedding维度(表7)提升了小数据集ML-1M和AMZ-Books的性能,但在大数据集ML-20M上则有所下降。这表明,推荐大模型的扩展定律不仅受垂直扩展(注意力模块数量)影响,也受水平规模(embedding维度)影响。

未来方向和总结

在技术报告中,团队指出了数据工程、Tokenizer、训练推理效率等推荐大模型未来研究的潜力方向,这些方向将帮助解决当前的挑战并拓宽应用场景。

论文链接:https://arxiv.org/abs/2412.00714
主页链接: https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
他已任武汉市政府党组成员,安徽桐城人

他已任武汉市政府党组成员,安徽桐城人

文都桐网
2026-03-26 15:45:13
五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

健康之光
2026-03-25 21:20:05
马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

我是一个养虾人
2026-03-25 23:32:20
课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

谈史论天地
2026-03-24 15:45:06
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
3月26日俄乌最新:靴子终于落地了

3月26日俄乌最新:靴子终于落地了

西楼饮月
2026-03-26 19:48:54
天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

凯旋学长
2026-03-26 14:50:48
樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

阅微札记
2026-03-26 20:24:44
克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

仰卧撑FTUer
2026-03-26 22:58:07
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
近半年来,多家工厂密集发布停工放假通知!

近半年来,多家工厂密集发布停工放假通知!

黯泉
2026-03-26 18:48:20
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
稀土贸易战:WTO判中国输,美西方终成输家

稀土贸易战:WTO判中国输,美西方终成输家

遁走的两轮
2026-03-15 03:13:32
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

狼叔评论
2026-03-26 17:50:05
2026-03-26 23:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
家居
手机
房产
公开课

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版