网易首页 > 网易号 > 正文 申请入驻

从匹配困境到推理突破:阿里REG4Rec 激活生成式推荐的个性化潜力

0
分享至

来源:市场资讯

(来源:机器之心Pro)


一、引言

从内容分发到商业转化,推荐系统早已成为互联网平台的关键基础设施。它在海量信息与有限注意力之间完成筛选和排序,直接影响内容曝光、商品成交以及流量变现效率。

用户在电商平台上看到的商品列表、在信息流里刷到的内容、广告位中呈现的链接,通常并非随机展现,而是推荐系统在毫秒级完成特征理解和排序决策的结果。

近年来,大语言模型(LLM)在语义理解、内容生成和多步推理方面取得快速进展,推动业界重新审视推荐系统的形态:推荐是否可以不再局限于一次性打分和相似度匹配,而是像人类决策一样,在生成过程中进行多步推理与自我修正,逐步逼近用户的真实意图。

基于此,「生成式推荐」开始成为一个重要研究方向,尝试将 “理解 — 生成 — 推理” 融为一体,让推荐过程从静态匹配转变为面向用户意图的动态决策。

在实际电商环境中,生成式推荐面临的主要挑战不在于生成商品本身,而在于生成过程是否具备「可推理、可控且稳定」的能力。

电商场景下,用户行为信号噪声高、兴趣多样且频繁变化,模型需要在多步生成过程中持续校准语义方向、维持推理轨迹的一致性。若仍采用经典自回归解码,早期预测偏差容易被不断放大,推理路径收缩到少量固定模式,导致生成精度受限、长尾兴趣覆盖不足,难以稳定命中用户真实需求。

针对上述问题,阿里国际智能技术团队提出了基于推理增强范式的生成式推荐模型 REG4Rec。该模型从表征学习、训练目标和推理策略三个层面进行了系统设计,以提升生成式推荐的推理能力与稳定性。离线实验显示,REG4Rec 在多个关键指标上优于现有生成式方法,并呈现出随推理步数增加而性能持续提升的 Scaling Up 特性。

目前,REG4Rec 已在 Lazada 推荐广告场景完成大规模工业化部署。线上结果显示:广告收入提升5.60%、商品交易总额(GMV)提升3.29%、点击率提升1.81%,带来显著商业收益。

本工作相关成果已被数据挖掘领域顶级会议 ICDE 2026 接收。


二、从判别打分走向多步生成,难点在于「推理」

长期以来,主流推荐模型大多遵循判别式范式:给定用户与候选物品,模型通过一次性打分来估计二者的交互概率。

这种方式高效且易于部署,但也天然受限,当用户兴趣快速演化、意图高度隐式且多维交织时,单次判别打分无法显式建模用户的决策路径,也无法在推理过程中对路径进行修正。换言之,它更擅长回答是不是,却不擅长回答你真正想要什么、以及为什么。

在这一背景下,生成式推荐开始受到关注。它把推荐从「一次判断」改写为「多步生成」:不再直接对候选打分,而是将物品表示从连续向量离散化为一串语义 ID(Semantic IDs),并让模型在解码阶段逐步生成这些 ID。每一步生成都在补全一部分意图线索、收缩候选语义空间,最终由一组语义 ID 组合定位到目标物品。

相比单次打分,这种范式天然接近推理式决策,模型在生成过程中主动选择、组合并纠偏,从而有机会捕捉更细粒度、更个性化的兴趣表达。

围绕语义 ID 与生成式范式,阿里国际智能技术团队在工业场景中持续探索。2024 年,团队将残差式语义 ID引入召回阶段的负采样,实现了负样本难度与规模的可控调度(WWW’25 ESANS [1])。

同时团队搭建并部署了行为大模型基座,针对多模态异构 token 带来的噪声问题,提出基于分层 Transformer 的去噪建模方案(SIGIR’25 HeterRec [2])。这些前置工作表明,生成式范式的关键并不止于「能生成」,更在于如何让生成过程具备更强的「推理能力」与「可控性」。

基于此,团队提出了推理增强生成式推荐模型 REG4Rec,并将面临的核心挑战概括为三点:

三、REG4Rec:让生成式推荐从匹配走向多步推理

3.1 方案设计

针对上述挑战,REG4Rec 从语义 ID 表征、推理路径建模、推理增强训练和线上推理部署四个层面进行系统设计,构建端到端的生成式推理方案:

1. 超长并行语义码本:用 MMQ 并行码本替代 RQ-VAE 残差层级码本,缓解码本信息分布不均和步间语义割裂问题,使码本规模与推理步数能够稳定扩展。

2. 上下文感知的动态推理路径:在推理阶段支持自适应的 token 生成顺序,使解码路径随用户意图动态变化,更好刻画 “因人而异” 的决策逻辑。

3. 基于 GRPO 的推理增强:引入多维反馈信号(如 token 命中、类目一致性、语义一致性等)对推理过程做偏好对齐,提升对早期误差和错误前缀的鲁棒性,增强自我纠偏能力。

4. 基于反思剪枝与多步松弛的线上部署:在推理阶段引入一致性度量进行 “反思剪枝”,过滤语义不一致的解码路径。在商品检索时则允许少量 token 不匹配的模糊召回,在保证推理稳定性的同时提升长尾覆盖能力。


图 1 REG4Rec 算法架构

3.2 超长并行语义码本

工业界常用 RQ-VAE 来构造语义 ID,其残差层级结构更适合压缩表示,并不天然适配多步推理式生成。随着解码步数增加,新增码本往往难以贡献同等水平的增量语义信息,训练过程中也更容易出现层间收敛不同步的问题。

更重要的是,层级残差把语义拆到彼此相对割裂的空间里,后续步骤难以继承前序推理结果,导致多步生成难以实现「随步数增加而持续提升」,反而更容易放大早期偏差。这意味着如果不改变语义 ID 的组织方式,推理步数和收益都很难可持续扩展。


图 2 基于 MoE 的并行语义码本 MMQ

为了解决这些问题,阿里国际智能技术团队提出了一套基于 MoE 的并行语义码本方案 (WSDM’26 MMQ [3])。该方案通过多个专家从不同语义视角对同一商品进行编码,生成一组平行的语义 token 空间;同时引入路由机制,为各 token 维度清晰分工,避免语义信息过度集中在少数维度,其余维度逐步退化为残差噪声。

在这一设计下,码本规模与推理步数能够更稳健地扩展,为更长推理链路的 Scaling Up 奠定基础。同时,生成的核心目标也从「压缩商品表示」转向「刻画用户兴趣空间」:模型在多个语义维度上逐步推理出用户偏好,再通过检索策略从商品库中取回满足这些语义约束的目标物品。

3.3 上下文感知的动态推理路径

在现有生成式召回架构中,商品通常被编码为一条固定顺序的语义 token 序列,对于残差码本往往对应由粗到细的层级顺序。这种确定性表征隐含了一个强假设:所有用户都应沿着同一套语义维度依次理解商品。但在真实推荐场景中,用户的决策线索往往因人而异。同一商品包含品牌、价格带、颜色、款式等多维属性,不同用户产生兴趣的触发点可能完全不同,有人先看品牌,有人更在意外观风格,也有人优先关注价格。若解码顺序被绑定到单一静态路径,就相当于把不同用户的推理过程压缩到同一条决策链上,模型可表达的推理空间被显著收窄,个性化效果也因此受限。


图 3 基于上下文感知的动态推理路径

为此,REG4Rec 设计了上下文感知的动态推理路径。模型在每一步生成前,综合用户历史行为、实时意图信号以及已生成的 token 前缀,自适应决定下一步从哪个语义维度进行解码。这样,解码不再受预设顺序约束,而是围绕用户当前关注点动态选择并组合语义维度,逐步形成更贴近个体决策逻辑的推理轨迹。

这一设计将个性化能力前置到生成过程之中,使模型不仅学习「生成哪些语义线索」,也学习「先生成哪些线索、再补全哪些约束」。在并行码本提供的多视角语义空间上,动态路径显著扩展了可探索的推理组合,有助于更精准地捕捉复杂多变的用户意图。

3.4 基于 GRPO 的推理增强

受大语言模型中「推理即生成」范式的启发,REG4Rec 将推荐从传统的「表征匹配」升级为「可控的逻辑推理」,更细致地刻画用户行为背后的决策路径与真实兴趣。

为此,REG4Rec 在训练阶段引入强化学习框架,基于 GRPO 进行偏好对齐,引导模型在大规模生成空间中探索更优推理路径。奖励函数设计主要包括三类信号:

通过上述 GRPO 后训练,模型能够在多步生成中更好平衡命中率、推理方向与语义连贯性,显著提升推理路径的可控性与结果稳定性。

3.5 基于反思剪枝与多步松弛的线上部署

在线上部署环节,REG4Rec 围绕稳定性与泛化性,对推理与检索两个关键环节做了针对性改造。

推理阶段的反思剪枝:在 Beam Search 扩展候选路径时,不再仅依赖累计生成概率进行排序,而是引入一致性信号,对生成轨迹进行在线「自检」。对于语义前后不连贯、出现明显漂移的路径及时剪枝,优先保留语义一致的候选,从而降低多步解码的不确定性,让输出更稳定、更可靠。

检索阶段的多步松弛:在商品检索时,不再将 token 序列完全一致作为硬约束,而是允许少量 token 不匹配的候选进入召回集合。这样可以显著降低局部预测偏差带来的漏召风险,同时几乎不增加额外推理开销,并进一步提升对长尾兴趣与相似商品的覆盖能力。

3.6 性能与效率:在大规模业务场景跑得动

训练优化:随着模型参数和推理步数增加,训练时间显著变长,对离线迭代速度带来压力。REG4Rec 团队从特征处理、高效率算子引入,量化和显存管理等多个维度进行优化,将单次训练时间缩短至原来的约一半,加快训练迭代和实验回收效率。部分关键的优化点如下:


推理优化:在生成式推荐的推理链路中,同样包含特征处理与模型计算部分。REG4Rec 的优化重点主要集中在模型推理侧,一方面借鉴 LLM 推理优化思路,另一方面结合搜索与广告场景下的生成式推荐特点进行定制化设计,主要包括:

通用优化:将 LLM 推理优化的方法应用到生成式推荐中,如 FlashAttention、量化、KV cache 等,以提升算子效率和硬件利用率。

定制优化:针对生成式召回中 beam size 增大会导致 batch size 膨胀的问题,引入 TreeAttention 等机制控制计算规模;同时开发多种高性能融合算子(基于 Triton 或 CUDA),进一步降低推理延迟。


四、实验

4.1 离线实验

为了验证 REG4Rec 的有效性,实验采用 Recall@K 和 NDCG@K 作为离线评估指标,并在三个公开数据集和一个工业数据集上,与多个主流推荐模型进行了系统对比。结果显示,REG4Rec 在各项核心指标上均显著优于现有的判别式与生成式推荐基线,整体召回效果取到了稳定领先。


图 4 REG4Rec 离线实验结果

此外,REG4Rec 在生成过程中引入了更长的推理与选择机制。在并行码本设定下,对比了不同推理步数对召回效果的影响。可以看到,随着推理步数增加,离线指标呈现稳定的 Scaling Up 趋势。模型能够在多步生成中逐步细化用户意图,并通过迭代推理持续收紧语义约束,从而生成结果更贴合个体偏好。

尤其当推理步数从 3 步提升到 5 步时,Recall 指标出现明显跃升,其中 Recall@1 提升 123%,Recall@100 提升 37%。当推理步数进一步增加到 6 步时,REG4Rec 的 Recall@100 开始超越传统检索式方法,这表明,推理增强的生成式推荐不仅在个性化表达与意图理解上具备优势,也在泛化能力与召回效果上超过判别式范式。


图 5 REG4Rec 推理步数 Scaling Up

4.2 在线实验

在阿里巴巴 Lazada 推荐广告业务中,REG4Rec 进行了超大规模线上 A/B 测试中。REG4Rec 在多项核心业务指标上取得显著提升,并已完成全流量推全。


图 6 REG4Rec 在线实验效果

五、总结与展望

生成式推荐正在从「能生成」走向「会推理」。当推荐不再停留在表征匹配,而是像大语言模型一样把推理过程纳入生成本身,模型就能在多步生成中持续思考、选择和反思,从而更贴近用户真实兴趣与决策逻辑。REG4Rec 沿着这一思路,将「推理即生成」的范式落到工业级推荐系统中,并围绕表征、训练与部署三条主线打通端到端链路。

在表征侧,MMQ 并行语义码本与动态解码空间共同扩展了更大规模的决策空间;在训练侧,基于 GRPO 的偏好对齐与多步奖励设计,显式引导模型在该空间内进行有效探索,逐步学习到更一致、更可靠的语义轨迹;在部署端,一致性驱动的反思剪枝配合多步松弛检索,在控制计算开销的同时抑制语义漂移、降低漏召风险,让生成策略与线上检索机制更自然对齐。展望未来,生成式推理仍有三条值得持续深入的方向:

团队介绍:本文来自阿里国际-智能技术-Lazada推荐广告算法团队。团队聚焦生成式推荐、大模型算法、用户超长序列建模与多场景建模等前沿方向,致力于构建工业级推荐大模型,通过更深刻地洞察用户个性化偏好与决策逻辑,持续提升商家投放效益与平台收益。近年来,团队在前沿算法领域持续深耕,已在 WWW、SIGIR、CIKM、WSDM 等顶级学术会议发表多篇高质量论文。也欢迎感兴趣的同学加入我们,共同开创AI推荐的新篇章。

组内前序工作:

[1]. Haibo Xing, Kanefumi Matsuyama, Hao Deng, Jinxin Hu, Yu Zhang, and Xiaoyi Zeng. 2025. ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems. In Proceedings of the ACM on Web Conference 2025 (Sydney NSW, Australia) (WWW ’25). Association for Computing Machinery, New York, NY, USA, 462–471.

[2]. Hao Deng, Haibo Xing, Kanefumi Matsuyama, Yulei Huang, Jinxin Hu, Hong Wen, Jia Xu, Zulong Chen, Yu Zhang, Xiaoyi Zeng, et al . 2025. Heterrec: Heterogeneous information transformer for scalable sequential recommendation. In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval. 3020–3024.

[3]. Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, and Jing Zhang. 2025. MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation. arXiv:2508.15281 [cs.IR] https://arxiv.org/abs/2508.15281

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
自断后路!央企采用国产芯片,美:你不进口,我们的芯片卖给谁?

自断后路!央企采用国产芯片,美:你不进口,我们的芯片卖给谁?

半路友人之他
2026-02-19 23:15:08
安徽刚刚通报:厅干郑家齐被查!

安徽刚刚通报:厅干郑家齐被查!

凤凰网安徽
2026-03-02 17:45:32
富时中国A50指数期货跌幅扩大,现跌1.0%

富时中国A50指数期货跌幅扩大,现跌1.0%

每日经济新闻
2026-03-02 10:41:04
米兰时装周好真实!陈妍希假发包太夸张,陈小纭脸僵肿、满腿淤青

米兰时装周好真实!陈妍希假发包太夸张,陈小纭脸僵肿、满腿淤青

枫尘余往逝
2026-03-02 12:47:21
美军公布伤亡情况!伊朗向美航母发射4枚导弹,美军:导弹甚至没有接近航母,已击沉一艘伊朗船只;朝鲜强烈谴责美以“流氓行径”

美军公布伤亡情况!伊朗向美航母发射4枚导弹,美军:导弹甚至没有接近航母,已击沉一艘伊朗船只;朝鲜强烈谴责美以“流氓行径”

每日经济新闻
2026-03-02 00:23:54
霍尔木兹海峡关闭!中国化工全产业链承压

霍尔木兹海峡关闭!中国化工全产业链承压

新浪财经
2026-03-02 11:48:58
张拿铁在国外走失,张踩铃想掐死婆婆温迪,幸好巧遇热心粉丝帮忙

张拿铁在国外走失,张踩铃想掐死婆婆温迪,幸好巧遇热心粉丝帮忙

可乐谈情感
2026-03-02 01:18:35
中国不先使用核武器,如果美国炸毁北斗卫星,中国是不是就输了?

中国不先使用核武器,如果美国炸毁北斗卫星,中国是不是就输了?

暗香暗香
2026-02-24 01:54:48
让你不选我!广厦宝岛内援盛赞胡金秋朱俊龙 若有他男篮想赢很难

让你不选我!广厦宝岛内援盛赞胡金秋朱俊龙 若有他男篮想赢很难

大嘴爵爷侃球
2026-03-02 15:28:51
汪小菲责怪母亲发他和孩子的视频,网友评价:不要继承麻六记

汪小菲责怪母亲发他和孩子的视频,网友评价:不要继承麻六记

萱小蕾o
2026-03-02 13:31:09
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
高德导航到底能有多搞笑?网友:我在市区开车都不敢全相信导航

高德导航到底能有多搞笑?网友:我在市区开车都不敢全相信导航

解读热点事件
2026-02-22 05:43:06
他出身京剧世家,38岁才突破成名,49岁仍单身,正午阳光御用配角

他出身京剧世家,38岁才突破成名,49岁仍单身,正午阳光御用配角

芬霏剧时光
2026-03-01 17:56:02
今天,主力大幅买入!

今天,主力大幅买入!

君临财富
2026-03-02 15:23:54
当年那些没有听出来的弦外之音?网友:她说在清华等我

当年那些没有听出来的弦外之音?网友:她说在清华等我

特约前排观众
2026-01-09 00:05:05
姐姐摸了下弟弟的小脚丫,我直接破防了!这画面也太暖了吧!

姐姐摸了下弟弟的小脚丫,我直接破防了!这画面也太暖了吧!

王二哥老搞笑
2026-02-28 04:28:55
1971年,陕西老光棍图便宜,娶了小自己10岁又坐过牢房的女大学生

1971年,陕西老光棍图便宜,娶了小自己10岁又坐过牢房的女大学生

南权先生
2026-02-26 15:38:59
张元英辱华升级!在港参加活动发言挑衅,相关代言被抵制连夜捂嘴

张元英辱华升级!在港参加活动发言挑衅,相关代言被抵制连夜捂嘴

瓜农娟姐
2026-01-03 15:15:00
2号收评:中石油创近11年新高!所有人都注意,大盘后市或这样走

2号收评:中石油创近11年新高!所有人都注意,大盘后市或这样走

春江财富
2026-03-02 15:30:03
街头,伊朗人悲伤地跳了起来?

街头,伊朗人悲伤地跳了起来?

关尔东
2026-03-01 23:02:58
2026-03-03 00:00:50
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2318514文章数 5644关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

房产
教育
时尚
艺术
手机

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

教育要闻

特别猛,但在留学生心中存在感很低的英国大学!

今年春天一定要拥有的4件衣服,太好看了!

艺术要闻

简约的风景画,美国画家Ben Bauer作品

手机要闻

iPhone 17系列:国内销量已破2200万!网友:华为仍需努力

无障碍浏览 进入关怀版