![]()
当你在电商平台搜索“苹果”,系统会推荐“水果”还是“手机”?或者直接跳到某个品牌旗舰店?短短一个词,背后承载了完全不同的购买意图。而推荐是否精准,直接影响用户的搜索体验,也影响平台的转化效率。
查询推荐(Query Suggestion)是现代电商搜索系统中的关键功能,通过在用户输入过程中实时推荐相关查询,帮助用户快速明确意图,提升搜索体验与转化效率。传统方法通常采用多阶段级联架构(MCA),虽然在效率与效果之间取得了一定平衡,但由于各阶段目标不一致、长尾查询召回困难等问题,限制了系统性能的进一步突破。
基于上述问题,快手在业界首次提出端到端的生成式统一查询推荐框架 ——OneSug,成功将召回、粗排、精排等多个阶段统一在一个生成模型中,显著提升了推荐效果与系统效率,在快手电商场景中实现了业务指标与用户体验的双重提升。
本工作相关成果《OneSug: The Unified End-to-End Generative Framework for E-commerce Query Suggestion》已被人工智能顶级会议 AAAI 2026 接收。
![]()
论文链接:https://arxiv.org/abs/2506.06913
一、研究背景
传统查询推荐系统通常采用多阶段级联架构,依次进行召回、粗排和精排。尽管该架构在响应时间与转化率之间实现了一定平衡,但也带来了明显的局限性:
- 级联式框架(召回 -> 粗排 -> 排序),前一链路性能决定下一链路上限;
- 召回、排序分离技术迭代范式,全链路统一目标优化难;
- 长尾前缀由于缺乏历史行为数据,难以召回高质量 Query。
近年来,生成式检索(Generative Retrieval)因其强大的语义理解与生成能力,在推荐与搜索领域展现出巨大潜力。然而,现有方法多聚焦于视频推荐,其本质上是一个开集到开集的任务,难以直接应用于输入输出都是开放词表的的查询推荐场景。
![]()
![]()
二、方法简介:OneSug 的三大核心模块
![]()
针对上述问题,快手提出了 OneSug 模型,整体架构如上图所示,主要包括 3 个部分:
(1)Prefix-Query 表征增强模块(Prefix2Query Representation Enhancement)
(2)统一的 Enc-Dec 生成架构(Unified Encoder-Decoder Architecture)
(3)用户行为偏好对齐(User Preference Alignment)
1. Prefix-Query 表征增强模块
Sug 场景下,用户输入的前缀往往较短且意图模糊(如 “苹果” 可指水果或品牌)。为此,快手提出的解决方式分为 2 个部分。
- 语义与业务空间对齐:以 BGE 作为 base 模型,同时引入用户真实的 prefix2query、query2query 数据,使用对比学习对 BGE 进行微调,使其语义空间与快手电商的业务特征空间对齐。
- 层次化语义 ID 生成:在对齐语义空间的基础上,引入 RQ-VAE,为每个前缀和 Query 生成层次化的语义 ID。RQ-VAE 可将任意文本映射为离散的语义 ID,同时保证语义相近的 query 会被编码到相同的簇中。通过这种方式,对于任何一个用户输入的前缀,可以快速匹配到与其语义 ID 最接近的 top-K 个相关 query,作为增强上下文输入后续生成模型。
2. 统一的 Enc-Dec 生成架构
OneSug 的生成架构基于 Enc-Dec 结构,并直接通过自回归(Autoregressive)方式生成用户最有可能点击的 Query。
该模型的输入包含四个关键部分:
(1)用户当前输入前缀(如 “智能手机”)
(2)由 PRE 模块增强的相关查询序列(如 “智能手机性价比 2025”)
(3)用户历史行为序列(如过去搜索的 “蓝牙耳机”、“手机壳” 等)
(4)用户画像信息
输出即为模型生成的 Query 列表(如 “智能手机推荐 2025”、“智能手机性价比排行”)。
3. 用户行为偏好对齐(RWR)
3.1 用户偏好量化
![]()
![]()
![]()
3.2 混合排序框架奖励加权偏好优化
传统的 DPO 使用 < 正样本,负样本 > 对进行训练,但默认两者同等重要。这在业务场景中是不合理的,因为区分 “点击” 和 “曝光” 的难度远小于区分 “点击” 和 “随机负样本”。
RWR 的核心思想是根据正负样本之间的奖励差距,为不同的样本对赋予不同的学习权重。快手构建了九种类型的样本对(如
)。对于每一对样本,计算其奖励差异权重 rwΔ:
![]()
![]()
3.3 混合排序框架
为了克服传统 Pairwise 范式的 DPO 在全局排序能力上的局限性,快手引入了一种混合排序框架。该框架将 listwise 范式的排序损失和 point-wise 范式的 sft loss 进行混合,使得模型既能获得高效的排序能力,同时避免 reward hacking 造成的生成能力下降。
Pairwise 范式对齐模型,在包含多个负样本的候选中无法学习到 “哪个是最好的”。受 Plackett-Luce 模型启发,快手设计了 Listwise 排序损失,对于正样本,让模型同时拉大它与所有负样本的奖励差距,迫使模型不仅要知道正样本比负样本好,还要学会在负样本越多、越强的情况下,依然将正样本排在前面,从而直接优化列表的整体排序质量。
论文中分别提出了基于 Pairwise 和 ListWise 范式的混合排序框架,同时在理论上证明了 Pairwise 范式的对齐模型是 ListWise 的特殊情况。
![]()
三、实验结果
离线效果
在快手电商场景的大规模数据集上,OneSug 在 HR@16 和 MRR@16 指标上均显著优于传统多阶段系统与生成式基线模型。论文中同时提到,OneSug 不仅适用于 Enc-Dec 结构的生成式模型,Decode-only 架构的模型同样适用,且具有更高的离线指标,因为现阶段的推理耗时约束暂时没有进行在线实验。
![]()
在线 A/B
OneSug 模型目前已在快手电商搜索场景下全量推全。在 AB 实验中,OneSug 大幅度提高了 Ctr、订单和 GMV 等指标,同时人工测评 GSB 指标也有很大幅度的提升。
![]()
![]()
在线推理
线上流程完全取代了召回 - 粗排 - 精排,使平均耗时降低了 43.2%,为后续优化提供了充足的空间。
![]()
四、总结与展望
OneSug 是业界首个在电商场景中实现全流量部署的端到端生成式 Query 推荐系统,其统一建模方式显著提升了语义理解与个性化推荐的能力,为生成式模型在搜广推的落地提供了新范式。
未来,快手将进一步探索大语言模型在排序阶段的强化学习优化、实时更新等方向,持续推动端到端生成式系统在推荐、广告等多业务场景中的广泛应用。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.