效果、性能双突破，快手OneSug端到端生成式框架入选AAAI 2026|新论文|aaai|知名企业|query|快手(软体)

效果、性能双突破，快手OneSug端到端生成式框架入选AAAI 2026

2026-01-19 11:50:07　来源: 机器之心Pro

河北举报

分享至

当你在电商平台搜索“苹果”，系统会推荐“水果”还是“手机”？或者直接跳到某个品牌旗舰店？短短一个词，背后承载了完全不同的购买意图。而推荐是否精准，直接影响用户的搜索体验，也影响平台的转化效率。

查询推荐（Query Suggestion）是现代电商搜索系统中的关键功能，通过在用户输入过程中实时推荐相关查询，帮助用户快速明确意图，提升搜索体验与转化效率。传统方法通常采用多阶段级联架构（MCA），虽然在效率与效果之间取得了一定平衡，但由于各阶段目标不一致、长尾查询召回困难等问题，限制了系统性能的进一步突破。

基于上述问题，快手在业界首次提出端到端的生成式统一查询推荐框架 ——OneSug，成功将召回、粗排、精排等多个阶段统一在一个生成模型中，显著提升了推荐效果与系统效率，在快手电商场景中实现了业务指标与用户体验的双重提升。

本工作相关成果《OneSug: The Unified End-to-End Generative Framework for E-commerce Query Suggestion》已被人工智能顶级会议 AAAI 2026 接收。

论文链接：https://arxiv.org/abs/2506.06913

一、研究背景

传统查询推荐系统通常采用多阶段级联架构，依次进行召回、粗排和精排。尽管该架构在响应时间与转化率之间实现了一定平衡，但也带来了明显的局限性：

级联式框架（召回 -> 粗排 -> 排序），前一链路性能决定下一链路上限；
召回、排序分离技术迭代范式，全链路统一目标优化难；
长尾前缀由于缺乏历史行为数据，难以召回高质量 Query。

近年来，生成式检索（Generative Retrieval）因其强大的语义理解与生成能力，在推荐与搜索领域展现出巨大潜力。然而，现有方法多聚焦于视频推荐，其本质上是一个开集到开集的任务，难以直接应用于输入输出都是开放词表的的查询推荐场景。

二、方法简介：OneSug 的三大核心模块

针对上述问题，快手提出了 OneSug 模型，整体架构如上图所示，主要包括 3 个部分：

（1）Prefix-Query 表征增强模块（Prefix2Query Representation Enhancement）

（2）统一的 Enc-Dec 生成架构（Unified Encoder-Decoder Architecture）

（3）用户行为偏好对齐（User Preference Alignment）

1. Prefix-Query 表征增强模块

Sug 场景下，用户输入的前缀往往较短且意图模糊（如 “苹果” 可指水果或品牌）。为此，快手提出的解决方式分为 2 个部分。

语义与业务空间对齐：以 BGE 作为 base 模型，同时引入用户真实的 prefix2query、query2query 数据，使用对比学习对 BGE 进行微调，使其语义空间与快手电商的业务特征空间对齐。
层次化语义 ID 生成：在对齐语义空间的基础上，引入 RQ-VAE，为每个前缀和 Query 生成层次化的语义 ID。RQ-VAE 可将任意文本映射为离散的语义 ID，同时保证语义相近的 query 会被编码到相同的簇中。通过这种方式，对于任何一个用户输入的前缀，可以快速匹配到与其语义 ID 最接近的 top-K 个相关 query，作为增强上下文输入后续生成模型。

2. 统一的 Enc-Dec 生成架构

OneSug 的生成架构基于 Enc-Dec 结构，并直接通过自回归（Autoregressive）方式生成用户最有可能点击的 Query。

该模型的输入包含四个关键部分：

（1）用户当前输入前缀（如 “智能手机”）

（2）由 PRE 模块增强的相关查询序列（如 “智能手机性价比 2025”）

（3）用户历史行为序列（如过去搜索的 “蓝牙耳机”、“手机壳” 等）

（4）用户画像信息

输出即为模型生成的 Query 列表（如 “智能手机推荐 2025”、“智能手机性价比排行”）。

3. 用户行为偏好对齐（RWR）

3.1 用户偏好量化

3.2 混合排序框架奖励加权偏好优化

传统的 DPO 使用 < 正样本，负样本 > 对进行训练，但默认两者同等重要。这在业务场景中是不合理的，因为区分 “点击” 和 “曝光” 的难度远小于区分 “点击” 和 “随机负样本”。

RWR 的核心思想是根据正负样本之间的奖励差距，为不同的样本对赋予不同的学习权重。快手构建了九种类型的样本对（如

）。对于每一对样本，计算其奖励差异权重 rwΔ：

3.3 混合排序框架

为了克服传统 Pairwise 范式的 DPO 在全局排序能力上的局限性，快手引入了一种混合排序框架。该框架将 listwise 范式的排序损失和 point-wise 范式的 sft loss 进行混合，使得模型既能获得高效的排序能力，同时避免 reward hacking 造成的生成能力下降。

Pairwise 范式对齐模型，在包含多个负样本的候选中无法学习到 “哪个是最好的”。受 Plackett-Luce 模型启发，快手设计了 Listwise 排序损失，对于正样本，让模型同时拉大它与所有负样本的奖励差距，迫使模型不仅要知道正样本比负样本好，还要学会在负样本越多、越强的情况下，依然将正样本排在前面，从而直接优化列表的整体排序质量。

论文中分别提出了基于 Pairwise 和 ListWise 范式的混合排序框架，同时在理论上证明了 Pairwise 范式的对齐模型是 ListWise 的特殊情况。

三、实验结果

离线效果

在快手电商场景的大规模数据集上，OneSug 在 HR@16 和 MRR@16 指标上均显著优于传统多阶段系统与生成式基线模型。论文中同时提到，OneSug 不仅适用于 Enc-Dec 结构的生成式模型，Decode-only 架构的模型同样适用，且具有更高的离线指标，因为现阶段的推理耗时约束暂时没有进行在线实验。

在线 A/B

OneSug 模型目前已在快手电商搜索场景下全量推全。在 AB 实验中，OneSug 大幅度提高了 Ctr、订单和 GMV 等指标，同时人工测评 GSB 指标也有很大幅度的提升。

在线推理

线上流程完全取代了召回 - 粗排 - 精排，使平均耗时降低了 43.2%，为后续优化提供了充足的空间。

四、总结与展望

OneSug 是业界首个在电商场景中实现全流量部署的端到端生成式 Query 推荐系统，其统一建模方式显著提升了语义理解与个性化推荐的能力，为生成式模型在搜广推的落地提供了新范式。

未来，快手将进一步探索大语言模型在排序阶段的强化学习优化、实时更新等方向，持续推动端到端生成式系统在推荐、广告等多业务场景中的广泛应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.