推荐系统"秘密食谱"：如何让机器学会像人一样推荐你喜欢的东西|字母|序列|大模型

分享至

这是一项由中国中南大学、新加坡国立大学和Shopee公司的研究团队合作完成的研究，论文发表于2026年2月，论文编号为arXiv:2602.02338。有兴趣深入了解的读者可以通过这个编号查询完整论文。

一个问题引入的故事

你有没有想过，为什么打开购物软件时，系统总能推荐给你可能喜欢的商品？为什么音乐app似乎能读懂你的音乐品味？这背后其实隐藏着一套精妙的"推荐魔法"。不过，这套魔法目前存在一个有趣的悖论：现在大多数推荐系统都在学习如何用"语义"来理解商品——比如把"苹果"和"梨"归为水果，把"T恤"和"牛仔裤"归为衣服。但这样做有个问题：你买苹果的时候，其实不是因为苹果和梨在语义上相似，而是因为你正好想吃水果。这就像一个厨师只根据食材的化学成分来烹饪，而忽视了食客真正想吃什么一样。

这项研究就是来解决这个"秘密食谱"问题的。研究团队意识到，现在的推荐系统在构建所谓的"语义ID"时，其实在用一套设计不够巧妙的"食谱"。他们提出了一个全新的方法，叫做ReSID，核心理念是：与其盲目跟风使用大型AI模型来提取商品特征，不如直接从用户的真实购买行为和商品的结构化信息出发，设计一套专门为推荐而生的"食谱"。

二、为什么现在的"食谱"有问题

想象你在设计一个自动餐厅推荐系统。传统的做法是这样的：首先，你用一个高大上的通用"厨师助手"（比如大语言模型）来学习每道菜的特征——这个助手会分析菜名、菜的描述、食材清单等，然后给出一个"特征向量"，代表这道菜的本质。接着，你把这些特征向量用一个通用的"分类工具"（比如向量量化方法）压缩成离散的"编码"，最后用这些编码来训练推荐系统。

乍一看很合理，对不对？但问题就出在这里。

首先，那个通用的"厨师助手"是为了理解菜的语义而训练的。它会告诉你，红烧肉和卤蛋在语义上很接近（都是肉类制品，口味相似），但它不知道的是，用户A喜欢在一个人吃饭时点红烧肉，而在和朋友聚餐时才会点卤蛋。用户B则相反。这些"搭配规律"和"购买时机"对推荐来说其实更重要，但语义特征完全捕捉不到。这就像一个厨师只知道菜的营养成分，却不了解食客的口味偏好和用餐场景一样。

其次，即使你成功地用大语言模型学到了这些特征，后续的"分类工具"也不是按照推荐系统的实际需求来设计的。通常的做法是最小化"重建误差"，也就是说，最小化压缩过程中的信息损失。但对于推荐系统来说，这不是最重要的。最重要的是什么呢？是这些编码在做自动推荐时能不能"好用"。想象一个没有经验的咨询员在帮你推荐菜品——他一个字一个字地读出菜名编码，根据前面几个字母猜测后续的菜名。如果编码设计得不好，每说一个字母时都要考虑很多种可能，推荐就会变得很困难。但如果编码设计得精妙，前面的字母能极大地缩小后续的可能性，推荐就会很顺畅。现在的量化方法完全没有考虑这一点。

这就是研究团队发现的根本问题：现在的推荐系统在"做菜"时用的是一套通用的、优雅的食谱，但这套食谱根本不适合当前的"餐厅主题"。

三、ReSID的创新：重新设计"食谱"

研究团队的解决方案分成两个部分，就像烹饪中的"选材"和"烹饪技巧"一样。

**第一部分：重新学习商品特征（选材阶段）**

他们提出了一个叫做FAMAE的方法，全名是"字段感知的掩蔽自动编码"。这个名字听起来复杂，但核心思想其实很简单：与其用大语言模型去理解商品的语义，不如直接从推荐的目标出发。

具体怎么做呢？研究团队想象了这样一个场景：假设你是一个购物助手，用户告诉你他们之前买过什么，现在你要猜测他们接下来想买什么商品的某个属性。比如，用户说"我之前买了苹果、香蕉、面粉"，现在要猜"鸡蛋"的类别是什么。这时你可以依次猜测：类别是食品吗？品牌是什么？规格是什么？通过反复做这个猜测游戏，你对"商品特征"的理解就会变得非常实用，因为它必须能够预测用户的购买序列。这就是FAMAE的核心原理。

用信息论的语言来说，FAMAE学到的特征最大化了用户历史和商品特征之间的"互信息"，也就是说，这些特征包含了尽可能多的、与推荐相关的信息。而且，和大语言模型不同，FAMAE直接保留了商品各个属性字段的独立性——它不会把商品ID、类别、品牌等全部混杂在一个向量里，而是分别学习每个字段的特征。这样的好处是什么呢？这就像烹饪时分别调配主菜和配菜，最后再组合，而不是把所有食材混在一起搅成泥。这种方式更灵活，也更容易让推荐系统"理解"每个属性的含义。

**第二部分：重新设计编码方式（烹饪技巧阶段）**

现在你有了优质的"食材"（好的特征），接下来要做的是"烹饪"——把这些连续的向量压缩成离散的编码。这是最关键的一步，因为推荐系统最后要处理的就是这些离散编码。

研究团队发现，现在主要有两种做法，都有缺陷。

第一种方法是"重建驱动型"的量化方法，比如RQ-VAE。这类方法的目标是让重建的特征和原始特征尽可能接近，就像把一张照片压缩成JPG格式时，要尽量保留清晰度一样。但问题是，它们不考虑后续推荐时的实际需求。它们会在不同层级独立地分配编码，导致同一个编码在不同的"前缀"（也就是之前的编码序列）下代表的含义可能差别很大。这就像一个词在字典里只有一个定义，但在实际对话中会根据语境有不同的含义一样——推荐系统会很困惑。

第二种方法是"树形编码"的量化方法，比如分层K-均值。这类方法会按照一个树形结构来分配编码，使得前面的编码能够限制后续编码的可能性，这在逻辑上更接近推荐系统的工作方式。但问题是，每个父节点下的子节点编码是独立分配的，没有全局的一致性。这就像一棵树的每个分支都有自己的"编号系统"，导致同一个编码在不同分支下代表的东西完全不同——就像每间餐厅都用不同的菜单编号，顾客看到"15号菜"时完全不知道是什么一样。

研究团队提出的GAOQ方法（全局对齐正交量化）就是要在这两个极端之间找到完美的平衡。它结合了树形编码的"渐进式细化"优势，同时加入了全局的一致性约束。具体怎么做呢？

想象你在为一个连锁餐厅设计菜单编号系统。首先，你按照口味将所有菜品分成几大类——比如肉类、素菜、汤品等。接着，在每个大类下，你再根据烹饪方式细分——比如红烧、清蒸、炒制等。但这里的关键创新是：你不是在每个大类下独立编号，而是使用一套全局统一的"烹饪方式编码"。这样，顾客看到"红烧"这个编码时，无论是在肉类下还是素菜下，都代表同一种烹饪方式。这套编码系统是通过一个巧妙的数学技巧（匹配不同类别的质心到一组"正交参考方向"）来实现的。

这样做有什么好处呢？从推荐的角度来看，当推荐系统在生成编码时，前面的编码能够极大地限制后续编码的可能性，但每个编码本身都有清晰、一致的含义。这就像一个经验丰富的服务员，当他听到顾客说"我要一个红烧的"时，他立刻就能预测出接下来最可能是什么菜品，大大加快了推荐的速度和准确性。

四、如何衡量"食谱"的好坏

现在，研究团队设计了这套新的"食谱"，但怎样才能知道它是不是真的比原来的好呢？如果非要等到最后的推荐结果，才能判断，那就太慢了。所以，研究团队提出了两个"试吃指标"，可以提前判断"食谱"的质量。

第一个指标是"协作建模能力"。这个指标的核心想法是：如果你只知道用户的购买历史，不知道要推荐商品的任何信息，你能有多准确地预测这个商品的各个属性？比如，用户在"食品"类买了很多东西，现在要推荐一个商品，你能有多准确地预测它的品牌或规格？如果能预测得很准确，说明学到的特征包含了很强的"协作"信息——也就是说，它理解了用户的购买模式和商品的共现关系。

第二个指标是"判别语义和空间结构"。这个指标问的是：如果你知道一个商品的所有属性除了ID，你能有多准确地预测它的ID？这衡量的是特征空间是否保留了细粒度的、能够区分不同商品的信息。简单来说，就是在特征空间中，相似的商品是否聚集在一起，不同的商品是否被很好地区分开。

在实验中，研究团队发现，那些在这两个指标上表现都很好的特征学习方法，最后的推荐效果也都很好。这就像一个食品检验员，通过两个简单的指标（口感和外观）就能预测一道菜最后的受欢迎程度一样。

五、实验验证：与其他方法的对比

研究团队在十个真实的购物数据集上进行了大规模的实验。这些数据集包括音乐器材、电子游戏、工业用品、婴儿产品等各个品类。

他们将ReSID与三类主要的对标方法进行了对比。第一类是传统的"序列推荐模型"，这些模型只使用商品ID来预测下一步会买什么。第二类是在第一类基础上加入商品属性信息的增强版本，这样可以对传统方法进行更公平的评估。第三类是最近提出的"生成式推荐方法"，这些方法也使用语义ID，但采用的是之前讨论过的那些"有缺陷的食谱"。

结果如何呢？令人瞩目。ReSID不仅超越了所有的生成式推荐方法，甚至超越了加入了商品属性的传统推荐模型。这意味着什么呢？这意味着，即使你给传统模型加上更多的信息，让它们站在同一起跑线上，ReSID通过更巧妙的"食谱"设计，仍然能做得更好。这就像，即使你给所有厨师同样的食材和工具，一位经验丰富的大厨仍然能做出最美味的菜肴。

具体的数字怎样呢？平均而言，ReSID在推荐准确度上比最好的对标方法提高了超过10%。有些数据集上的提升甚至达到了20%多。这对于一个已经被研究多年的问题来说，是一个相当显著的进步。

而且，有一个让人惊喜的地方是速度。ReSID的编码生成速度比之前最快的生成式推荐方法快了100多倍！这是因为GAOQ不需要像RQ-VAE那样通过多轮迭代优化，而是直接通过聚类和匹配就能完成。这就像，同样是做一道菜，一个方法需要精心调火候反复调味，而另一个方法的步骤更直接有效，所以做出来用时更短。

六、一个有趣的发现：端到端学习的陷阱

在实验过程中，研究团队还发现了一个有趣的现象。有一种方法叫ETEGRec，它试图通过直接在推荐任务上优化SID编码的生成，来实现"端到端"的学习。理论上，这应该能给出最优的编码方案，因为编码的每一个环节都在为最终的推荐目标努力。

但实际上，ETEGRec的表现反而比ReSID差了不少！这是为什么呢？

根据研究团队的分析，原因在于推荐系统的一个根本特性：编码的质量既是推荐系统的输入，也会间接影响优化目标。简单来说，就像一个学生同时身兼多职——他既是职员（要完成工作），又是评委（要判断工作质量），还是项目经理（要规划工作流程）。这些角色之间难免会产生冲突和干扰。当你试图直接优化最终的推荐效果时，编码的生成过程反而会变得不稳定，因为它需要同时满足太多相互竞争的目标。而ReSID的方法是把这个复杂的多角色问题分解成两个简单的单一目标问题：首先设计最适合推荐的特征（字段感知掩蔽自编码），然后设计最适合推荐的编码（全局对齐正交量化）。每个阶段都有明确的目标，不会互相干扰。结果反而更好。

这让研究团队得出了一个有趣的结论：在机器学习中，有时候"解耦"——把一个大问题分成几个相对独立的小问题——反而比试图"一口吃成一个胖子"更有效。这就像烹饪中的道理：如果你试图同时控制火候、调味、摆盘，可能会手忙脚乱。但如果你先把菜炒好，再单独处理调味，最后再摆盘，反而会做得更好。

七、为什么这项研究对实际应用很重要

你可能会想，这些理论上的改进和速度的提升，对我这样的普通用户意味着什么呢？

首先，推荐准确度提高10%以上。这不是一个可以忽视的数字。对于像亚马逊这样的大型电商平台来说，即使是1%的准确度提升，都可能意味着数百万美元的额外利润。但从用户的角度，这意味着你打开购物app时，系统推荐给你的东西会更符合你的真实需求，而不是基于某个模糊的"语义相似度"。你会花更少的时间滑动寻找感兴趣的商品，能更快地找到你真正想买的东西。

其次，计算效率提高100多倍。这对大型互联网公司来说，意味着可以用更便宜的硬件部署这套系统，或者用相同的硬件为更多用户服务。最终，这些成本的节省会某种程度上传导给用户，可能表现为更便宜的商品价格或更快的推荐速度。

再次，这套方法不需要依赖大型的预训练语言模型。现在，很多推荐系统都依赖于像GPT这样的大型模型。这意味着什么呢？这意味着系统容易出现"黑箱问题"——没人知道推荐背后的真实逻辑。而且，这些大型模型的计算代价极高，需要专门的GPU服务器。ReSID的方法完全不同。它直接从结构化的商品信息学习，没有黑箱，逻辑清晰，计算代价也低得多。这对于那些无法承担大型模型成本的中小型企业来说，是一个巨大的福音。他们现在也能拥有一个和大型科技公司差不多效果的推荐系统。

八、这套"食谱"的局限与未来

当然，任何研究都不是完美的，ReSID也有一些需要改进的地方。

首先，虽然FAMAE提供了一套好的指标来评估特征的质量，但GAOQ目前还没有类似的"试吃指标"。这意味着，如果你想改进编码的方式，还需要靠最后的推荐结果来判断，无法提前预知。这对于快速迭代和改进不是特别方便。

其次，虽然ReSID比之前的方法快很多，但和传统的序列推荐模型相比，生成式推荐模型本身的训练和推理速度仍然会慢一些。这是因为生成式模型需要一个字接一个字地预测编码，而传统模型可以一次性预测。所以，在对实时性要求非常高的场景中，ReSID仍然可能不是最优选择。

最后，这项研究主要关注的是在有结构化属性信息的场景下的推荐。如果你的商品几乎没有属性信息（比如新上架的商品），或者属性信息非常嘈杂和不规范，ReSID的优势可能会被削弱。

尽管有这些局限，研究团队已经在思考如何突破这些限制。下一步的方向可能包括为GAOQ设计类似的"试吃指标"，进一步加速生成式推荐的推理过程，以及探索如何处理不规范或缺失的属性信息等。

九、"食谱"的哲学思考

在深入了解这项研究后，你可能会想到一个更深层的问题：为什么一个设计得更针对目标任务的方法，反而会比一个更通用的、看起来更"聪明"的方法（比如使用大语言模型）表现得更好呢？

这其实反映了机器学习中的一个古老的智慧：没有绝对的最优解，只有相对于特定任务的最优解。一个在语义理解上表现杰出的模型，未必在推荐这个具体任务上最优。就像一个通才型的人，虽然什么都会一点，但不一定比专业人士更出色。ReSID的哲学就是"术业有专攻"——专门为推荐这个任务设计一套方法，结果反而出现了更好的效果。

这对我们的日常思考也有启发。有时候，我们试图用一个通用的、看起来很强大的工具来解决所有问题。但往往，针对特定问题设计的简单工具，会给出更好的结果。这就像，用瑞士军刀可以做很多事，但如果你要切蛋糕，还是用一把专业的蛋糕刀更好。

同样，这项研究也暗示了AI发展的一个可能方向：也许我们不需要一个无所不能的超大模型，而是需要很多个小而精的、针对不同任务优化的专用模型。这样不仅能获得更好的效果，还能降低成本、提高可解释性，何乐而不为呢？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.