![]()
这是一项由中国中南大学、新加坡国立大学和Shopee公司的研究团队合作完成的研究,论文发表于2026年2月,论文编号为arXiv:2602.02338。有兴趣深入了解的读者可以通过这个编号查询完整论文。
一个问题引入的故事
你有没有想过,为什么打开购物软件时,系统总能推荐给你可能喜欢的商品?为什么音乐app似乎能读懂你的音乐品味?这背后其实隐藏着一套精妙的"推荐魔法"。不过,这套魔法目前存在一个有趣的悖论:现在大多数推荐系统都在学习如何用"语义"来理解商品——比如把"苹果"和"梨"归为水果,把"T恤"和"牛仔裤"归为衣服。但这样做有个问题:你买苹果的时候,其实不是因为苹果和梨在语义上相似,而是因为你正好想吃水果。这就像一个厨师只根据食材的化学成分来烹饪,而忽视了食客真正想吃什么一样。
这项研究就是来解决这个"秘密食谱"问题的。研究团队意识到,现在的推荐系统在构建所谓的"语义ID"时,其实在用一套设计不够巧妙的"食谱"。他们提出了一个全新的方法,叫做ReSID,核心理念是:与其盲目跟风使用大型AI模型来提取商品特征,不如直接从用户的真实购买行为和商品的结构化信息出发,设计一套专门为推荐而生的"食谱"。
二、为什么现在的"食谱"有问题
想象你在设计一个自动餐厅推荐系统。传统的做法是这样的:首先,你用一个高大上的通用"厨师助手"(比如大语言模型)来学习每道菜的特征——这个助手会分析菜名、菜的描述、食材清单等,然后给出一个"特征向量",代表这道菜的本质。接着,你把这些特征向量用一个通用的"分类工具"(比如向量量化方法)压缩成离散的"编码",最后用这些编码来训练推荐系统。
乍一看很合理,对不对?但问题就出在这里。
首先,那个通用的"厨师助手"是为了理解菜的语义而训练的。它会告诉你,红烧肉和卤蛋在语义上很接近(都是肉类制品,口味相似),但它不知道的是,用户A喜欢在一个人吃饭时点红烧肉,而在和朋友聚餐时才会点卤蛋。用户B则相反。这些"搭配规律"和"购买时机"对推荐来说其实更重要,但语义特征完全捕捉不到。这就像一个厨师只知道菜的营养成分,却不了解食客的口味偏好和用餐场景一样。
其次,即使你成功地用大语言模型学到了这些特征,后续的"分类工具"也不是按照推荐系统的实际需求来设计的。通常的做法是最小化"重建误差",也就是说,最小化压缩过程中的信息损失。但对于推荐系统来说,这不是最重要的。最重要的是什么呢?是这些编码在做自动推荐时能不能"好用"。想象一个没有经验的咨询员在帮你推荐菜品——他一个字一个字地读出菜名编码,根据前面几个字母猜测后续的菜名。如果编码设计得不好,每说一个字母时都要考虑很多种可能,推荐就会变得很困难。但如果编码设计得精妙,前面的字母能极大地缩小后续的可能性,推荐就会很顺畅。现在的量化方法完全没有考虑这一点。
这就是研究团队发现的根本问题:现在的推荐系统在"做菜"时用的是一套通用的、优雅的食谱,但这套食谱根本不适合当前的"餐厅主题"。
三、ReSID的创新:重新设计"食谱"
研究团队的解决方案分成两个部分,就像烹饪中的"选材"和"烹饪技巧"一样。
**第一部分:重新学习商品特征(选材阶段)**
他们提出了一个叫做FAMAE的方法,全名是"字段感知的掩蔽自动编码"。这个名字听起来复杂,但核心思想其实很简单:与其用大语言模型去理解商品的语义,不如直接从推荐的目标出发。
具体怎么做呢?研究团队想象了这样一个场景:假设你是一个购物助手,用户告诉你他们之前买过什么,现在你要猜测他们接下来想买什么商品的某个属性。比如,用户说"我之前买了苹果、香蕉、面粉",现在要猜"鸡蛋"的类别是什么。这时你可以依次猜测:类别是食品吗?品牌是什么?规格是什么?通过反复做这个猜测游戏,你对"商品特征"的理解就会变得非常实用,因为它必须能够预测用户的购买序列。这就是FAMAE的核心原理。
用信息论的语言来说,FAMAE学到的特征最大化了用户历史和商品特征之间的"互信息",也就是说,这些特征包含了尽可能多的、与推荐相关的信息。而且,和大语言模型不同,FAMAE直接保留了商品各个属性字段的独立性——它不会把商品ID、类别、品牌等全部混杂在一个向量里,而是分别学习每个字段的特征。这样的好处是什么呢?这就像烹饪时分别调配主菜和配菜,最后再组合,而不是把所有食材混在一起搅成泥。这种方式更灵活,也更容易让推荐系统"理解"每个属性的含义。
**第二部分:重新设计编码方式(烹饪技巧阶段)**
现在你有了优质的"食材"(好的特征),接下来要做的是"烹饪"——把这些连续的向量压缩成离散的编码。这是最关键的一步,因为推荐系统最后要处理的就是这些离散编码。
研究团队发现,现在主要有两种做法,都有缺陷。
第一种方法是"重建驱动型"的量化方法,比如RQ-VAE。这类方法的目标是让重建的特征和原始特征尽可能接近,就像把一张照片压缩成JPG格式时,要尽量保留清晰度一样。但问题是,它们不考虑后续推荐时的实际需求。它们会在不同层级独立地分配编码,导致同一个编码在不同的"前缀"(也就是之前的编码序列)下代表的含义可能差别很大。这就像一个词在字典里只有一个定义,但在实际对话中会根据语境有不同的含义一样——推荐系统会很困惑。
第二种方法是"树形编码"的量化方法,比如分层K-均值。这类方法会按照一个树形结构来分配编码,使得前面的编码能够限制后续编码的可能性,这在逻辑上更接近推荐系统的工作方式。但问题是,每个父节点下的子节点编码是独立分配的,没有全局的一致性。这就像一棵树的每个分支都有自己的"编号系统",导致同一个编码在不同分支下代表的东西完全不同——就像每间餐厅都用不同的菜单编号,顾客看到"15号菜"时完全不知道是什么一样。
研究团队提出的GAOQ方法(全局对齐正交量化)就是要在这两个极端之间找到完美的平衡。它结合了树形编码的"渐进式细化"优势,同时加入了全局的一致性约束。具体怎么做呢?
想象你在为一个连锁餐厅设计菜单编号系统。首先,你按照口味将所有菜品分成几大类——比如肉类、素菜、汤品等。接着,在每个大类下,你再根据烹饪方式细分——比如红烧、清蒸、炒制等。但这里的关键创新是:你不是在每个大类下独立编号,而是使用一套全局统一的"烹饪方式编码"。这样,顾客看到"红烧"这个编码时,无论是在肉类下还是素菜下,都代表同一种烹饪方式。这套编码系统是通过一个巧妙的数学技巧(匹配不同类别的质心到一组"正交参考方向")来实现的。
这样做有什么好处呢?从推荐的角度来看,当推荐系统在生成编码时,前面的编码能够极大地限制后续编码的可能性,但每个编码本身都有清晰、一致的含义。这就像一个经验丰富的服务员,当他听到顾客说"我要一个红烧的"时,他立刻就能预测出接下来最可能是什么菜品,大大加快了推荐的速度和准确性。
四、如何衡量"食谱"的好坏
现在,研究团队设计了这套新的"食谱",但怎样才能知道它是不是真的比原来的好呢?如果非要等到最后的推荐结果,才能判断,那就太慢了。所以,研究团队提出了两个"试吃指标",可以提前判断"食谱"的质量。
第一个指标是"协作建模能力"。这个指标的核心想法是:如果你只知道用户的购买历史,不知道要推荐商品的任何信息,你能有多准确地预测这个商品的各个属性?比如,用户在"食品"类买了很多东西,现在要推荐一个商品,你能有多准确地预测它的品牌或规格?如果能预测得很准确,说明学到的特征包含了很强的"协作"信息——也就是说,它理解了用户的购买模式和商品的共现关系。
第二个指标是"判别语义和空间结构"。这个指标问的是:如果你知道一个商品的所有属性除了ID,你能有多准确地预测它的ID?这衡量的是特征空间是否保留了细粒度的、能够区分不同商品的信息。简单来说,就是在特征空间中,相似的商品是否聚集在一起,不同的商品是否被很好地区分开。
在实验中,研究团队发现,那些在这两个指标上表现都很好的特征学习方法,最后的推荐效果也都很好。这就像一个食品检验员,通过两个简单的指标(口感和外观)就能预测一道菜最后的受欢迎程度一样。
五、实验验证:与其他方法的对比
研究团队在十个真实的购物数据集上进行了大规模的实验。这些数据集包括音乐器材、电子游戏、工业用品、婴儿产品等各个品类。
他们将ReSID与三类主要的对标方法进行了对比。第一类是传统的"序列推荐模型",这些模型只使用商品ID来预测下一步会买什么。第二类是在第一类基础上加入商品属性信息的增强版本,这样可以对传统方法进行更公平的评估。第三类是最近提出的"生成式推荐方法",这些方法也使用语义ID,但采用的是之前讨论过的那些"有缺陷的食谱"。
结果如何呢?令人瞩目。ReSID不仅超越了所有的生成式推荐方法,甚至超越了加入了商品属性的传统推荐模型。这意味着什么呢?这意味着,即使你给传统模型加上更多的信息,让它们站在同一起跑线上,ReSID通过更巧妙的"食谱"设计,仍然能做得更好。这就像,即使你给所有厨师同样的食材和工具,一位经验丰富的大厨仍然能做出最美味的菜肴。
具体的数字怎样呢?平均而言,ReSID在推荐准确度上比最好的对标方法提高了超过10%。有些数据集上的提升甚至达到了20%多。这对于一个已经被研究多年的问题来说,是一个相当显著的进步。
而且,有一个让人惊喜的地方是速度。ReSID的编码生成速度比之前最快的生成式推荐方法快了100多倍!这是因为GAOQ不需要像RQ-VAE那样通过多轮迭代优化,而是直接通过聚类和匹配就能完成。这就像,同样是做一道菜,一个方法需要精心调火候反复调味,而另一个方法的步骤更直接有效,所以做出来用时更短。
六、一个有趣的发现:端到端学习的陷阱
在实验过程中,研究团队还发现了一个有趣的现象。有一种方法叫ETEGRec,它试图通过直接在推荐任务上优化SID编码的生成,来实现"端到端"的学习。理论上,这应该能给出最优的编码方案,因为编码的每一个环节都在为最终的推荐目标努力。
但实际上,ETEGRec的表现反而比ReSID差了不少!这是为什么呢?
根据研究团队的分析,原因在于推荐系统的一个根本特性:编码的质量既是推荐系统的输入,也会间接影响优化目标。简单来说,就像一个学生同时身兼多职——他既是职员(要完成工作),又是评委(要判断工作质量),还是项目经理(要规划工作流程)。这些角色之间难免会产生冲突和干扰。当你试图直接优化最终的推荐效果时,编码的生成过程反而会变得不稳定,因为它需要同时满足太多相互竞争的目标。而ReSID的方法是把这个复杂的多角色问题分解成两个简单的单一目标问题:首先设计最适合推荐的特征(字段感知掩蔽自编码),然后设计最适合推荐的编码(全局对齐正交量化)。每个阶段都有明确的目标,不会互相干扰。结果反而更好。
这让研究团队得出了一个有趣的结论:在机器学习中,有时候"解耦"——把一个大问题分成几个相对独立的小问题——反而比试图"一口吃成一个胖子"更有效。这就像烹饪中的道理:如果你试图同时控制火候、调味、摆盘,可能会手忙脚乱。但如果你先把菜炒好,再单独处理调味,最后再摆盘,反而会做得更好。
七、为什么这项研究对实际应用很重要
你可能会想,这些理论上的改进和速度的提升,对我这样的普通用户意味着什么呢?
首先,推荐准确度提高10%以上。这不是一个可以忽视的数字。对于像亚马逊这样的大型电商平台来说,即使是1%的准确度提升,都可能意味着数百万美元的额外利润。但从用户的角度,这意味着你打开购物app时,系统推荐给你的东西会更符合你的真实需求,而不是基于某个模糊的"语义相似度"。你会花更少的时间滑动寻找感兴趣的商品,能更快地找到你真正想买的东西。
其次,计算效率提高100多倍。这对大型互联网公司来说,意味着可以用更便宜的硬件部署这套系统,或者用相同的硬件为更多用户服务。最终,这些成本的节省会某种程度上传导给用户,可能表现为更便宜的商品价格或更快的推荐速度。
再次,这套方法不需要依赖大型的预训练语言模型。现在,很多推荐系统都依赖于像GPT这样的大型模型。这意味着什么呢?这意味着系统容易出现"黑箱问题"——没人知道推荐背后的真实逻辑。而且,这些大型模型的计算代价极高,需要专门的GPU服务器。ReSID的方法完全不同。它直接从结构化的商品信息学习,没有黑箱,逻辑清晰,计算代价也低得多。这对于那些无法承担大型模型成本的中小型企业来说,是一个巨大的福音。他们现在也能拥有一个和大型科技公司差不多效果的推荐系统。
八、这套"食谱"的局限与未来
当然,任何研究都不是完美的,ReSID也有一些需要改进的地方。
首先,虽然FAMAE提供了一套好的指标来评估特征的质量,但GAOQ目前还没有类似的"试吃指标"。这意味着,如果你想改进编码的方式,还需要靠最后的推荐结果来判断,无法提前预知。这对于快速迭代和改进不是特别方便。
其次,虽然ReSID比之前的方法快很多,但和传统的序列推荐模型相比,生成式推荐模型本身的训练和推理速度仍然会慢一些。这是因为生成式模型需要一个字接一个字地预测编码,而传统模型可以一次性预测。所以,在对实时性要求非常高的场景中,ReSID仍然可能不是最优选择。
最后,这项研究主要关注的是在有结构化属性信息的场景下的推荐。如果你的商品几乎没有属性信息(比如新上架的商品),或者属性信息非常嘈杂和不规范,ReSID的优势可能会被削弱。
尽管有这些局限,研究团队已经在思考如何突破这些限制。下一步的方向可能包括为GAOQ设计类似的"试吃指标",进一步加速生成式推荐的推理过程,以及探索如何处理不规范或缺失的属性信息等。
九、"食谱"的哲学思考
在深入了解这项研究后,你可能会想到一个更深层的问题:为什么一个设计得更针对目标任务的方法,反而会比一个更通用的、看起来更"聪明"的方法(比如使用大语言模型)表现得更好呢?
这其实反映了机器学习中的一个古老的智慧:没有绝对的最优解,只有相对于特定任务的最优解。一个在语义理解上表现杰出的模型,未必在推荐这个具体任务上最优。就像一个通才型的人,虽然什么都会一点,但不一定比专业人士更出色。ReSID的哲学就是"术业有专攻"——专门为推荐这个任务设计一套方法,结果反而出现了更好的效果。
这对我们的日常思考也有启发。有时候,我们试图用一个通用的、看起来很强大的工具来解决所有问题。但往往,针对特定问题设计的简单工具,会给出更好的结果。这就像,用瑞士军刀可以做很多事,但如果你要切蛋糕,还是用一把专业的蛋糕刀更好。
同样,这项研究也暗示了AI发展的一个可能方向:也许我们不需要一个无所不能的超大模型,而是需要很多个小而精的、针对不同任务优化的专用模型。这样不仅能获得更好的效果,还能降低成本、提高可解释性,何乐而不为呢?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.