"三思而后行"：中国人民大学发现让AI推荐更聪明的新方法|算法|推理|原理|大模型

分享至

"三思而后行"：中国人民大学发现让AI推荐更聪明的新方法

至顶科技

这项由中国人民大学高瓴人工智能学院的唐佳凯、代孙豪、石腾、徐君、陈旭等研究人员，以及阿里巴巴集团陈雨、吴健、蒋雨宁等研究人员合作完成的研究发表于2025年的国际会议。有兴趣深入了解的读者可以通过论文标题"Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation"搜索获取完整论文。

当你在淘宝上购物或在抖音上刷视频时，背后的推荐系统就像一个超级导购员，它需要根据你过去的行为来猜测你接下来可能想要什么。然而，目前大多数推荐系统都有一个共同问题：它们做决定时太过"急躁"，就像一个没有经验的销售员，一看到顾客就急忙推销，而不是先仔细观察顾客的需求。

传统的推荐系统工作方式就像流水线一样简单粗暴：收集用户数据，直接扔给算法，立刻输出推荐结果。这种"一步到位"的方式虽然快速，但往往缺乏深度思考，特别是在面对那些使用频率不高的用户或者不太热门的商品时，推荐效果往往差强人意。

中国人民大学的研究团队敏锐地发现了这个问题。他们从人工智能语言模型的成功经验中获得灵感——那些最聪明的AI之所以能解决复杂问题，是因为它们会在给出答案前进行"思考"，类似于我们做数学题时会先在草稿纸上演算一番。研究团队想到：为什么不让推荐系统也学会"三思而后行"呢？

于是，他们开发了一个名为ReaRec的全新推荐框架。这个名字来源于"Reasoning-enhanced Recommendation"，意思是"推理增强的推荐系统"。ReaRec的核心理念就像一个经验丰富的销售顾问：在向顾客推荐商品之前，先在心里反复琢磨顾客的真实需求，考虑各种可能性，然后才给出最终建议。

具体来说，ReaRec让推荐系统在做决定时不再是"一锤定音"，而是进行多轮内在思考。就好比一个厨师在设计菜单时，不会看一眼客人就直接上菜，而是会考虑客人的口味偏好、饮食习惯、当天心情等多个因素，在脑海中反复权衡后才确定最合适的菜品。

研究团队在五个真实数据集上测试了他们的方法，包括美国点评网站Yelp和亚马逊购物平台的数据。实验结果令人振奋：ReaRec相比传统方法平均提升了7.49%的推荐准确率，而额外增加的计算时间仅为3.51%。更让人惊喜的是，当研究人员分析ReaRec的理论上限时发现，这种"思考"机制最多可以将现有推荐系统的性能提升30%到50%。

一、推荐系统的"快思考"与"慢思考"

要理解ReaRec的创新之处，我们先来看看传统推荐系统是如何工作的。想象你走进一家书店，店员看到你拿起一本科幻小说，立刻就向你推荐另一本科幻书。这种推荐方式虽然简单直接，但缺乏深度分析。也许你只是随手翻翻，真正感兴趣的其实是历史类书籍。

传统的序列推荐系统就是这样工作的：它们收集用户的历史行为数据，比如你浏览过哪些商品、点击过哪些链接、购买过什么东西，然后将这些信息输入一个神经网络模型。这个模型会快速处理这些数据，直接输出一个推荐列表。整个过程就像一条高速运转的生产线，效率很高，但缺乏灵活性和深度思考。

心理学家丹尼尔·卡尼曼提出过"快思考"和"慢思考"的概念。快思考是直觉性的、自动化的，就像看到2+2立刻想到4。慢思考则需要更多注意力和时间，比如计算17×24这样的乘法题。传统推荐系统采用的就是"快思考"模式，而ReaRec引入的是"慢思考"机制。

ReaRec的工作原理就像一个经验丰富的个人购物顾问。当你告诉这个顾问你的购物历史后，他不会立刻给出建议，而是会在心里进行一番思考：你最近的购买模式有什么变化？你的兴趣偏好是否在转移？季节因素会不会影响你的需求？经过这样的深度分析后，顾问才会给出精心考虑的推荐。

具体来说，ReaRec在传统推荐系统的基础上增加了一个"推理阶段"。在这个阶段，系统会将初步的用户表示反复送回模型中进行多轮处理，每一轮都会产生更精细的用户兴趣理解。这就像画家画肖像时，不会一笔画成，而是先打草稿，然后一层层添加细节，直到形神兼备。

研究团队还巧妙地解决了一个技术难题：如何让系统区分"理解用户历史行为"和"推理用户未来需求"这两个不同的任务。他们设计了特殊的"推理位置编码"，就像给不同类型的思考贴上不同颜色的标签，确保系统在处理时不会混淆。

这种多步推理机制特别适合处理那些复杂的推荐场景。比如，对于那些很少使用APP的用户，传统系统往往因为数据不足而推荐效果很差。但ReaRec通过深度推理，能够从有限的数据中挖掘出更多潜在信息，就像一个经验丰富的医生能从少量症状中做出准确诊断一样。

二、两种"思考训练法"让推荐更精准

虽然给推荐系统增加"思考时间"听起来不错，但实际操作中会遇到一个棘手问题：系统在多轮思考过程中可能会"走偏"，就像一个人想事情时越想越复杂，最后偏离了原来的目标。为了解决这个问题，研究团队开发了两套训练方法，就像为推荐系统配备了两种不同风格的"思维训练教练"。

第一种方法叫做"集成推理学习"（ERL），它的工作原理就像培养一个多面手专家。传统方法只看重最终结果，就像只关心学生的期末考试成绩，而忽略了平时的学习表现。ERL则不同，它关注推理过程中每一步的表现，就像一个负责任的老师会关注学生每次作业和小测验的情况。

在ERL方法中，系统的每一轮思考都会产生一个推荐结果，研究团队会评估每一轮的准确性。这样做的好处是让系统在学习过程中获得更多指导信号，就像学钢琴时老师不仅纠正你弹完整首曲子后的问题，还会随时纠正你每个音符的错误。

但是，如果只是简单地要求每一轮思考都给出好的推荐，系统可能会偷懒，直接复制前一轮的结果。这就像学生应付作业时直接抄袭一样。为了防止这种"偷懒"行为，研究团队引入了一个巧妙的"多样性约束"机制。

这个多样性约束就像要求学生写作文时不能重复使用相同的词汇和句式。系统被要求在不同的推理步骤中产生不同的推荐分布，这样就能确保每一轮思考都能带来新的insights。具体来说，研究团队使用了KL散度这个数学工具来衡量不同推理步骤之间的差异程度，并将这种差异作为学习目标的一部分。

第二种方法叫做"渐进推理学习"（PRL），它采用了完全不同的策略，灵感来源于人类学习的规律。就像我们学习任何技能时都是从易到难、循序渐进的，PRL让推荐系统也遵循这样的学习路径。

PRL的核心机制是"渐进温度退火"。这个概念借鉴了物理学中金属退火的过程：在高温时金属分子运动剧烈，结构相对松散；随着温度逐渐降低，分子运动趋于平静，最终形成稳定的晶体结构。在推荐系统中，"温度"控制着预测分布的"尖锐程度"。

在推理的早期阶段，系统使用较高的"温度"，这时的推荐分布比较平缓，就像一个人刚开始思考问题时会考虑很多可能性。随着推理步骤的进行，"温度"逐渐降低，推荐分布变得越来越集中，就像思考逐渐聚焦到最可能的答案上。这种机制确保了系统在推理过程中既有探索性又有收敛性。

此外，PRL还引入了"推理感知对比学习"来增强系统的鲁棒性。这个机制的工作原理就像让学生在嘈杂环境中练习听力：研究团队会故意在推理过程中加入一些"噪音"（随机扰动），然后训练系统学会从这些干扰中恢复正确的推理路径。这样训练出来的系统更加稳定，不容易被意外情况影响。

对比学习的具体做法是：对于每一个推理步骤，系统都会产生一个"干净版本"和一个"噪音版本"的结果。系统被训练成让这两个版本尽可能相似，同时与其他无关的推理状态保持距离。这就像训练一个人在不同环境下都能保持一致的判断能力。

这两种训练方法各有优势：ERL像一个严格的全科老师，关注每个细节并要求创新思维；PRL像一个循循善诱的导师，引导系统按照合理的认知规律逐步深入。实验结果显示，这两种方法都能显著提升推荐系统的性能，研究团队建议根据具体应用场景选择合适的训练策略。

三、真实世界的测试：五大平台验证新方法

为了验证ReaRec的实际效果，研究团队选择了五个来自真实世界的数据集进行测试，就像药物需要经过多期临床试验才能确定疗效一样。这些数据集涵盖了不同类型的平台和用户行为模式，确保了实验结果的广泛适用性。

首先是美国著名的点评网站Yelp的数据。Yelp就像中国的大众点评，用户会在上面搜索和评价餐厅、商店等本地服务。研究团队使用了包含13,083个用户和10,697个商家的数据，每个用户平均有33.92次交互记录。这个数据集的特点是用户行为相对密集，为测试系统处理丰富行为序列的能力提供了理想条件。

接下来是四个来自亚马逊2023年数据集的子集，分别代表不同的商品类别：视频游戏、软件、音乐CD和婴儿用品。这些数据集就像四个不同风格的商店，有着完全不同的用户群体和消费模式。比如，视频游戏数据集包含89,021个用户和22,933款游戏，用户行为相对稀疏（平均每人5.96次交互）；而婴儿用品数据集规模最大，有140,292个用户和30,689种商品，反映了母婴市场的活跃程度。

研究团队不仅测试了ReaRec在不同数据集上的表现，还验证了它与不同类型基础模型的兼容性。他们选择了四个代表性的推荐系统作为"底座"：SASRec、BERT4Rec、UniSRec和MoRec。这就像测试一种新的发动机优化技术是否适用于不同品牌的汽车。

SASRec和BERT4Rec代表传统的ID based方法，它们将每个商品看作一个独特的编号，通过学习这些编号之间的关系来做推荐。UniSRec和MoRec则代表更先进的文本based方法，它们会分析商品的描述、标题等文字信息，就像一个能读懂商品说明书的智能导购。

实验结果相当令人振奋。在所有测试场景中，加入ReaRec的系统都显著优于原始版本。以SASRec为例，在Yelp数据集上，使用PRL方法的版本在NDCG@20指标上提升了9.07%，在Recall@20上提升了9.74%。这些看似不大的百分比提升在推荐系统领域其实是相当可观的成就，因为成熟的推荐算法已经经过多年优化，想要获得明显提升变得越来越困难。

更令人惊喜的发现是ReaRec对不同用户群体的差异化效果。研究团队将用户按照活跃程度分成四组，发现ReaRec对那些使用频率较低的用户帮助最大。这就像一个经验丰富的销售员特别擅长服务那些不太熟悉产品的新客户。对于那些历史交互记录较少的用户，传统推荐系统往往束手无策，但ReaRec通过深度推理能够从有限信息中挖掘出更多价值。

同样，在商品层面的分析也很有趣。研究团队按照商品的受欢迎程度将它们分成四类，发现ReaRec对那些不太热门的商品推荐效果提升更加明显。这对电商平台来说特别有价值，因为推广长尾商品不仅能增加收入多样性，还能更好地满足用户的个性化需求。

效率方面的测试结果也很让人满意。虽然ReaRec需要进行多轮推理，但由于采用了先进的KV缓存技术，额外的计算开销控制在可接受范围内。以两步推理为例，时间成本仅增加3.51%，这对于7.49%的性能提升来说是非常划算的投资。

四、深入分析：为什么"慢思考"更有效

为了更深入地理解ReaRec的工作机制，研究团队进行了一系列精巧的分析实验，就像医生不仅要知道药物有效，还要明白它为什么有效、如何发挥作用。

最有趣的发现之一是推理步数对不同用户群体的差异化影响。研究团队发现，对于那些历史行为记录较少的用户（比如新用户或不活跃用户），增加推理步数能持续改善推荐效果。这些用户就像谜题信息不足的案件，需要更多的推理时间才能找到正确答案。

相比之下，对于那些使用频繁、行为模式已经很清晰的活跃用户，过多的推理步骤反而可能导致性能下降。这种现象被研究团队称为"过度思考"问题，就像解答简单数学题时，想得太复杂反而容易出错。这个发现提示未来的推荐系统应该根据用户特征动态调整推理深度。

在商品层面，研究团队也观察到了类似的模式。对于那些不太热门的商品，多步推理能够帮助系统发现它们与用户兴趣的潜在关联。而对于已经非常流行的商品，它们的推荐模式相对固定，额外的推理可能无法带来显著价值。

为了验证推理过程的合理性，研究团队设计了一个巧妙的可视化实验。他们分析了系统在不同推理步骤中产生的用户表示，发现这些表示确实在逐步演化，而不是简单的重复。就像观察一个人思考问题时的表情变化，可以看出他的思路在不断深入。

特别有意思的是，研究团队发现如果去掉他们设计的多样性约束机制，系统确实会出现"偷懒"现象——不同推理步骤产生的结果高度相似。这证明了他们的约束机制确实发挥了预期作用，迫使系统在每个推理步骤中产生新的insights。

在一个具体的案例研究中，研究团队展示了ReaRec如何逐步精化推荐结果。一个用户之前购买了《光环》系列游戏和相关配件，系统在第一步推理时推荐了另一款射击游戏《沙漠风暴》，这个推荐虽然类型正确但时效性不佳。第二步推理时，系统注意到用户最近购买了很多游戏配件，于是推荐了游戏手柄。第三步推理综合考虑了用户的游戏偏好和时效性，最终推荐了新发布的《生化危机2》，这个推荐在类型、时效性和多样性方面都表现优秀。

研究团队还分析了不同超参数对系统性能的影响。在PRL方法中，温度参数的设置需要精心调节：过高的初始温度会让系统在早期推理时过于发散，过低则限制了探索空间；温度衰减速度也很关键，衰减太快会让系统来不及充分探索，太慢则影响最终结果的精确性。

这些深入分析不仅验证了ReaRec设计理念的正确性，也为未来的改进指明了方向。比如，如何设计自适应的推理深度选择机制，让系统根据用户和商品特征自动决定最合适的推理步数，这将是下一步研究的重要方向。

五、技术突破与实际应用价值

ReaRec的技术创新不仅体现在推荐效果的提升上，更重要的是它开辟了一个全新的研究方向：推荐系统的推理时计算。这个概念借鉴了大语言模型领域的最新进展，但在推荐系统中的应用却是首创性的。

传统的推荐系统优化主要集中在两个方向：增加模型参数和改进训练数据。这就像提升汽车性能时只关注发动机排量和燃油品质，而忽略了驾驶技巧的重要性。ReaRec开辟了第三条道路：在不改变模型结构的前提下，通过增加推理时间来提升性能。这种思路的价值在于它可以与现有的各种优化方法结合使用，产生叠加效应。

从工程实现的角度来看，ReaRec具有很强的实用性。它采用了模块化设计，可以轻松集成到现有的推荐系统中，就像给汽车加装一个智能驾驶辅助系统，不需要更换整个引擎。这种设计理念大大降低了技术迁移的成本，让更多公司能够受益于这项技术创新。

更令人兴奋的是ReaRec展现出的巨大潜力。通过后验分析，研究团队发现在理想情况下（即选择最优推理步数），ReaRec可以将现有推荐系统的性能提升30%到50%。这个数字意味着什么呢？在推荐系统领域，即使1%的提升都可能带来巨大的商业价值。30-50%的潜在提升空间意味着这项技术有可能彻底改变推荐系统的性能水平。

从商业应用的角度来看，ReaRec特别适合那些对推荐质量要求极高的场景。比如，高端奢侈品电商平台，每一次错误推荐的成本都很高；再比如，内容创新平台，需要帮助用户发现小众但高质量的内容。在这些场景中，ReaRec的深度推理能力能够提供传统系统无法企及的精准度。

技术普及方面，ReaRec的另一个优势是对硬件要求的友好性。虽然增加了推理步骤，但通过优化的实现（如KV缓存技术），额外的计算开销被控制在很小的范围内。这意味着即使是中小型公司也能承担相应的计算成本，不会像一些需要巨大计算资源的AI技术那样形成技术门槛。

研究团队还贴心地考虑了技术的可解释性问题。通过可视化不同推理步骤的中间结果，系统的决策过程变得相对透明，这对于需要解释推荐理由的业务场景特别有价值。用户和商家都能更好地理解为什么系统会做出特定的推荐，从而建立更强的信任关系。

不过，研究团队也诚实地指出了当前技术的局限性。比如，如何为不同用户动态选择最优的推理深度，如何在推理过程中更好地平衡探索和利用，如何处理超大规模数据集的效率问题等。这些挑战为未来的研究工作指明了方向，也为其他研究团队提供了参与的机会。

总的来说，ReaRec不仅是一个具体的技术解决方案，更是一种新的思维范式。它告诉我们，AI系统的智能不仅来源于更大的模型和更多的数据，也来源于更深入的思考过程。这种理念有望在推荐系统之外的其他AI应用领域也产生重要影响。

说到底，ReaRec的成功证明了一个简单而深刻的道理：有时候，慢一点思考反而能走得更远。就像古人说的"磨刀不误砍柴工"，给AI系统一点思考时间，可能会收获意想不到的效果。这项研究不仅为推荐系统技术带来了新的突破，也为整个AI领域提供了有益的启发。

对于普通用户来说，这意味着未来我们可能会在各种APP上遇到更加贴心、更加准确的推荐。无论是购物、看视频还是听音乐，系统都能更好地理解我们的真实需求，推荐那些我们真正感兴趣但可能忽略的好内容。而对于从事相关技术工作的读者，ReaRec提供了一个值得深入研究的新方向，有兴趣的话不妨详细阅读原论文，或许能从中获得更多灵感。

Q&A

Q1：ReaRec是什么？它能做什么？ A：ReaRec是中国人民大学开发的智能推荐系统，它的核心能力是让推荐系统学会"思考"。不像传统系统看到用户行为就立刻推荐，ReaRec会进行多轮推理，就像一个经验丰富的销售顾问会仔细分析客户需求后再给建议，从而提供更精准的推荐。

Q2：ReaRec会不会让推荐系统变得很慢？ A：不会。虽然增加了推理步骤，但研究团队通过技术优化，额外的计算时间仅增加3.51%，而推荐准确率平均提升7.49%。就像用稍微多一点时间换来更好的服务，这个代价是完全值得的。

Q3：普通用户能体验到ReaRec技术吗？ A：目前ReaRec还是学术研究成果，但它可以集成到现有的各种推荐系统中。未来在淘宝、抖音、网易云音乐等平台上，我们很可能会遇到基于类似技术的更智能推荐功能，特别是对小众内容和新用户的推荐会更加精准。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.