网易首页 > 网易号 > 正文 申请入驻

伊利诺伊大学团队发现嵌入维度扩展的惊人规律

0
分享至


这项由伊利诺伊大学香槟分校的何壮壮、新加坡南洋理工大学的周凯宇、亚利桑那州立大学的白浩月,以及新加坡国立大学的朱丰斌、杨永辉等研究者组成的国际团队完成的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.15709v1),为我们揭开了推荐系统中一个长期困扰学界的谜题。

当我们在网上购物时,系统会根据我们的浏览历史推荐商品,这背后就是协同过滤技术在发挥作用。就像一位经验丰富的店员,通过观察顾客的购买习惯来推测他们可能喜欢的商品。然而,这位"数字店员"的工作原理一直存在一个令人费解的现象:当我们试图让它变得更"聪明"时,它的表现有时反而会变差。

研究团队通过对10个不同规模和特征的数据集进行大规模实验,使用了BPR、NeuMF、LightGCN和SGL这四种代表性的协同过滤模型,发现了两种前所未见的现象。第一种被称为"双峰现象",就像爬山一样,系统性能先上升,然后下降,接着又神奇地再次上升,最后才最终下降。第二种被称为"对数现象",性能会持续稳定地提升,就像登阶梯一样,虽然每一步的提升幅度在递减,但始终在向上。

这个发现颠覆了学界长期以来的认知。过去人们普遍认为,扩展嵌入维度(可以理解为增加系统记忆容量)只会带来先升后降的"单峰"效果,就像给一个人塞太多信息反而会让他困惑一样。但这项研究证明,现实远比想象复杂得多。

更令人惊讶的是,研究团队发现同一个模型在不同数据集上会表现出不同的现象,而同一个数据集在不同模型上也会产生不同的结果。这就像同一道菜谱,在不同厨师手中会有完全不同的效果,而同一位厨师面对不同食材时也会有截然不同的表现。

通过深入分析,研究团队发现这些现象的根本原因在于数据中的"噪声交互"。就像在嘈杂的餐厅里试图听清朋友的话一样,当推荐系统试图从包含大量无关或错误信息的数据中学习时,就会出现这种复杂的性能变化模式。

一、数据噪声:推荐系统的隐形杀手

在日常生活中,我们经常会遇到这样的情况:明明点击了某个商品,但其实并不是真的感兴趣,可能只是手滑或者好奇。这些"误操作"对人来说微不足道,但对推荐系统而言却是严重的干扰信号。

研究团队将这些干扰信号称为"噪声交互",它们就像录音中的杂音一样,会影响系统对用户真实偏好的判断。当系统的"记忆容量"(嵌入维度)较小时,它只能记住最重要的信息,噪声的影响相对有限。但随着容量增加,系统开始有足够的空间来"记住"这些噪声,这时问题就出现了。

这个过程可以分为四个阶段来理解。在第一个阶段,系统就像一个勤奋的学生,专注于学习最重要的知识点,性能稳步提升。进入第二阶段后,系统开始有多余的"脑容量"来记住一些不重要甚至错误的信息,这时性能开始下降。到了第三阶段,系统学会了如何在噪声环境中工作,找到了应对策略,性能又开始回升。最后在第四阶段,过度的记忆容量导致系统过分拟合训练数据,在面对新情况时表现不佳。

为了验证这个理论,研究团队开发了一种简单而有效的"样本筛选策略"。就像老师在批改作业时会重点关注那些明显用心完成的作业一样,这种策略让系统在训练时优先关注那些"损失较小"的样本,因为这些样本更可能代表用户的真实偏好。

实验结果令人振奋。在使用了这种筛选策略后,原本表现出双峰现象的BPR模型能够将嵌入维度扩展到32,768维而不出现性能崩溃,这在之前是不可想象的。这就像给一个容易分心的学生配了一位优秀的导师,帮助他专注于真正重要的内容。

二、不同模型的抗噪能力大揭秘

研究团队深入分析了四种不同推荐模型的特点,发现它们在面对噪声时的表现截然不同,这背后有着深层的数学原理。

BPR模型就像一个非常敏感的人,对周围环境的任何变化都会产生强烈反应。从技术角度来说,BPR使用简单的内积计算来预测用户偏好,这种线性关系使得模型参数的梯度(可以理解为学习的方向和强度)会随着嵌入维度的增加而无限制地增长。当遇到噪声数据时,这种特性会被放大,导致模型学习方向出现大幅偏差。

研究团队通过数学分析证明,BPR模型的表示质量退化程度与噪声比例的平方成正比,同时与梯度敏感性线性相关。这意味着即使是很小的噪声,在高维空间中也会被显著放大,导致模型性能急剧下降。这就解释了为什么BPR经常表现出双峰现象,特别是在嵌入维度较大的情况下。

NeuMF模型的情况更加复杂。虽然它通过引入非线性神经网络层来捕捉更复杂的用户-物品交互模式,但这种复杂性也带来了新的问题。研究团队发现,NeuMF的梯度敏感性会随着网络深度呈指数级增长。这就像一个放大器链,每一层都会将前一层的信号放大,包括有用的信号和噪声。当网络较深或正则化不当时,NeuMF甚至可能比BPR更容易受到噪声影响。

LightGCN模型展现出了更好的抗噪能力,这要归功于其独特的图卷积结构。在推荐系统中,用户和物品之间的交互可以构成一个复杂的网络图,LightGCN通过在这个图上进行信息传播来学习用户和物品的表示。

这个过程非常类似于现实生活中的"众人拾柴火焰高"现象。当系统要为某个用户生成推荐时,它不仅考虑该用户的直接行为,还会参考与该用户有相似偏好的其他用户的行为。这种信息聚合过程天然具有降噪效果,就像多个人的意见平均后往往比单个人的意见更可靠一样。

从数学角度来看,LightGCN的这种聚合过程等价于对用户和物品嵌入进行低通滤波,保留重要的低频信号(代表主要的用户偏好模式),同时抑制高频噪声。研究团队通过谱分析证明,经过多层图卷积后,最终的嵌入矩阵会自然地呈现低秩特性,这有助于提高模型的泛化能力和抗噪性能。

三、SGL:推荐系统中的"抗噪冠军"

在所有测试的模型中,SGL(Self-supervised Graph Learning)表现最为出色,几乎在所有数据集上都展现出理想的对数增长模式。这种优异表现源于其独特的自监督对比学习机制。

SGL的工作原理可以用"照镜子"来比喻。系统会为每个用户和物品创建多个"镜像"版本,这些镜像通过随机删除一些连接或隐藏一些特征来生成。然后,系统要求同一个用户或物品的不同镜像应该尽可能相似,而不同用户或物品的镜像应该尽可能不同。

这种训练方式的巧妙之处在于,它迫使模型学习那些在各种干扰下都保持稳定的特征。就像一个人的核心性格特征会在不同环境下保持一致一样,用户的真实偏好也应该在各种数据变化下保持相对稳定。而那些容易变化的特征,往往就是噪声。

研究团队从信息论的角度分析了这一机制。SGL通过最大化不同视图之间的互信息,实际上是在寻找那些包含最多有用信息、最少噪声的特征表示。这个过程可以看作是一种隐式的特征选择,自动过滤掉那些不稳定、不可靠的信息。

更进一步,研究团队证明了SGL的对比学习目标会隐式地将学习到的嵌入约束在一个"干净信号子空间"内。这意味着即使训练数据中存在噪声,最终学到的用户和物品表示也主要反映真实的偏好模式,噪声成分被大大抑制。

这种双重保护机制——图卷积的低通滤波效应加上对比学习的子空间约束——使得SGL在面对高维嵌入时仍能保持稳定的性能提升。实验结果显示,即使将嵌入维度扩展到非常高的水平,SGL的性能仍能持续改善或至少保持稳定,这在其他模型中是很难实现的。

四、实验验证:理论与实践的完美结合

为了全面验证他们的理论分析,研究团队设计了一系列精心设计的实验。他们选择了10个具有不同特征的数据集,涵盖了从小规模的MovieLens-100K到超大规模的Amazon Books等各种场景。这些数据集在用户数量、物品数量、交互密度等方面都有显著差异,为研究提供了丰富的测试环境。

在实验设置上,研究团队将嵌入维度从最小的4维一直扩展到65,536维,跨越了16个数量级。这种大跨度的测试确保了观察到的现象不是偶然的统计波动,而是具有普遍性的规律。

实验结果令人印象深刻。在ML-100K数据集上,BPR模型清晰地展现出双峰模式:性能在512维时达到第一个峰值,然后下降,在8192维时出现第二个峰值,最后再次下降。而在Modcloth数据集上,同样的BPR模型却表现出对数增长模式,即使在最高的测试维度下性能仍在提升。

更有趣的是,研究团队发现在某些数据集上,简单地将嵌入维度从传统的128维扩展到更高维度,就能获得超过25%的性能提升。这个发现具有重要的实践意义,因为在推荐系统领域,通常认为5-10%的性能提升就已经非常显著了。

为了验证噪声假设,研究团队实施了他们提出的样本筛选策略。结果显示,在使用了这种策略后,原本表现出双峰现象的模型变得更加稳定,能够在更高的维度下保持良好性能。这为他们的理论分析提供了强有力的实证支持。

研究团队还发现了一个有趣的现象:最佳性能往往出现在维度为2的幂次的位置,比如512、1024、2048等。这可能与计算机硬件的特性以及优化算法的收敛特性有关,为实践中的超参数选择提供了有价值的指导。

五、对推荐系统未来的深远影响

这项研究的意义远远超出了学术范畴,它为整个推荐系统行业指明了新的发展方向。传统上,研究者们在追求更好的推荐效果时,往往专注于设计更复杂的模型架构或更精巧的特征工程,而忽视了数据质量这个基础问题。

研究结果表明,数据质量对推荐系统的可扩展性具有决定性影响。当数据相对干净时,即使是简单的模型也能通过增加嵌入维度获得显著的性能提升。相反,当数据包含大量噪声时,再复杂的模型也难以有效扩展。这提醒我们,在追求模型复杂性的同时,不应忽视数据预处理和清洗的重要性。

从模型设计的角度来看,这项研究揭示了具有内在抗噪能力的模型架构的重要性。SGL之所以表现出色,不仅因为它采用了图神经网络,更重要的是它通过自监督学习机制内置了噪声过滤能力。这为未来的模型设计提供了重要启示:与其在事后处理噪声,不如在模型设计阶段就考虑抗噪能力。

研究团队特别指出,他们的发现为推荐系统领域寻找"Transformer时刻"提供了新的思路。在自然语言处理领域,Transformer架构的成功很大程度上归功于其优秀的可扩展性。而在推荐系统领域,SGL展现出的优秀扩展能力使其有望成为这个领域的"Transformer"。

这项研究还对工业界的推荐系统部署具有直接的指导意义。许多公司在部署推荐系统时,由于计算资源的限制,往往选择相对较小的嵌入维度。但这项研究表明,如果数据质量较高或者采用了合适的抗噪策略,适当增加嵌入维度可能带来显著的性能提升,而这种提升的成本效益比可能远高于其他优化方法。

研究团队坦承,由于计算资源的限制,他们的实验主要集中在NDCG@20这一评估指标上,未来的研究可以扩展到更多的评估指标和更广泛的模型架构。此外,他们的理论分析主要针对协同过滤模型,对于包含丰富内容特征的深度推荐模型,相关理论还需要进一步发展。

说到底,这项研究最重要的贡献在于改变了我们对推荐系统可扩展性的认知。它告诉我们,扩展嵌入维度并不总是无效的,关键在于理解和处理数据中的噪声。当我们能够有效地识别和过滤噪声时,推荐系统就能像大语言模型一样,通过增加参数规模来获得更好的性能。这为推荐系统的未来发展开辟了新的可能性,也为从业者提供了实用的优化策略。对于那些希望深入了解这一发现的读者,可以通过论文编号arXiv:2509.15709v1查询完整的研究报告,其中包含了详细的数学推导和实验细节。

Q&A

Q1:什么是推荐系统中的"双峰现象"和"对数现象"?
A:双峰现象是指当增加推荐系统的嵌入维度时,性能表现出先升后降、再升再降的两个峰值模式。对数现象则是性能持续稳定提升,虽然提升幅度逐渐递减但始终向上。这两种现象颠覆了学界以往认为的"单峰"规律,为推荐系统优化提供了新的理解角度。

Q2:为什么SGL模型在扩展维度时表现最好?
A:SGL模型表现出色主要因为它具有双重抗噪机制:一是图卷积结构的低通滤波效应,能够聚合多个用户的信息来降低噪声影响;二是自监督对比学习机制,通过要求同一用户的不同"镜像"版本保持相似,迫使模型学习稳定可靠的特征,自动过滤掉不稳定的噪声信息。

Q3:这项研究对实际的推荐系统应用有什么指导意义?
A:研究表明数据质量比模型复杂度更重要,企业应该重视数据清洗和噪声过滤。在数据相对干净的情况下,适当增加嵌入维度可能带来超过25%的性能提升,成本效益比很高。同时,选择具有内在抗噪能力的模型架构(如SGL)比单纯增加模型复杂度更有效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国防部下通牒,点名收拾赖清德,美国也出手了,扣留千亿售台军火

国防部下通牒,点名收拾赖清德,美国也出手了,扣留千亿售台军火

Ck的蜜糖
2025-11-02 10:02:38
火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

吴学华看天下
2024-06-26 12:43:21
乌俄新战局:争夺波克罗夫斯克与“抹去”莫斯科

乌俄新战局:争夺波克罗夫斯克与“抹去”莫斯科

书生论剑
2025-11-03 01:28:12
李兰娟院士提醒:胃部开始癌变的第一信号,吃东西可能就知道

李兰娟院士提醒:胃部开始癌变的第一信号,吃东西可能就知道

阿纂看事
2025-10-23 09:38:57
4-0,巴萨天塌了!皇马又赢了+6连胜,稳居榜首

4-0,巴萨天塌了!皇马又赢了+6连胜,稳居榜首

乌龙球OwnGoal
2025-11-02 06:39:42
不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

混沌录
2025-10-22 21:54:06
郭碧婷41岁生日素颜出镜,老爸罕见露面破传闻,闺蜜夕又米更抢镜

郭碧婷41岁生日素颜出镜,老爸罕见露面破传闻,闺蜜夕又米更抢镜

TVB的四小花
2025-11-02 15:51:08
“中国巴菲特”捐了市值1500万元茅台股票!本人回应:他们每年花分红就好

“中国巴菲特”捐了市值1500万元茅台股票!本人回应:他们每年花分红就好

每日经济新闻
2025-11-02 00:18:11
17.64亿!理想MEGA召回预估成本创纪录,主动担责撬动行业规范变革|封面独家

17.64亿!理想MEGA召回预估成本创纪录,主动担责撬动行业规范变革|封面独家

封面新闻
2025-11-01 10:21:03
长春亚泰提前降级!海牛逃出生天,再拿1分将保级,梅州一线生机

长春亚泰提前降级!海牛逃出生天,再拿1分将保级,梅州一线生机

奥拜尔
2025-11-02 17:22:59
天使萌、小野六花、白上咲花、逢泽美优、时田亚美 岛国明星动态

天使萌、小野六花、白上咲花、逢泽美优、时田亚美 岛国明星动态

素然追光
2025-11-03 01:50:03
美方威胁“采取行动”后,尼日利亚总统助理:尼总统近日将与特朗普会面

美方威胁“采取行动”后,尼日利亚总统助理:尼总统近日将与特朗普会面

环球网资讯
2025-11-02 20:38:22
小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

科技头版Pro
2025-10-31 14:47:29
参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

蛙斯基娱乐中
2025-11-02 16:27:24
新丰田赛纳王者归来!外观高级内饰豪华,2.5L混动四驱加持!

新丰田赛纳王者归来!外观高级内饰豪华,2.5L混动四驱加持!

阿芒娱乐说
2025-11-02 17:05:19
中国近视防控火遍全球!3大绝招让近视率暴跌52%,WHO纳入指南

中国近视防控火遍全球!3大绝招让近视率暴跌52%,WHO纳入指南

孟大夫之家1
2025-10-30 18:59:06
叙利亚朱拉尼没想到,中方会动用一票否决权,俄美英法力挺也没用

叙利亚朱拉尼没想到,中方会动用一票否决权,俄美英法力挺也没用

吃货的分享
2025-11-02 08:04:22
主动退出奥运申办!中国这一招,让西方媒体无话可说

主动退出奥运申办!中国这一招,让西方媒体无话可说

青梅侃史啊
2025-08-18 16:14:26
内讧!灰熊最快速度交易莫兰特!

内讧!灰熊最快速度交易莫兰特!

体育一点就通
2025-11-02 04:14:56
张艺谋垫了八厘米,于和伟踩着运动鞋,红毯不是T台,是人穿衣服

张艺谋垫了八厘米,于和伟踩着运动鞋,红毯不是T台,是人穿衣服

阿废冷眼观察所
2025-11-03 01:26:46
2025-11-03 02:39:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
530文章数 149关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

艺术
时尚
家居
教育
公开课

艺术要闻

陈丹青 无论画风与文风,都具有一种优雅而朴素,睿智而率真的气质

最近很火的发型,原来这么简单!

家居要闻

吸睛艺术 富有传奇色彩

教育要闻

高三稳住心态、用好时间,比拼命刷题更重要

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版