网易首页 > 网易号 > 正文 申请入驻

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?

0
分享至

这是一篇7月新发布的论文,他提出了使用自然语言处理的检索增强Retrieval Augmented技术,目的是让深度学习在表格数据上超过梯度增强模型。

检索增强一直是NLP中研究的一个方向,但是引入了检索增强的表格深度学习模型在当前实现与非基于检索的模型相比几乎没有改进。所以论文作者提出了一个新的TabR模型,模型通过增加一个类似注意力的检索组件来改进现有模型。据说,这种注意力机制的细节可以显著提高表格数据任务的性能。TabR模型在表格数据上的平均性能优于其他DL模型,在几个数据集上设置了新的标准,在某些情况下甚至超过了GBDT模型,特别是在通常被视为GBDT友好的数据集上。

表格数据集通常被表示为特征和标签对{(xi, yi)},其中xi和yi分别是第i个对象的特征和标签。一般有三种类型的主要任务:二元分类、多类分类和回归。

对于表格数据我们会将数据集分为训练部分、验证部分和测试部分,模型对“输入”或“目标”对象进行预测。当使用检索技术时,检索是在一组“上下文候选”或“候选”中完成的,被检索的对象称为“上下文对象”或简称为“上下文”。同一组候选对象用于所有输入对象。

论文的实验设置涉及调优和评估协议,其中需要超参数调优和基于验证集性能的早期停止。然后在15个随机种子的平均测试集上测试最佳超参数,并在算法比较中考虑标准偏差。

论文作者的目标是将检索功能集成到传统的前馈网络中。该过程包括通过编码器传递目标对象及其上下文候选者,然后检索组件会对目标对象进行的表示,最后预测器进行预测。

编码器和预测器模块很简单简单,因为它们不是工作的重点。检索模块对目标对象的表示以及候选对象的表示和标签进行操作。这个模块可以看作是注意力机制的一般化版本。

这个过程包括几个步骤:

· 如果编码器包含至少一个块,则将表示进行规范化;

· 根据与目标对象的相似性定义上下文对象;

· 基于softmax函数对上下文对象的相似性分配权重;

· 定义上下文对象的值;

· 使用值和权重输出加权聚合。

上下文大小设置为一个较大的值96,softmax函数会自动选择有效的上下文大小。

检索模块是最重要的部分

作者探讨了检索模块的不同实现,特别是相似度模块和值模块。并且说明了是通过一下几个步骤得到最终的模型。

1、作者评估了传统注意力的相似性和值模块,发现该配置与多层感知器(MLP)相似,因此不能证明使用检索组件是合理的。

2、然后他们将上下文标签添加到值模块中,但发现这并没有改进,这表明传统注意力的相似性模块可能是瓶颈。

3、为了改进相似度模块,作者删除了查询的概念,并用L2距离替换点积。这种调整使得几个数据集上性能的显著跃升。

4、值模块也进行改进,灵感来自最近提出的DNNR(用于回归问题的kNN算法的广义版本)。新的值模块带来了进一步的性能改进。

5、最后,作者创建模型TabR。在相似性模块中省略缩放项,不包括目标对象在其自身的上下文中(使用交叉注意),平均而言会得到更好的结果。

生成的TabR模型为基于检索的表格深度学习问题提供了一种健壮的方法。

作者也强调了TabR模型的两个主要局限性:

与所有检索增强模型一样,从应用程序的角度来看,使用真实的训练对象进行预测可能会带来一些问题,例如隐私和道德问题。

TabR的检索组件虽然比以前的工作更有效,但会产生明显的开销。所以它可能无法有效地扩展以处理真正的大型数据集。

作者将TabR与现有的检索增强解决方案和最先进的参数模型进行比较。除了完全配置的TabR,他们还使用了一个简化版本,TabR- s,它不使用特征嵌入,只有一个线性编码器和一个块预测器。

与全参数深度学习模型的比较表明,TabR在几个数据集上优于大多数模型,除了MI数据集,在其他数据集也很有竞争力。在许多数据集上,它比多层感知器(MLP)提供了显著的提升。

与GBDT模型相比,调整后的TabR在几个数据集上也有明显的改进,并且在其他数据集上保持竞争力(除了MI数据集),并且TabR的平均表现也优于GBDT模型。

总之,TabR将自己确立为表格数据问题的强大深度学习解决方案,展示了强大的平均性能,并在几个数据集上设置了新的基准。它的基于检索的方法具有良好的潜力,并且在某些数据集上可以明显优于梯度增强的决策树。

1、冻结上下文以更快地训练TabR

在TabR的原始实现中,由于需要对所有候选对象进行编码并计算每个训练批次的相似度,因此在大型数据集上的训练可能很慢。作者提到在完整的“Weather prediction”数据集上训练一个TabR需要18个多小时,该数据集有300多万个对象。

作者注意到在训练过程中,平均训练对象的上下文(即,根据相似度模块S,前m个候选对象及其分布)趋于稳定,这为优化提供了机会。在一定数量的epoch之后,他们提出了一个“上下文冻结”,即最后一次计算所有训练对象的最新上下文,然后在其余的训练中重用。

这种简单的技术可以加速TabR的训练,并且不会在指标上造成重大损失。在上面提到的完整的“Weather prediction”数据集上,它使速度提高了近7倍(将训练时间从18小时9分钟减少到3小时15分钟),同时仍然保持有竞争力的均方根误差(RMSE)值。

2、用新的训练数据更新TabR不需要再训练(初步探索)

在现实世界的场景中,在机器学习模型已经训练完之后,通常会收到新的、看不见的训练数据。作者测试了TabR在不需要再训练的情况下合并新数据的能力,方法是将新数据添加到候选检索集中。

他们使用完整的“Weather prediction”数据集进行了这个测试。结果表明在线更新可以有效地将新数据整合到训练好的TabR模型中。这种方法可以通过在数据子集上训练模型并从完整数据集中检索模型来将TabR扩展到更大的数据集。

3、使用检索组件增强XGBoost

作者试图通过结合类似于TabR中的检索组件来提高XGBoost的性能。这种方法涉及在原始特征空间中找到与给定输入对象最接近的96个训练对象(匹配TabR的上下文大小)。然后对这些最近邻的特征和标签进行平均,将标签按原样用于回归任务,并将其转换为用于分类任务的单一编码。

将这些平均数据与目标对象的特征和标签连接起来,形成XGBoost的新输入向量。但是该策略并没有显著提高XGBoost的性能。试图改变邻居的数量也没有产生任何显著的改善。

深度学习模型在表格类数据上一直没有超越梯度增强模型,TabR还在这个方向继续努力。

如果你对他感兴趣,一下是论文和源代码:

https://avoid.overfit.cn/post/9e8cc5f506af4b368516876e108a62c7

作者:Andrew Lukyanenko

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿森纳别慌!1-2后仍领先3分,曼城后6场对4强队,英超争冠有变数

阿森纳别慌!1-2后仍领先3分,曼城后6场对4强队,英超争冠有变数

体育知多少
2026-04-20 07:23:09
恩里克:只有赢球的教练才应该发言,输球的教练就不该说话

恩里克:只有赢球的教练才应该发言,输球的教练就不该说话

懂球帝
2026-04-20 06:03:07
中介晒出通话记录,4年前业主没110万不卖,如今房子只值56万

中介晒出通话记录,4年前业主没110万不卖,如今房子只值56万

映射生活的身影
2026-04-19 23:05:55
与孔令辉分手12年,被黑人托在肩上的马苏,终是为自己的风流买单

与孔令辉分手12年,被黑人托在肩上的马苏,终是为自己的风流买单

情感大头说说
2026-04-18 21:06:00
以军:打死阿里·里达·阿巴斯

以军:打死阿里·里达·阿巴斯

南方都市报
2026-04-19 21:17:31
山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

极目新闻
2026-04-19 14:06:31
五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

奥拜尔
2026-04-20 01:27:03
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
张雪回应为何还有6圈提前结束比赛:有事故摩托车横躺在赛道上

张雪回应为何还有6圈提前结束比赛:有事故摩托车横躺在赛道上

贝壳财经
2026-04-19 23:56:03
君子报仇,一天都觉得晚,海军编队过航日本横当水道

君子报仇,一天都觉得晚,海军编队过航日本横当水道

三叔的装备空间
2026-04-19 21:25:30
阿森纳崩盘!国内赛事四连败,失去争冠主动权,3年首次连负曼城

阿森纳崩盘!国内赛事四连败,失去争冠主动权,3年首次连负曼城

奥拜尔
2026-04-20 01:39:09
李想怒喷日产的背后,藏着“增程帝国”崩塌的无能为力

李想怒喷日产的背后,藏着“增程帝国”崩塌的无能为力

少数派报告Report
2026-04-19 09:17:16
5月1日起全面严查!在职退休无一例外,这几类人好日子到头了

5月1日起全面严查!在职退休无一例外,这几类人好日子到头了

开心美食白科
2026-04-20 05:31:06
荷兰站比赛结束,张雪机车目前在WSBK制造商积分榜排名第三

荷兰站比赛结束,张雪机车目前在WSBK制造商积分榜排名第三

新京报
2026-04-19 21:23:27
越领导坐了12个小时高铁回国,直言落后太多,这是最狠的一次拒绝

越领导坐了12个小时高铁回国,直言落后太多,这是最狠的一次拒绝

田园小归
2026-04-19 08:40:30
36万亿美债还不起,特朗普决定“弄死”大债主,为此不惜自曝家丑

36万亿美债还不起,特朗普决定“弄死”大债主,为此不惜自曝家丑

杰丝聊古今
2026-04-19 20:21:05
超710亿!广东这条“堵王”高速,即将全面改扩建,最宽12车道!

超710亿!广东这条“堵王”高速,即将全面改扩建,最宽12车道!

娱乐圈见解说
2026-04-18 14:54:03
美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

贱议你读史
2026-04-19 04:30:07
阿森纳球迷意难平!不止因为1-2不敌曼城,更多在于以下五点!

阿森纳球迷意难平!不止因为1-2不敌曼城,更多在于以下五点!

田先生篮球
2026-04-20 05:32:35
一场119-84的狂胜,让火箭湖人都感到绝望,掘金也彻底后悔了

一场119-84的狂胜,让火箭湖人都感到绝望,掘金也彻底后悔了

毒舌NBA
2026-04-20 07:51:44
2026-04-20 08:59:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1975文章数 1461关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

牛弹琴:美国向伊朗货轮开火并将其控制 该伊朗发飙了

头条要闻

牛弹琴:美国向伊朗货轮开火并将其控制 该伊朗发飙了

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

月之暗面IPO迷局

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

数码
教育
游戏
旅游
健康

数码要闻

内存供应短缺迫使苹果推迟新Mac Studio与触控屏MacBook Pro发布

教育要闻

辛集千余名少年逐梦田径赛场尽展青春力量

宝可梦真的能吃!宝可梦30周年 御三家变美食

旅游要闻

渝见好“村”光|大足和平村:城市后花园 乡村新浪潮

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版