网易首页 > 网易号 > 正文 申请入驻

推荐算法遇到后悔药:评蚂蚁的ESCM2模型

0
分享至

好久没有写关于单篇文章的解读了。但是今天这一篇《ESCM2: Entire Space Counterfactual Multi-Task Model for Post-Click Conversion Rate Estimation》必须值得单独写一篇解读。原因有二:

·文章非常有现实意义。这篇2022年的阿里新文,是关于“因果推断”、“反事实学习”在推荐模型中的应用,用于减轻建模一条转化链条的前后环节之间存在的bias,解决的确是推荐算法的一个痛点。

·文章写得,真的不好懂。文章中“怎么做”、“为什么这样做”,还有一堆数学证明杂揉在一起,找人摸不清文章的网络和重点。顺着原文来读,思路极容易被打断。而且表达同样意思的公式,可能写了两遍,用了两种符号。有的重要结论,只用文字轻描淡写提了一句,而没有写成公式引起读者的注意。唉,可能作者也没办法,论文这东西就是八股文。

Causal Inference和Counterfactual Learning,和我们平常用到的Machine Learning理论上还是有所不同的,我也是一知半解,所以在本文中将我的疑问也列举出来,欢迎大家一起来讨论。


一、要解决的问题

阿里的这篇文章,应对的是CVR建模问题。在电商环境下,用户转化需要“先曝光->再点击->最后购买”,三个环节之间存在先后顺序之分,也蕴含着因果关系。

业务要求建模三个目标:

  • CTR:从曝光到点击的概率

  • CVR:从点击到购买的概率

  • CTCVR:从曝光到购买的概率

二、中间环节单独建模的意义

这里需要指出的是,单独对中间环节建模(i.e., 这里的CVR)的意义:

  • 理论上,我们只关心购买。如果CTCVR预测的是准确的,那么其实没必要单独建模CVR。以最终CTCVR排序即可。

  • 但是,以上两个假设都不成立

    • 首先,CTCVR预测得肯定有误差

    • 其次,业务要求,使我们需要关心中间环节。比如广告场景下,不同的转化环节,不同的计费模式。

  • 因此,这里必须把cvr, ctr, ctcvr都预测出来,再把三个分数加权成一个综合得分,再排序

  • 而在其他一些场景下,比如内容推荐场景下,就直接建模ctr和“完播”就行了,没再建模“点击后完播”的条件概率。当然,未来可以借鉴电商广告场景,把中间环节拎出来单独建模。


三、建模中间环节的Naive方法

写出loss来很容易

  • 是user 'u’对item 'i’是否转化的ground truth label

  • 是CVR model的预测结果 问题就在于的 样 本上(click space, 下图中的O)才能拿得到

因此,一种naive的方法,训练的时候,只拿click=1样本(click space, O)来训练CVR模型。存在两个问题:

  • 问题1:训练空间与预测空间不匹配

    • 训练的时候,是拿所有click=1的样本来训练,的匹配性已经非常高了。

    • 而预测的时候,只是经过召回、粗排的粗筛,的匹配度还非常低。

    • 两个空间不匹配,训练时缺失的那部分样本,是由系统性的sample selection bias造成的,Missing Not At Random(MNAR)

  • 问题2:只用click=1的样本,训练数据比较少


四、ESMM方法的缺点

为了解决Naive方式以上两个问题,阿里提出了ESMM

  • ESMM实际上是回避了单独建模CVR的问题

  • 两个loss,一个ctr loss,另一个ctcvr loss,都是在整个“曝光样本空间”D上建模

  • CVR= CTCVR / CTR

优点:CTR和CTCVR都是在全体曝光样本上建模的,因此两者相除的结果CVR也算是在全体曝光样本上建模的。因此,CVR模型训练与预测同分布(实际上训练是在曝光样本空间,预测是在召回样本空间,不过这点差异,大家都约定俗成,不予追究了),算是解决了sample selection bias的问题。

缺点:

  • 一是Inherent Estimation Bias (IEB),认为ESMM的CVR得分存在系统性的bias,普遍偏高

  • 二是Potential Independence Priority (PIP)

  • 我理解成,算是另外一种反向sample selection bias

  • 因为CTR, CTCVR都是在全体曝光空间D上建模的,两者的商CVR也是建模在全体曝光空间上的,对于消除training/inference之间的gap当然是好事。

  • 但是CVR的含义毕竟是“点击后再转化”的概率,click->convert之间的因果关系就建模不出来了。

但是CVR=CTCVR/CTR这个公式是肯定不会有错的,那么以上两点偏差是从何而来的?我觉得是:要让这个公式成立,需要理想化的条件,是现实无法满足的。比如,训练CTCVR也是认为,如果最终click & convert=0,就代表着用户不喜欢。但是有可能是因为CTR模型预估得不准,把item排在不好的位置,让用户失去了click的机会,而实际上应该是很高的。这也就是论文中所谓“反事实”的含义。

Entire Space Counterfactual Multi-task Modelling (ESCM2)

ESCM采用了一种与ESMM完全不同的思路:

  • CVR遵循其名称的本意,还是只拿click=1的数据来训练

  • 但是采用一些因果推断、反事实学习的方法,在训练过程中就减轻Sample Selection Bais(SSB)、Missing Not At Random(MNAR)带来的负面影响。

  • 最终得到的模型,尽管是只用click=1样本训练出来的,但是在全样本空间预测时,也能得到"unbiased"的结果。(unbiased是论文里宣称的效果,还用数学证明了。我觉得那是理论结论,现实中做不到,至多是降低bias)

整个ESCM都是围绕着如下公式开展的

  • 在全量曝光样本D上建模ctr loss

  • 是在click=1的点击空间O上建模“最终转化loss”

  • 用ESMM一样,用ctcvr=ctr*cvr为预测值,用最终是否转化为label,计算binary cross-entropy loss。

  • 论文中说“the global risk minimizer optimizes the risk of CTCVR estimation over D”,我觉得是论文在这里写错了

  • 首先论文中图4“Global Risk Minimizer”下边就有“O”(代表click space)的字样

  • 论文里还说“The amount of training data for CTR task is significantly greater than that of CVR and CTCVR tasks by 1-2 order of magnitudes.”,所以ctcvr也应该是在click space中建模的

  • 还有建模ctcvr时,用到的ctcvr prediction是由predict ctr * predict cvr相乘得到的。predict cvr肯定是只由click=1的样本上训练得到的(这是本文区别ESMM的最大区别),所以ctcvr也应该是只在click=1的样本上建模。

  • 到底在哪个空间建模,要区分具体是用IPS实现,还是DR实现。


五、用IPS实现CVR建模

或者写得更具体一点


  • 是用户是否点击的label。因此,尽管公式的计算范围是D(全体曝光样本),但是实际上是只拿点击样本建立loss

  • 是user 'u’对item 'i’是否转化的ground truth label。毕竟只有click=1的样本上的才是可信的

  • 是CVR tower的预测结果

  • 都是ctr tower的预测值

  • 然后,我们要建模的。(这也是这篇文章难懂的原因之一,同一个意思在不同地方用不同的符号来表达,也没有一个地方写清楚这个两个符号表达同样含义。)

不要看原论文中的图4,在IPS实现中是压根没有中间那个计算Imputation Error的塔的。更准确的图是《LARGE-SCALE CAUSAL APPROACHES TO DEBIASING POST-CLICK CONVERSION RATE ESTIMATION WITH MULTI-TASK LEARNING》中的图4。注意右下角的“O”,说明CVR只在click=1的空间上建模。

对于以上公式的解读,我看到的解释都是:

  • 如果ctr高,还转化了,是理所应当的,权重应该低一些

  • 如果ctr低,最终反而转化了,是Counterfactual的,正好是对Sample Selection Bias的有力反击,所以权重应该大一些。

但是我始终有一个疑问,ctr高低来决定样本权重,难道不应该视样本的正负而定吗?

  • ctr高,还转化了,没啥新鲜的,权重理应低一些

  • ctr高,但是未转化,这个非常非常counterfactual,权重理应更高

  • 全用inverse ctr当权重,“一视同仁”,不太合适吧

另外,论文里说用这种IPS建模,尽管是在click=1的样本训练,但是在全体样本空间预测时得到的cvr也是unbiasd。我不太相信,我们是在debias,不是在unbias。cvr都是在点击样本上训练得到的,尽管以inverse ctr反向加权,但是点击样本中的ctr基本上都不低吧。

六、用DR实现CVR建模

认为IPS中用predict ctr 当propensity score,毕竟是预测值,偏差会高,因此采用如下Doubly Robust来计算 。

写得更具体一些

  • 不同于IPS,DR是在整个曝光样本空间上建模

  • 是imputed error,全体曝光空间上的“推测cvr loss”

  • 因为只有click=1的样本才有是否转化的真实label,所以只有在click=1的样本上计算出来的cvr loss δu,i 才是真实可信的

  • 在除了click之外的剩余的曝光空间上,我们无法计算出真实的δu,i 。所以,我们单独建立一个模型来模拟在click=0上的cvr loss,就是这里的imputed error。再次发挥了DNN中的“无中生有、空手套白狼”的本事。


  • 就是imputation tower"凭空"造出来的输出,是建模在全体曝光样本空间上的

  • δu,i 在click space上,根据predicted cvr和convert ground truth计算得到的真实cvr loss

Doubly Robust的意义,我看到的解释都是:起到一个双保险的作用,只要propensity score,和imputed error,有一个预测得准,就能起到debias的作用。

  • 的准确性,是由ctr tower决定的,是被“是否点击”的ground truth label限制住的。

  • 但是谁来保证的准确性?

点击样本

如果是click样本,即,再忽略分母的影响,则,就是点击样本上的真实cvr loss。那么的准确性就由converted ground truth label给约束住了。而且还加上如下mse loss,减少真实cvr loss与imputed cvr loss之间的距离。

总之,对于click样本,采用如下公式计算,准确性是有保障的。

曝光未点击样本

但是对于click=0的曝光样本呢?整个cvr loss就只剩下了imputed cvr loss

。由于我们拿不到click=0的曝光样本上的“是否转化”的ground truth,

本来就是由模型“无中生有”硬造出来的,岂不是就没有了约束?比如这个模型可以让其中所有W、b都变成0,那么不也变成0了吗?

在我看来,还就真的没有对的直接约束,对它的约束都是间接的。因为对于click=0和click=1的样本,共享一套模型参数。而当click=1时的“是否转化”的ground truth label,把模型参数约束住了,那就不会出现W、b都变成0的情况,

在click=0的样本上也不会无下限的小下去。或许这就是在论文里,称

这一项为regularizer的原因,毕竟对于regularizer来说,约束就是它自己。

整体结构

论文中说,“ESCM2-DR: It augments ESCM2-IPS with an imputation tower”。所以,我觉得这里的应该如下:

整体架构如下:

  • 左边的塔,在全体曝光样本上训练,得到ctr

  • 预测出来的ctr,喂入Empirical Risk Minimizer,计算

  • ctr的倒数喂入Counterfactual Risk Minimizer,计

  • 右边的塔,在点击样本上训练,得到cvr。

  • 由cvr,计算出点击样本上的真实cvr loss "",喂入Counterfactual Risk Minimizer,参与计算

  • ctr tower输出的predict ctr,和这里输出的predict cvr相乘,得到点击空间上的predict ctcvr,喂入Global Risk Minimizer计算点击空间上的

  • 中间的塔,在全量曝光样本上,预测输出imputed cvr loss

  • 中间的Counterfactual Risk Minimizer,输入全体曝光上样本上的ctr和,还有点击样本上的真实cvr loss,计算得到曝光空间上的

七、结尾

本文和ESMM面向的问题是一样的,解决“转化链路多环节之间的bias”,但是与ESMM采用了完全不同的思路

  • ESMM不直接优化CVR,而是在全体曝光样本上优化cvr loss和ctcvr loss,再用cvr=ctcvr/ctr来得到cvr,从而使训练和预测CVR的所使用的数据同分布,解决sample selection bias

  • ESCM回归cvr的本质,只拿click数据上训练、优化cvr loss。但是通过Counterfactual方法debias,使只用click数据得到的模型,能够在面对全量数据预测时,产生所谓“unbias”的结果。

另外,论文中还有几点:

  • 底层是一个MMOE

  • “we implemented ESMM and ESCM2 with our internal C++ based deep learning framework, where ESCM2 was built with the IPS regularizer for its competitive offline performance and training efficiency.”。所以最终上线的是哪一种?只使用了IPS,而没有使用DR?

作者:石塔西

Illustration b y Julia Kuptsova from icon s8

-The End-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
直播脑机接口手术;“北脑一号”手术成功;高端脑机技术突破;规模化临床验证 | 4月15日生物科技日报

直播脑机接口手术;“北脑一号”手术成功;高端脑机技术突破;规模化临床验证 | 4月15日生物科技日报

生物科技视界
2026-04-15 01:13:02
混的不错!辽篮旧将土超表现亮眼 被调侃CBA强度太大

混的不错!辽篮旧将土超表现亮眼 被调侃CBA强度太大

胖子喷球
2026-04-14 10:10:44
北约和多个国家支持美国封锁霍尔木兹海峡

北约和多个国家支持美国封锁霍尔木兹海峡

一种观点
2026-04-13 15:34:58
最高159%!美国宣布对华加征关税,谁最承压?

最高159%!美国宣布对华加征关税,谁最承压?

奇思妙想生活家
2026-04-14 17:03:55
朴信惠又怀了?今年秋天生,刚翻红就停工!

朴信惠又怀了?今年秋天生,刚翻红就停工!

毒舌八卦
2026-04-14 11:48:57
16GB+512GB不到3000元,现在可以闭眼入的3款手机,售价不涨反降

16GB+512GB不到3000元,现在可以闭眼入的3款手机,售价不涨反降

科技阿维
2026-04-14 19:30:07
30分钟直扑东北!美国派48架F-35兵临城下,解放军:敢动就全歼

30分钟直扑东北!美国派48架F-35兵临城下,解放军:敢动就全歼

爱一449
2026-04-13 21:15:23
威少告别第18季:如果国王欢迎我愿回归 希望2028年还在球场上

威少告别第18季:如果国王欢迎我愿回归 希望2028年还在球场上

罗说NBA
2026-04-14 06:46:15
沈阳最著名的烂尾楼终于要再见了

沈阳最著名的烂尾楼终于要再见了

沈阳生活圈i
2026-04-14 14:48:10
大嫂去镇里盖章被卡3天,我把镇长叫来:今天不盖,就别当镇长了

大嫂去镇里盖章被卡3天,我把镇长叫来:今天不盖,就别当镇长了

千秋文化
2026-03-19 21:20:39
主动撕毁中国订单,拒赔361亿违约金,如今再次上门求助了

主动撕毁中国订单,拒赔361亿违约金,如今再次上门求助了

混沌录
2026-04-14 20:59:26
从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

爱看剧的阿峰
2026-04-13 12:10:55
事关伊朗,特朗普给了中国两条路,王毅二话不说,马上给俄发邀请

事关伊朗,特朗普给了中国两条路,王毅二话不说,马上给俄发邀请

兰妮搞笑分享
2026-04-14 10:49:26
约合人民币43.6万元,2027款兰德酷路泽发布,2.4T混动,哑光车漆

约合人民币43.6万元,2027款兰德酷路泽发布,2.4T混动,哑光车漆

沙雕小琳琳
2026-04-13 17:22:08
紧急!广东17款饮用水全中招 细菌超标下架召回

紧急!广东17款饮用水全中招 细菌超标下架召回

健身狂人
2026-04-14 11:01:30
004核航母落空?美媒:除关键术落后,多个原因让中国不必要造它

004核航母落空?美媒:除关键术落后,多个原因让中国不必要造它

温读史
2026-04-12 10:25:41
AMD X3D杀手终于来了!Intel 52核怪兽将重夺游戏霸主地位:支持DDR5-8000极速内存、TDP达175W

AMD X3D杀手终于来了!Intel 52核怪兽将重夺游戏霸主地位:支持DDR5-8000极速内存、TDP达175W

快科技
2026-04-14 12:01:35
后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

青梅侃史啊
2026-04-14 07:17:00
女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

i书与房
2026-03-25 16:30:22
2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

就一点
2026-03-28 17:42:50
2026-04-15 03:04:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2342文章数 596关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

以色列开出与伊朗停战先决条件

头条要闻

以色列开出与伊朗停战先决条件

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

房产
亲子
教育
本地
公开课

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

亲子要闻

南京未见!樾满云川,为江宁发明满分童年

教育要闻

他们眼里的光被点燃!中华中学首届南大班学习成果汇报

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版