网易首页 > 网易号 > 正文 申请入驻

推荐算法遇到后悔药:评蚂蚁的ESCM2模型

0
分享至

好久没有写关于单篇文章的解读了。但是今天这一篇《ESCM2: Entire Space Counterfactual Multi-Task Model for Post-Click Conversion Rate Estimation》必须值得单独写一篇解读。原因有二:

·文章非常有现实意义。这篇2022年的阿里新文,是关于“因果推断”、“反事实学习”在推荐模型中的应用,用于减轻建模一条转化链条的前后环节之间存在的bias,解决的确是推荐算法的一个痛点。

·文章写得,真的不好懂。文章中“怎么做”、“为什么这样做”,还有一堆数学证明杂揉在一起,找人摸不清文章的网络和重点。顺着原文来读,思路极容易被打断。而且表达同样意思的公式,可能写了两遍,用了两种符号。有的重要结论,只用文字轻描淡写提了一句,而没有写成公式引起读者的注意。唉,可能作者也没办法,论文这东西就是八股文。

Causal Inference和Counterfactual Learning,和我们平常用到的Machine Learning理论上还是有所不同的,我也是一知半解,所以在本文中将我的疑问也列举出来,欢迎大家一起来讨论。


一、要解决的问题

阿里的这篇文章,应对的是CVR建模问题。在电商环境下,用户转化需要“先曝光->再点击->最后购买”,三个环节之间存在先后顺序之分,也蕴含着因果关系。

业务要求建模三个目标:

  • CTR:从曝光到点击的概率

  • CVR:从点击到购买的概率

  • CTCVR:从曝光到购买的概率

二、中间环节单独建模的意义

这里需要指出的是,单独对中间环节建模(i.e., 这里的CVR)的意义:

  • 理论上,我们只关心购买。如果CTCVR预测的是准确的,那么其实没必要单独建模CVR。以最终CTCVR排序即可。

  • 但是,以上两个假设都不成立

    • 首先,CTCVR预测得肯定有误差

    • 其次,业务要求,使我们需要关心中间环节。比如广告场景下,不同的转化环节,不同的计费模式。

  • 因此,这里必须把cvr, ctr, ctcvr都预测出来,再把三个分数加权成一个综合得分,再排序

  • 而在其他一些场景下,比如内容推荐场景下,就直接建模ctr和“完播”就行了,没再建模“点击后完播”的条件概率。当然,未来可以借鉴电商广告场景,把中间环节拎出来单独建模。


三、建模中间环节的Naive方法

写出loss来很容易

  • 是user 'u’对item 'i’是否转化的ground truth label

  • 是CVR model的预测结果 问题就在于的 样 本上(click space, 下图中的O)才能拿得到

因此,一种naive的方法,训练的时候,只拿click=1样本(click space, O)来训练CVR模型。存在两个问题:

  • 问题1:训练空间与预测空间不匹配

    • 训练的时候,是拿所有click=1的样本来训练,的匹配性已经非常高了。

    • 而预测的时候,只是经过召回、粗排的粗筛,的匹配度还非常低。

    • 两个空间不匹配,训练时缺失的那部分样本,是由系统性的sample selection bias造成的,Missing Not At Random(MNAR)

  • 问题2:只用click=1的样本,训练数据比较少


四、ESMM方法的缺点

为了解决Naive方式以上两个问题,阿里提出了ESMM

  • ESMM实际上是回避了单独建模CVR的问题

  • 两个loss,一个ctr loss,另一个ctcvr loss,都是在整个“曝光样本空间”D上建模

  • CVR= CTCVR / CTR

优点:CTR和CTCVR都是在全体曝光样本上建模的,因此两者相除的结果CVR也算是在全体曝光样本上建模的。因此,CVR模型训练与预测同分布(实际上训练是在曝光样本空间,预测是在召回样本空间,不过这点差异,大家都约定俗成,不予追究了),算是解决了sample selection bias的问题。

缺点:

  • 一是Inherent Estimation Bias (IEB),认为ESMM的CVR得分存在系统性的bias,普遍偏高

  • 二是Potential Independence Priority (PIP)

  • 我理解成,算是另外一种反向sample selection bias

  • 因为CTR, CTCVR都是在全体曝光空间D上建模的,两者的商CVR也是建模在全体曝光空间上的,对于消除training/inference之间的gap当然是好事。

  • 但是CVR的含义毕竟是“点击后再转化”的概率,click->convert之间的因果关系就建模不出来了。

但是CVR=CTCVR/CTR这个公式是肯定不会有错的,那么以上两点偏差是从何而来的?我觉得是:要让这个公式成立,需要理想化的条件,是现实无法满足的。比如,训练CTCVR也是认为,如果最终click & convert=0,就代表着用户不喜欢。但是有可能是因为CTR模型预估得不准,把item排在不好的位置,让用户失去了click的机会,而实际上应该是很高的。这也就是论文中所谓“反事实”的含义。

Entire Space Counterfactual Multi-task Modelling (ESCM2)

ESCM采用了一种与ESMM完全不同的思路:

  • CVR遵循其名称的本意,还是只拿click=1的数据来训练

  • 但是采用一些因果推断、反事实学习的方法,在训练过程中就减轻Sample Selection Bais(SSB)、Missing Not At Random(MNAR)带来的负面影响。

  • 最终得到的模型,尽管是只用click=1样本训练出来的,但是在全样本空间预测时,也能得到"unbiased"的结果。(unbiased是论文里宣称的效果,还用数学证明了。我觉得那是理论结论,现实中做不到,至多是降低bias)

整个ESCM都是围绕着如下公式开展的

  • 在全量曝光样本D上建模ctr loss

  • 是在click=1的点击空间O上建模“最终转化loss”

  • 用ESMM一样,用ctcvr=ctr*cvr为预测值,用最终是否转化为label,计算binary cross-entropy loss。

  • 论文中说“the global risk minimizer optimizes the risk of CTCVR estimation over D”,我觉得是论文在这里写错了

  • 首先论文中图4“Global Risk Minimizer”下边就有“O”(代表click space)的字样

  • 论文里还说“The amount of training data for CTR task is significantly greater than that of CVR and CTCVR tasks by 1-2 order of magnitudes.”,所以ctcvr也应该是在click space中建模的

  • 还有建模ctcvr时,用到的ctcvr prediction是由predict ctr * predict cvr相乘得到的。predict cvr肯定是只由click=1的样本上训练得到的(这是本文区别ESMM的最大区别),所以ctcvr也应该是只在click=1的样本上建模。

  • 到底在哪个空间建模,要区分具体是用IPS实现,还是DR实现。


五、用IPS实现CVR建模

或者写得更具体一点


  • 是用户是否点击的label。因此,尽管公式的计算范围是D(全体曝光样本),但是实际上是只拿点击样本建立loss

  • 是user 'u’对item 'i’是否转化的ground truth label。毕竟只有click=1的样本上的才是可信的

  • 是CVR tower的预测结果

  • 都是ctr tower的预测值

  • 然后,我们要建模的。(这也是这篇文章难懂的原因之一,同一个意思在不同地方用不同的符号来表达,也没有一个地方写清楚这个两个符号表达同样含义。)

不要看原论文中的图4,在IPS实现中是压根没有中间那个计算Imputation Error的塔的。更准确的图是《LARGE-SCALE CAUSAL APPROACHES TO DEBIASING POST-CLICK CONVERSION RATE ESTIMATION WITH MULTI-TASK LEARNING》中的图4。注意右下角的“O”,说明CVR只在click=1的空间上建模。

对于以上公式的解读,我看到的解释都是:

  • 如果ctr高,还转化了,是理所应当的,权重应该低一些

  • 如果ctr低,最终反而转化了,是Counterfactual的,正好是对Sample Selection Bias的有力反击,所以权重应该大一些。

但是我始终有一个疑问,ctr高低来决定样本权重,难道不应该视样本的正负而定吗?

  • ctr高,还转化了,没啥新鲜的,权重理应低一些

  • ctr高,但是未转化,这个非常非常counterfactual,权重理应更高

  • 全用inverse ctr当权重,“一视同仁”,不太合适吧

另外,论文里说用这种IPS建模,尽管是在click=1的样本训练,但是在全体样本空间预测时得到的cvr也是unbiasd。我不太相信,我们是在debias,不是在unbias。cvr都是在点击样本上训练得到的,尽管以inverse ctr反向加权,但是点击样本中的ctr基本上都不低吧。

六、用DR实现CVR建模

认为IPS中用predict ctr 当propensity score,毕竟是预测值,偏差会高,因此采用如下Doubly Robust来计算 。

写得更具体一些

  • 不同于IPS,DR是在整个曝光样本空间上建模

  • 是imputed error,全体曝光空间上的“推测cvr loss”

  • 因为只有click=1的样本才有是否转化的真实label,所以只有在click=1的样本上计算出来的cvr loss δu,i 才是真实可信的

  • 在除了click之外的剩余的曝光空间上,我们无法计算出真实的δu,i 。所以,我们单独建立一个模型来模拟在click=0上的cvr loss,就是这里的imputed error。再次发挥了DNN中的“无中生有、空手套白狼”的本事。


  • 就是imputation tower"凭空"造出来的输出,是建模在全体曝光样本空间上的

  • δu,i 在click space上,根据predicted cvr和convert ground truth计算得到的真实cvr loss

Doubly Robust的意义,我看到的解释都是:起到一个双保险的作用,只要propensity score,和imputed error,有一个预测得准,就能起到debias的作用。

  • 的准确性,是由ctr tower决定的,是被“是否点击”的ground truth label限制住的。

  • 但是谁来保证的准确性?

点击样本

如果是click样本,即,再忽略分母的影响,则,就是点击样本上的真实cvr loss。那么的准确性就由converted ground truth label给约束住了。而且还加上如下mse loss,减少真实cvr loss与imputed cvr loss之间的距离。

总之,对于click样本,采用如下公式计算,准确性是有保障的。

曝光未点击样本

但是对于click=0的曝光样本呢?整个cvr loss就只剩下了imputed cvr loss

。由于我们拿不到click=0的曝光样本上的“是否转化”的ground truth,

本来就是由模型“无中生有”硬造出来的,岂不是就没有了约束?比如这个模型可以让其中所有W、b都变成0,那么不也变成0了吗?

在我看来,还就真的没有对的直接约束,对它的约束都是间接的。因为对于click=0和click=1的样本,共享一套模型参数。而当click=1时的“是否转化”的ground truth label,把模型参数约束住了,那就不会出现W、b都变成0的情况,

在click=0的样本上也不会无下限的小下去。或许这就是在论文里,称

这一项为regularizer的原因,毕竟对于regularizer来说,约束就是它自己。

整体结构

论文中说,“ESCM2-DR: It augments ESCM2-IPS with an imputation tower”。所以,我觉得这里的应该如下:

整体架构如下:

  • 左边的塔,在全体曝光样本上训练,得到ctr

  • 预测出来的ctr,喂入Empirical Risk Minimizer,计算

  • ctr的倒数喂入Counterfactual Risk Minimizer,计

  • 右边的塔,在点击样本上训练,得到cvr。

  • 由cvr,计算出点击样本上的真实cvr loss "",喂入Counterfactual Risk Minimizer,参与计算

  • ctr tower输出的predict ctr,和这里输出的predict cvr相乘,得到点击空间上的predict ctcvr,喂入Global Risk Minimizer计算点击空间上的

  • 中间的塔,在全量曝光样本上,预测输出imputed cvr loss

  • 中间的Counterfactual Risk Minimizer,输入全体曝光上样本上的ctr和,还有点击样本上的真实cvr loss,计算得到曝光空间上的

七、结尾

本文和ESMM面向的问题是一样的,解决“转化链路多环节之间的bias”,但是与ESMM采用了完全不同的思路

  • ESMM不直接优化CVR,而是在全体曝光样本上优化cvr loss和ctcvr loss,再用cvr=ctcvr/ctr来得到cvr,从而使训练和预测CVR的所使用的数据同分布,解决sample selection bias

  • ESCM回归cvr的本质,只拿click数据上训练、优化cvr loss。但是通过Counterfactual方法debias,使只用click数据得到的模型,能够在面对全量数据预测时,产生所谓“unbias”的结果。

另外,论文中还有几点:

  • 底层是一个MMOE

  • “we implemented ESMM and ESCM2 with our internal C++ based deep learning framework, where ESCM2 was built with the IPS regularizer for its competitive offline performance and training efficiency.”。所以最终上线的是哪一种?只使用了IPS,而没有使用DR?

作者:石塔西

Illustration b y Julia Kuptsova from icon s8

-The End-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘强东带章泽天见特朗普,她拿56万爱马仕包,看到特朗普笑得很甜

刘强东带章泽天见特朗普,她拿56万爱马仕包,看到特朗普笑得很甜

做一个合格的吃瓜群众
2025-11-02 04:30:46
历史上的施琅、清军攻台

历史上的施琅、清军攻台

名人苟或
2025-10-30 06:31:08
国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

董董历史烩
2025-11-01 14:13:05
“中国巴菲特”捐了市值1500万元茅台股票!本人回应:他们每年花分红就好

“中国巴菲特”捐了市值1500万元茅台股票!本人回应:他们每年花分红就好

每日经济新闻
2025-11-02 00:18:11
张本美和3-4王艺迪,可怕不是输球,而是张本美和这番话 被打哭了

张本美和3-4王艺迪,可怕不是输球,而是张本美和这番话 被打哭了

梅亭谈
2025-11-02 05:33:47
大嘴女星的祼照!宋茜PK周雨彤!

大嘴女星的祼照!宋茜PK周雨彤!

八卦疯叔
2025-11-02 10:10:03
凌晨3点,杭州这里全是人!有人半夜从上海、江苏赶来……

凌晨3点,杭州这里全是人!有人半夜从上海、江苏赶来……

我们大杭州
2025-11-02 07:30:33
国际空间站7大禁令:禁止发生性关系……最离谱的却是最后一条!

国际空间站7大禁令:禁止发生性关系……最离谱的却是最后一条!

徐德文科学频道
2025-09-25 20:05:13
东莞传奇水蛇姐:以五项绝技名震莞城,得罪某位大人物后离奇消失

东莞传奇水蛇姐:以五项绝技名震莞城,得罪某位大人物后离奇消失

吴学华看天下
2024-07-24 10:23:35
翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

金牌娱乐
2025-11-02 09:53:48
女生发明“咯噔字体”,被老师0分警告:别用个性挑战考试的底线

女生发明“咯噔字体”,被老师0分警告:别用个性挑战考试的底线

妍妍教育日记
2025-11-01 12:00:56
官宣,王少杰发声,正式加盟,出发北京,名单公布,杜锋祝福

官宣,王少杰发声,正式加盟,出发北京,名单公布,杜锋祝福

乐聊球
2025-11-01 10:06:24
没他在利物浦2-0!1.36亿水货14场仍0球 长传离谱出边线+对抗4赢1

没他在利物浦2-0!1.36亿水货14场仍0球 长传离谱出边线+对抗4赢1

我爱英超
2025-11-02 06:38:56
洪秀柱:两岸关系“不要那么复杂,未来谋求统一”

洪秀柱:两岸关系“不要那么复杂,未来谋求统一”

参考消息
2025-11-01 19:25:09
英首相:就算中国施压,也不会批准这件事,但中方得答应一个要求

英首相:就算中国施压,也不会批准这件事,但中方得答应一个要求

策略述
2025-11-01 15:17:41
俄罗斯计划在被占领土动员5万至10万乌克兰人参加对乌克兰的攻击

俄罗斯计划在被占领土动员5万至10万乌克兰人参加对乌克兰的攻击

山河路口
2025-11-01 23:56:08
助力高校毕业生走稳就业路(校园观察@大学生)

助力高校毕业生走稳就业路(校园观察@大学生)

金台资讯
2025-11-02 06:07:03
局长去世同事疏远,只有女副科长去吊唁,三年后女副科升正局

局长去世同事疏远,只有女副科长去吊唁,三年后女副科升正局

秋风专栏
2025-10-30 10:44:21
李云迪X侵司晓迪的后续瓜!

李云迪X侵司晓迪的后续瓜!

八卦疯叔
2025-11-01 10:50:45
1985年,叛逃至台湾的飞行员萧天润和台湾美女主播张德芬结婚了

1985年,叛逃至台湾的飞行员萧天润和台湾美女主播张德芬结婚了

忠于法纪
2025-11-01 09:22:20
2025-11-02 11:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2247文章数 595关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

媒体:中国航天又创纪录 美国急了要赶在中国之前登月

头条要闻

媒体:中国航天又创纪录 美国急了要赶在中国之前登月

体育要闻

李大林获2025北马国内男子组冠军

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

房产
旅游
家居
本地
公开课

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

旅游要闻

北京香山等景区周末迎赏红叶客流高峰,地铁换乘站排队1小时起

家居要闻

吸睛艺术 富有传奇色彩

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版