2019年,谷歌广告团队内部流传着一个尴尬的数据:某大客户砍掉50%搜索预算,销售额几乎没动。市场部的人面面相觑——过去十年,他们一直把"搜索广告带动销售"当成铁律。
问题出在哪?不是广告没用,是"有用"这件事根本没法证明。用户搜"耐克跑鞋"然后下单,到底是因为广告,还是本来就打算买?这个困惑像根刺,扎在所有效果广告从业者心里。
一个反直觉的发现:因果推断比相关性难100倍
传统统计学的解法简单粗暴:对比看广告和没看广告的人,转化率差多少。但这招有个致命漏洞——愿意点广告的人,本身购买意愿就强。你比较的压根不是同一群人。
谷歌经济学家Hal Varian(哈尔·瓦里安)团队试过更精细的模型,控制用户年龄、地域、历史行为……变量越加越多,结论越来越稳,但怀疑者一句话就能怼回来:「你们没控制到的因素呢?」
没控制到的,就是混杂因素(Confounder)。它既影响用户看不看广告,又影响用户买不买,像根隐形的线把两个变量捆在一起。你看到的"广告效果",可能只是混杂因素在演戏。
2016年,谷歌和加州大学伯克利分校的合作团队发表了一篇内部论文,标题很学术:《广告效果估计中的因果推断方法》。核心方案叫工具变量(Instrumental Variables),简称IV。
工具变量的设计像一把手术刀:找一个只影响"看不看广告"、但不直接影响"买不买"的外部因素,把它当成杠杆,撬开混杂因素的纠缠。
谷歌找到的杠杆是广告竞价系统的技术故障。
故障变实验:当系统bug成为天赐良机
2012年某次系统升级后,美国部分地区的广告展示出现随机波动——不是算法调整,纯粹是工程层面的技术噪声。有些用户本该看到某品牌的搜索广告,结果没显示;另一些用户本该看不到,却意外刷到了。
这种"错误"持续了约6周,影响数百万次展示。对广告主是灾难,对经济学家是金矿。
团队用这次故障构建了工具变量:广告是否展示,受系统噪声影响(满足"相关性"),但噪声本身和用户购买意愿无关(满足"排他性")。两个条件同时成立,混杂因素被隔离在外。
分析结果让内部人倒吸凉气。传统模型显示搜索广告ROI(投资回报率)为+120%,IV模型修正后降至+30%。那90%的"水分",全是混杂因素假扮的。
「我们过去可能高估了自有品牌词的效果。」论文作者之一Garrett Johnson(加勒特·约翰逊)在2019年的一次学术会议上承认。自有品牌词指用户直接搜品牌名,比如"耐克官网"——这类人本来就要买,广告只是顺路截胡。
从学术玩具到行业标准:3年渗透路径
谷歌的IV论文最初锁在抽屉里。2019年Meta(当时还叫Facebook)广告研究团队遇到同样困境:iOS 14隐私政策变化后,归因窗口缩短,传统追踪失效。
Meta工程师Srinath Sridhar(斯里纳特·斯里达尔)在2021年的技术博客中透露,他们转向了"增量测试"(Lift Studies),本质就是工具变量的工业变体。随机向部分用户隐藏广告,对比两组差异——自己制造故障,而非等待故障发生。
2022年,亚马逊广告团队跟进。他们在AWS re:Invent大会上展示了一套"因果推断引擎",把IV方法嵌入实时竞价系统。广告主可以一键开启"科学模式",用算法自动寻找近似工具变量的自然实验机会。
国内大厂的动作稍晚但更快。字节跳动巨量引擎2023年上线"增效度量"产品,拼多多同年推出"广告真实价值报告"。两家都采用了"地理围栏+时间断点"的设计:选定部分城市暂停投放,观察周边城市的溢出效应,反向推算真实增量。
这套方法有个隐蔽的成本。制造对照组意味着主动放弃部分收入,Meta 2022年Q2财报电话会上,CFO Dave Wehner(戴夫·韦纳)承认"增量测试对短期广告收入有负面影响"——但为了"长期客户信任",值得。
工具变量的边界:不是所有场景都能用
IV方法有严格的适用条件。工具变量必须像一把只开一扇门的钥匙:能打开"广告曝光"这扇门,但碰不到"购买决策"那扇。
现实中符合条件的场景稀缺。系统故障是偶然,主动设计的实验又可能扰动用户体验。更麻烦的是"弱工具变量"问题——如果钥匙太钝,撬不开门,估计结果会比传统方法更偏。
2023年,斯坦福经济学教授Susan Athey(苏珊·阿特伊)在NBER工作论文中警告:工业界对IV的滥用正在蔓延。「我看到太多报告把任何随机波动都当成工具变量,忽略了排他性约束的检验。」
她的团队开发了一套自动化诊断工具,可以检测工具变量是否"干净"。论文附录里有个案例:某出行平台用"司机端App版本更新延迟"作为工具变量,估计补贴对订单量的影响。诊断发现,延迟更新的司机集中在低活跃度群体,工具变量和司机特质相关,排他性假设不成立。结论推翻,模型重做。
国内某头部电商的数据科学家向我透露,他们2023年上线IV系统后,前三个月跑出的结果"几乎全是错的"。问题出在工具变量的筛选环节——工程师图省事,把"是否命中实验桶"直接当工具变量,但实验桶的分配和用户历史行为相关。
「后来我们加了12道检验,通过率从80%压到15%。」他说,「但通过的15%,可信度确实高。」
回到那个尴尬的数据
2019年砍掉50%搜索预算的那家大客户,后来成了谷歌IV方法的早期采用者。重新测算后,他们发现被砍掉的预算里,真正产生增量的只有23%。剩下77%投给了本来就打算购买的人。
这个发现没有让他们彻底放弃搜索广告,而是重构了出价策略。品牌词预算削减60%,竞品词和非品牌词加码。整体ROI提升,总花费反而下降。
谷歌广告团队在2022年把IV方法产品化,取名"Conversion Lift"。开通门槛很高:月消耗50万美元以上,且愿意接受为期4周的对照组实验。截至2023年底,全球约1200个广告主在使用。
Meta的类似产品"GeoLift"更激进,允许广告主自选实验区域,最短2周出结论。但学术界质疑声不断:地理边界上的用户流动会污染对照组,2周周期可能捕捉不到滞后效应。
工具变量从经济学论文走进广告后台,用了整整7年。它没能解决所有测量难题,但至少把"无法证明"变成了"可以检验"。
下一个被颠覆的会是什么?当隐私政策进一步收紧,归因窗口彻底消失,广告主还能相信什么?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.