谷歌用这方法算出广告真实价值，3年后全行业跟进了|算法|实验|meta|网络信息|知名企业

谷歌用这方法算出广告真实价值，3年后全行业跟进了

2026-04-13 17:28:37　来源: 固件更新中

北京举报

分享至

2019年，谷歌广告团队内部流传着一个尴尬的数据：某大客户砍掉50%搜索预算，销售额几乎没动。市场部的人面面相觑——过去十年，他们一直把"搜索广告带动销售"当成铁律。

问题出在哪？不是广告没用，是"有用"这件事根本没法证明。用户搜"耐克跑鞋"然后下单，到底是因为广告，还是本来就打算买？这个困惑像根刺，扎在所有效果广告从业者心里。

一个反直觉的发现：因果推断比相关性难100倍

传统统计学的解法简单粗暴：对比看广告和没看广告的人，转化率差多少。但这招有个致命漏洞——愿意点广告的人，本身购买意愿就强。你比较的压根不是同一群人。

谷歌经济学家Hal Varian（哈尔·瓦里安）团队试过更精细的模型，控制用户年龄、地域、历史行为……变量越加越多，结论越来越稳，但怀疑者一句话就能怼回来：「你们没控制到的因素呢？」

没控制到的，就是混杂因素（Confounder）。它既影响用户看不看广告，又影响用户买不买，像根隐形的线把两个变量捆在一起。你看到的"广告效果"，可能只是混杂因素在演戏。

2016年，谷歌和加州大学伯克利分校的合作团队发表了一篇内部论文，标题很学术：《广告效果估计中的因果推断方法》。核心方案叫工具变量（Instrumental Variables），简称IV。

工具变量的设计像一把手术刀：找一个只影响"看不看广告"、但不直接影响"买不买"的外部因素，把它当成杠杆，撬开混杂因素的纠缠。

谷歌找到的杠杆是广告竞价系统的技术故障。

故障变实验：当系统bug成为天赐良机

2012年某次系统升级后，美国部分地区的广告展示出现随机波动——不是算法调整，纯粹是工程层面的技术噪声。有些用户本该看到某品牌的搜索广告，结果没显示；另一些用户本该看不到，却意外刷到了。

这种"错误"持续了约6周，影响数百万次展示。对广告主是灾难，对经济学家是金矿。

团队用这次故障构建了工具变量：广告是否展示，受系统噪声影响（满足"相关性"），但噪声本身和用户购买意愿无关（满足"排他性"）。两个条件同时成立，混杂因素被隔离在外。

分析结果让内部人倒吸凉气。传统模型显示搜索广告ROI（投资回报率）为+120%，IV模型修正后降至+30%。那90%的"水分"，全是混杂因素假扮的。

「我们过去可能高估了自有品牌词的效果。」论文作者之一Garrett Johnson（加勒特·约翰逊）在2019年的一次学术会议上承认。自有品牌词指用户直接搜品牌名，比如"耐克官网"——这类人本来就要买，广告只是顺路截胡。

从学术玩具到行业标准：3年渗透路径

谷歌的IV论文最初锁在抽屉里。2019年Meta（当时还叫Facebook）广告研究团队遇到同样困境：iOS 14隐私政策变化后，归因窗口缩短，传统追踪失效。

Meta工程师Srinath Sridhar（斯里纳特·斯里达尔）在2021年的技术博客中透露，他们转向了"增量测试"（Lift Studies），本质就是工具变量的工业变体。随机向部分用户隐藏广告，对比两组差异——自己制造故障，而非等待故障发生。

2022年，亚马逊广告团队跟进。他们在AWS re:Invent大会上展示了一套"因果推断引擎"，把IV方法嵌入实时竞价系统。广告主可以一键开启"科学模式"，用算法自动寻找近似工具变量的自然实验机会。

国内大厂的动作稍晚但更快。字节跳动巨量引擎2023年上线"增效度量"产品，拼多多同年推出"广告真实价值报告"。两家都采用了"地理围栏+时间断点"的设计：选定部分城市暂停投放，观察周边城市的溢出效应，反向推算真实增量。

这套方法有个隐蔽的成本。制造对照组意味着主动放弃部分收入，Meta 2022年Q2财报电话会上，CFO Dave Wehner（戴夫·韦纳）承认"增量测试对短期广告收入有负面影响"——但为了"长期客户信任"，值得。

工具变量的边界：不是所有场景都能用

IV方法有严格的适用条件。工具变量必须像一把只开一扇门的钥匙：能打开"广告曝光"这扇门，但碰不到"购买决策"那扇。

现实中符合条件的场景稀缺。系统故障是偶然，主动设计的实验又可能扰动用户体验。更麻烦的是"弱工具变量"问题——如果钥匙太钝，撬不开门，估计结果会比传统方法更偏。

2023年，斯坦福经济学教授Susan Athey（苏珊·阿特伊）在NBER工作论文中警告：工业界对IV的滥用正在蔓延。「我看到太多报告把任何随机波动都当成工具变量，忽略了排他性约束的检验。」

她的团队开发了一套自动化诊断工具，可以检测工具变量是否"干净"。论文附录里有个案例：某出行平台用"司机端App版本更新延迟"作为工具变量，估计补贴对订单量的影响。诊断发现，延迟更新的司机集中在低活跃度群体，工具变量和司机特质相关，排他性假设不成立。结论推翻，模型重做。

国内某头部电商的数据科学家向我透露，他们2023年上线IV系统后，前三个月跑出的结果"几乎全是错的"。问题出在工具变量的筛选环节——工程师图省事，把"是否命中实验桶"直接当工具变量，但实验桶的分配和用户历史行为相关。

「后来我们加了12道检验，通过率从80%压到15%。」他说，「但通过的15%，可信度确实高。」

回到那个尴尬的数据

2019年砍掉50%搜索预算的那家大客户，后来成了谷歌IV方法的早期采用者。重新测算后，他们发现被砍掉的预算里，真正产生增量的只有23%。剩下77%投给了本来就打算购买的人。

这个发现没有让他们彻底放弃搜索广告，而是重构了出价策略。品牌词预算削减60%，竞品词和非品牌词加码。整体ROI提升，总花费反而下降。

谷歌广告团队在2022年把IV方法产品化，取名"Conversion Lift"。开通门槛很高：月消耗50万美元以上，且愿意接受为期4周的对照组实验。截至2023年底，全球约1200个广告主在使用。

Meta的类似产品"GeoLift"更激进，允许广告主自选实验区域，最短2周出结论。但学术界质疑声不断：地理边界上的用户流动会污染对照组，2周周期可能捕捉不到滞后效应。

工具变量从经济学论文走进广告后台，用了整整7年。它没能解决所有测量难题，但至少把"无法证明"变成了"可以检验"。

下一个被颠覆的会是什么？当隐私政策进一步收紧，归因窗口彻底消失，广告主还能相信什么？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

谷歌用这方法算出广告真实价值，3年后全行业跟进了

一个反直觉的发现：因果推断比相关性难100倍

故障变实验：当系统bug成为天赐良机

从学术玩具到行业标准：3年渗透路径

工具变量的边界：不是所有场景都能用

回到那个尴尬的数据

"抄作业"近四年，马斯克版微信周五上线

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

一支球队不够烂，也是一种悲哀

初代“跑男团”合体，邓超、鹿晗缺席

谈判未完全关闭？3国力促美伊重启谈判

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

复古风格 自然简约

老了才明白：不管多 心疼儿女，帮忙带 娃时，都要留意这3点

干细胞抗衰4大误区,90%的人都中招

6000亿投资盛宴，全球巨头齐聚，海南又要干件大事！

上海女子2个月内结2次婚生下的孩子却是第3个男人的

上海女子2个月内结2次婚生下的孩子却是第3个男人的

不止命名更纯粹领克10/10+要做纯电操控新王

复古风格自然简约

老了才明白：不管多心疼儿女，帮忙带娃时，都要留意这3点