网易首页 > 网易号 > 正文 申请入驻

为什么互联网巨头如此热衷于A/B测试?

0
分享至

编辑导语:近年来,A/B测试受到了许多互联网巨头的青睐,A/B测试源于学术层面的“随机对照试验”,作为一种方法论,它在互联网领域该如何应用呢?

  一、A/B测试前身:历史悠久的对照实验

  今天互联网巨头热衷的A/B测试,其实源于学术层面的“随机对照试验”,作为一种方法论,这种对照试验有着悠久的历史。

  1747年,为了治疗坏血病,皇家海军的外科医生James Lind 设计了一项实验。他测试了苹果醋、大麦水、橘子等六种不同药方。

  最终发现新鲜的橘子为最佳的治疗药物,尽管那时并不清楚是橘子中维C的作用。

  1835年,医学史上第一次“双盲实验”在纽伦堡实现。一位名为弗里德里希的公共卫生官员,为对抗当时颇为流行的顺势疗法开启了一个赌注:将25瓶顺势疗法盐水和25瓶蒸馏水分发给50位双盲受试者。

  最后8位声称产生了治疗效果,但揭盲后发现,有3位喝的其实是蒸馏水,弗里德里希赢得了赌注。

  1935年,统计学家兼生物学家罗纳德·费雪(Ronald Fisher)写了一本名为《实验设计》的书。在书中,他系统论述了随机对照实验的设计原则和统计检验的方法,成为实验设计领域的开山之作。

  1944年,在制造原子弹的过程中,曼哈顿计划的领军科学家奥本海默,用3种方法测试如何分离铀235,这一步骤成为整个项目中最关键的环节之一。

  1960年代,大卫·奥格威用对照测试的方法验证广告的有效性——写两条不同的文案并要求报纸将其各印一半,同时在文案中留下索取免费样品的邮编和地址,但样式不一样,最终根据实际样品索取量来观察哪种文案效果更好。

  可以清楚地看到,随机对照实验作为一种方法论,在现代科学和商业发展中发挥了重要作用。

  它本质上能通过控制单一变量的方法来寻找最优解决方案,已经被广泛运用到工程学、医学、教育学和多个领域的商业实践中。

  而我们今天要聊的A/B测试其实就是随机对照实验在互联网领域的具体应用。

  二、A/B测试,互联网巨头的标配

  A/B测试——又被称为小流量实验。

  通常是针对某个功能/UI/逻辑策略等,提供两种(或多种)不同的备选解决方案,从总体用户中随机抽取一小部分流量,分配给不同方案,最终通过实验数据对比来确定最优方案。

  今天,在硅谷和中国的互联网头部企业,A/B测试已经成为业务发展的标配。我们简单梳理下A/B测试是如何风靡各大互联网巨头的。

  2000年2月27日,谷歌搜索部门的一位工程师进行了互联网时代的第一次A/B测试——他想知道搜索结果每页展示多少条是效果最好的,当时默认为 10。

  实验是这样设计的:

  • 对于0.1%的搜索流量,每页显示20条结果;
  • 另外两个0.1%分别显示25条、30条。

  这次测试从直接结果看并不成功。由于技术故障,实验组页面的加载速度明显慢于对照组,最终导致实验的相关指标下降。

  但谷歌因此获得了意外收获,他们发现即便是0.1秒的加载延迟也会显著影响用户满意度。很快,谷歌将改善响应时间提升为高优先级事项。

  以这次实验为开端,A/B测试在谷歌内部快速流行起来。

  2012年,据谷歌的首席经济学家范里安称,谷歌每年就会开展超过5000次的A/B测试。

  亚马逊早期,工程师Greg Linden曾提出一个想法:在客户支付时,根据他们购物车中的商品,向他们提供个性化的“冲动购买”建议。

  他精心做了一个Demo,但演示后当时亚马逊的一位副总裁武断地否决了这一想法。Greg Linden并不气馁,他业余时间用三个半月完成了这一功能的开发,并对这个功能进行了小流量的测试。

  结果证明,即便是这个极其粗糙、简陋的版本,也让实验组用户的购买规模提升了17%。

  于是,“商品推荐”这个今天司空见惯的功能从此在亚马逊开启。

  在Facebook,CEO扎克伯格曾公开宣称:

“在任何给定的时间点,都不会只有一个版本的 Facebook 在线上运行,而是有超过一万个,我们的实验框架能随时发现和感知用户最细微的行为差异。”

  在中国,头部的互联网企业也都有自己的A/B测试平台。比如字节跳动的Libra、美团的Gemini、滴滴的阿波罗。

  张一鸣曾表示:

“即使你有99%的把握某个名字比另一个名字更好,测一测又有什么关系呢?”

  目前在字节跳动,每天同时进行的A/B测试达上万场,单日新增实验数量超过1500个,覆盖400多项业务。截至今年3月底,字节跳动累计已经做了70多万次。

  三、为什么互联网巨头热衷于A/B测试?

  互联网公司大规模运用A/B测试并非偶然,这背后深层次的原因在于:A/B测试是数据驱动理念的最佳落地实践,它能以最小的风险实现业务的有效反馈。

  字节跳动在发布APP的时候,通常会给APP取多个名字,打多个包上架到应用市场进行A/B测试,观察不同名字的下载率、留存率等指标。

  这背后其实是一种尊重客观事实的决策哲学。

  事实上,在硅谷的互联网文化中,那些靠拍脑袋的决策有一个专有名词“HiPPO”:”Highest-paid person’s opinion”,即“公司收入最高的那个人说了算”。

  谷歌的技术专家Avinash Kaushik 曾说:

“大多数互联网产品都很糟糕,因为 HiPPO 创造了它们。”

  Netflix在2016年4月的一篇技术博客中写道:

“通过对照测试的方法,我们确保产品变更不是由最固执己见,和最有发言权的Netflix高管驱动,而是由实际的在线数据驱动,这是我们走向成功的基础。”

  有人会问:A/B测试的决策思想其实由来已久,为什么直到现在才变得流行起来?

  答案是实验成本。

  在硬件产品时代,产品的开发成本很高,一台电脑如果控制不同变量,事实上它就变成两台不同的电脑,本质上属于两条产品线,而开发多条产品线对于硬件产品的成本是非常高的。

  软件产品时代开发成本同样高昂,一个版本的Windows要开发数年,一个3A大作开发同样动辄数年,这样庞大的开发成本是无法同时进行不同版本的开发的。

  同时,无论是硬件产品还是软件产品,它们从开发、上市到客户反馈,这个周期是极其漫长的,这样冗长的周期也让灵活多变的A/B测试难以大规模应用。

  而到了互联网时代,每一个产品特性都可以快速迭代,每一次迭代都能迅速得到反馈。

  开发成本的降低和反馈周期的缩短,这两重因素无疑给A/B测试提供了极其便利的实践条件。

  为了让A/B测试的价值得到更大发挥,很多互联网巨头还将这项能力开放给C端用户。

  比如今日头条发布文章的界面,作者可以选取双标题和双封面,经过小流量的测试之后,推荐系统会自动推荐点击率高的标题。

  Facebook的广告系统也给广告主提供了一项组合实验能力,即客户可以上传不同的标题、描述、封面和按钮。

  Facebook自动对这些元素进行随机组合,形成多个创意进行A/B测试,自动将预算分配到转化率最高的创意组合上。

  为什么今天传统的“广告大师”越来越少了?

  因为互联网广告在很大程度上不再依靠“大师”的灵光乍现,而是更多地依靠优化师每天测试无数版文案和素材,甚至很多文案是机器生成的。

  四、如何利用工具做好A/B测试?

  我们在上面的部分了解了A/B测试的原理和意义,很多公司会问:我知道在增长日益困难的今天,A/B测试是一个好东西,那到底应该如何付诸实践呢?

  的确,A/B测试的实践并不是一个简单的过程,它比很多人想象得要困难,这个困难体现在几个层面:

  首先,需要确定A/B测试的关键环节。

  A/B测试到底测什么的问题,即企业必须清楚哪些环节是推动业务发展的关键,在关键环节上进行试验。

  如果找不到关键环节,在无关痛痒的环节上,无论做多少A/B测试也是徒劳的。

  其次,需要确保A/B测试过程的科学性和合理性。

  比如控制单一变量,即确保实验组和对照组只有一个关键变量是存在差异的;

  比如确保流量分配的均匀随机,即实验组和对照组的流量是完全独立的,不存在互相影响的关系。

  最后,还需要确定合适的评价指标。

  评价指标通常不止一个,是看A指标还是B指标?过程指标还是结果指标?短期指标还是长期指标?单个指标还是多重指标?这些都需要根据业务实际情况审慎决定。

  所以,A/B测试并不是一件容易的事。要充分解决以上问题,对于企业而言,开发一套完整的实验系统是其中的一个方案,但这通常需要较高的开发成本。

  另一种方式是使用成熟的第三方测试工具。

  比如字节跳动就将其内部的A/B测试技术能力,通过其旗下的To B品牌“火山引擎”统一对外开放。

  2014年,字节开始推动A/B测试的平台化,2016年正式建立A/B测试平台Libra。

  运行至今,Libra已经在字节的多个产品线验证了有效性,同时经过多年迭代,在实用性、易用性、灵活性等层面都得到了充分验证。

  火山引擎的A/B测试具体适用于哪些场景?主要有以下几个:

  • 个性化推送实验:在运营场景下支持APP个性化推送试验,比较不同组推送效果。
  • 可视化建站实验:无需代码,运营人员就可以直接在页面上修改文案等元素进行试验。
  • 多链接网页实验:在需要转跳网页的场景下,可以把流量打到不同的着陆页上去对比评估效果。
  • 客户端和服务端编程实验:从前端的交互、功能迭代到后端的策略和模型优化,支持灰度发布。

  火山引擎的A/B测试可以灵活支持获客、留存、转化、传播等各个环节的测试工作。比如说:

  • 获客阶段,可以看哪个文案更适合;
  • 转化阶段,可以看哪个算法效果更好;
  • 传播阶段,可以看哪个互动效果更佳。

  悟空租车就使用火山引擎的A/B测试,对整个租车流程进行了对照实验。实验的出发点是想减轻用户对押金的压迫感,提升转化率。

  悟空租车原有的流程是租金和押金在同一个页面支付,用户支付时心理成本较大,于是产品经理设计了一个新方案:延迟支付押金,即先付租金再付押金。

  但悟空租车不知道新方案是否奏效,于是就做了小流量的A/B测试。

  很显然,新方案页面的流程更长,在直观体验上增加了用户的操作成本,然而结果显示,新方案的整体转化率提升了7%。

  这就是A/B测试的意义。

  据我观察,字节跳动对A/B测试的确有着非常深刻的理解,同时通过内部的历练和打磨,系统在同类产品中也的确最为成熟,可以切实为企业解决问题。

  正如亚马逊将本来给自己内部使用的云服务开放出去一样,字节跳动也希望将自己有价值的能力对外开放。

  这种开放是一种增量,既是自己技术能力的变现,也能通过市场验证反哺团队的技术水平。

  五、总结

  A/B测试作为一种科学的实验手段,能够帮助企业在多种方案中寻求最优解,以最小的风险前置性地验证策略效果,为企业规避风险。

  作为互联网时代的企业,理性拥抱前沿趋势永远是最优的选择。

  #专栏作家#

  卫夕,微信公众号:卫夕指北(ID:weixizhibei),人人都是产品经理专栏作家,2018年年度作者。一名兴趣广泛的广告产品经理,致力于用简单语言深度剖析互联网相关的逻辑。

  本文原创发布于人人都是产品经理。未经许可,禁止转载。

  题图来自 Unsplash,基于CC0协议

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心梗去世的人越来越多!建议:3不喝、2不吃、2坚持,别大意

心梗去世的人越来越多!建议:3不喝、2不吃、2坚持,别大意

新时代的两性情感
2026-03-29 18:54:42
CCTV16直播上海女排VS江苏,开球时间确定,蔡斌能否带队打第3场

CCTV16直播上海女排VS江苏,开球时间确定,蔡斌能否带队打第3场

体育大学僧
2026-03-29 11:04:58
胖东来曝光“小方糖”戒指仿冒乱象 胖东来:从未授权任何单位或个人开设网店代购商品直播卖货

胖东来曝光“小方糖”戒指仿冒乱象 胖东来:从未授权任何单位或个人开设网店代购商品直播卖货

闪电新闻
2026-03-29 19:57:47
中国石油:2025年净利润同比下降4.5% 拟每股派发现金红利0.25元

中国石油:2025年净利润同比下降4.5% 拟每股派发现金红利0.25元

证券时报
2026-03-29 16:02:04
律师解读“李荣浩喊话单依纯强行翻唱《李白》”:以营利为目的擅自翻唱,构成侵权行为

律师解读“李荣浩喊话单依纯强行翻唱《李白》”:以营利为目的擅自翻唱,构成侵权行为

封面新闻
2026-03-29 21:47:12
关东、关西、关中、关内、关外,到底指的是哪里?

关东、关西、关中、关内、关外,到底指的是哪里?

长风文史
2026-03-28 09:18:06
桂林至珠海一列车停电被困隧道数小时,广州铁路致歉

桂林至珠海一列车停电被困隧道数小时,广州铁路致歉

星岛记事
2026-03-29 20:10:48
以色列最担心的事发生:伊朗送出“大礼”,特朗普的反应出人意料

以色列最担心的事发生:伊朗送出“大礼”,特朗普的反应出人意料

空天力量
2026-03-28 17:14:31
陈牧驰跟岳父陈嘉新有瓜!?

陈牧驰跟岳父陈嘉新有瓜!?

八卦疯叔
2026-03-29 11:06:33
被导弹打怕了?以色列向联合国抗议,称伊朗用集束炸弹违反国际法

被导弹打怕了?以色列向联合国抗议,称伊朗用集束炸弹违反国际法

混沌录
2026-03-28 19:43:17
美国也拦不住!内塔尼亚胡暴走,下达末日死令,中东真要吃核弹?

美国也拦不住!内塔尼亚胡暴走,下达末日死令,中东真要吃核弹?

九客说事
2026-03-28 18:21:18
意想不到!被中国用核武器轰炸45次的罗布泊,现在竟然变成了这样

意想不到!被中国用核武器轰炸45次的罗布泊,现在竟然变成了这样

兴史兴谈
2026-03-29 17:06:04
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

另子维爱读史
2026-03-13 23:30:14
张煜医生告北医三院,赢了!院方会认错、道歉并整改吗?

张煜医生告北医三院,赢了!院方会认错、道歉并整改吗?

大江看潮
2026-03-28 07:35:07
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
朱芳雨赌对了!CBA第一中锋将加盟广东队,这可是杜锋的争冠底牌

朱芳雨赌对了!CBA第一中锋将加盟广东队,这可是杜锋的争冠底牌

绯雨儿
2026-03-29 14:03:10
反转了! 刘晓庆妹妹录音曝光:她要是真把房子捐国家,我们签字配合

反转了! 刘晓庆妹妹录音曝光:她要是真把房子捐国家,我们签字配合

陈意小可爱
2026-03-28 15:49:01
俄罗斯让中国心凉?真正可怕的不是西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正可怕的不是西方围堵,而是我们低估了自己

闻识
2026-03-29 16:08:56
西方集体改口!中国不再解释,直接亮出四张硬核底牌

西方集体改口!中国不再解释,直接亮出四张硬核底牌

Thurman在昆明
2026-03-29 19:59:52
李荣浩回应单依纯道歉,晒确认邮件质问:“请问你用什么立场 什么权利 什么角度 什么心态演唱?”

李荣浩回应单依纯道歉,晒确认邮件质问:“请问你用什么立场 什么权利 什么角度 什么心态演唱?”

封面新闻
2026-03-29 18:47:12
2026-03-29 22:19:00
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64575文章数 311570关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

动车被困隧道内停车断电4个小时 乘客:有人紧张晕倒

头条要闻

动车被困隧道内停车断电4个小时 乘客:有人紧张晕倒

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

时尚
教育
艺术
本地
家居

伊姐周日热推:电视剧《冬去春来》;电视剧《你是迟来的欢喜》......

教育要闻

总想养听话的孩子,其实正在毁掉他一生

艺术要闻

314米!温哥华第一座超高层摩天楼,像“海绵礁”

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

家居要闻

曲线华尔兹 现代简约

无障碍浏览 进入关怀版