网易首页 > 网易号 > 正文 申请入驻

到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试

0
分享至

分享下鹅厂数据分析师 jiangeliu(刘健阁) 是如何设计一个 A/B test 的。

实验设计

AB Test 实验一般有 2 个目的:

  1. 判断哪个更好:例如,有 2 个 UI 设计,究竟是 A 更好一些,还是 B 更好一些,我们需要实验判定
  2. 计算收益:例如,最近新上线了一个直播功能,那么直播功能究竟给平台带来了多少额外的 DAU,多少额外的使用时长,多少直播以外的视频观看时长等

我们一般比较熟知的是上述第 1 个目的,对于第 2 个目的,对于收益的量化,计算 ROI,往往对数据分析师和管理者非常重要

对于一般的 ABTest 实验,其实本质上就是把平台的流量均匀分为几个组,每个组添加不同的策略,然后根据这几个组的用户数据指标,例如:留存、人均观看时长、基础互动率等等核心指标,最终选择一个最好的组上线。

实验的几个基本步骤一般如下:

流量分配

实验设计时有两个目标:

  • 希望尽快得到实验结论,尽快决策
  • 希望收益最大化,用户体验影响最小

因此经常需要在流量分配时有所权衡,一般有以下几个情况:

  • 不影响用户体验:如 UI 实验、文案类实验等,一般可以均匀分配流量实验,可以快速得到实验结论
  • 不确定性较强的实验:如产品新功能上线,一般需小流量实验,尽量减小用户体验影响,在允许的时间内得到结论
  • 希望收益最大化的实验:如运营活动等,尽可能将效果最大化,一般需要大流量实验,留出小部分对照组用于评估 ROI

根据实验的预期结果,大盘用户量,确定实验所需最小流量,可以通过一个网站专门计算所需样本量:

  • 以次日留存率为例,目前大盘次日留存率 80%,预期实验能够提升 0.2pp
    (这里的留存率可以转换为点击率、渗透率等等,只要是比例值就可以,如果估不准,为了保证实验能够得到结果,此处可低估,不可高估,也就是 0.2pp 是预期能够提升的最小值
  • 网站计算,最少样本量就是 63W
    这里的最少样本量,指的是最少流量实验组的样本量
  • 如果我们每天只有 5W 的用户可用于实验(5W 的用户,指最少流量实验组是 5W 用户),63/ 5 = 13 天,我们需要至少 13 天才能够得到实验结论

如果我们预期提升的指标是人均时长、人均 VV 等,可能就比较复杂了,我们需要运用 t 检验反算,需要的样本量

实验效果

我们以一个稍复杂点的运营活动实验为例,活动有方案 1、方案 2,同时为了量化 ROI,对照组没有运营活动。

需要回答几个问题

  1. 方案 1 和方案 2,哪个效果更好?
  2. 哪个 ROI 更高?
  3. 长期来看哪个更好?
  4. 不同群体有差异吗?

第 1 个问题,方案 1 和方案 2,哪个效果更好?

还是要运用假设检验,对于留存率、渗透率等漏斗类指标,采用卡方检验

对于人均时长类等均值类指标,采用t 检验

通过上假设检验,如果结论置信,我们就能够得到方案 1 和方案 2 在哪项指标更好(有显著性差异), 对于不置信的结论,尽管方案 1 和方案 2 的指标可能略有差异,但可能是数据正常波动产生。

第 2 个问题,哪个 ROI 更高?

一般有活动相比无活动,留存、人均时长等各项指标均会显著,我们不再重复上述的假设检验过程。

对于 ROI 的计算,成本方面,每个实验组成本可以直接计算,对于收益方面,就要和对照组相比较,假定以总日活跃天(即 DAU 按日累计求和)作为收益指标,需要假设不做运营活动,DAU 会是多少,可以通过对照组计算,即:

  • 实验组假设不做活动日活跃天 = 对照组日活跃天 * (实验组流量 / 对照组流量)
  • 实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天

这样就可以量化出每个方案的 ROI。

第 3 个问题,长期来看哪个更好?

这里就要考虑新奇效应的问题了,一般在实验上线前期,用户因为新鲜感,效果可能都不错,因此在做评估的时候,需要观测指标到稳定态后,再做评估。

例如有的时候出现,刚刚上线前期,实验组效果更好,但是经过一段时间,用户的新鲜感过去了,实验组的效果可能更差,因此,从长远收益来看,我们应该选择对照组,是实验组的新奇效应欺骗了我们,在做实验分析时,应剔除新奇效应的部分,待平稳后,再做评估

第 4 个问题,不同用户群体有差异吗?

很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好,

作为数据分析师,分析实验结论时,还要关注用户群体的差异。

实验结束

实验结束后需要:

  • 反馈实验结论,包括直接效果(渗透、留存、人均时长等)、ROI
  • 充分利用实验数据,进一步探索分析不同用户群体,不同场景下的差异,提出探索性分析
  • 对于发现的现象,进一步提出假设,进一步实验论证

更高级的实验

对于长线业务,可能同时有数十个实验同时进行,不但对比每项小迭代的差异,同时对比专项对大盘的贡献量、部门整体对大盘的贡献量,这样就需要运用到了实验的层域管理模型。

  • 对比每个产品细节迭代的结果
  • 对比每个专项在一个阶段的贡献
  • 对比整个项目在一个阶段的贡献

多个活动交集量化的实验设计

作为数据分析师,多团队合作中,经常遇到多业务交集的问题,以我近期主要负责的春节活动为例,老板会问:

  • 春节活动-明星红包子活动贡献了多少 DAU?春节活动-家乡卡子活动贡献了多少 DAU?
  • 春节活动总共贡献了多少 DAU?

严谨一点,我们采用了 AB 实验的方式核算,最终可能会发现一个问题:春节活动各个子活动的贡献之和,不等于春节活动的贡献,为什么呢?

  • 有的时候,活动 A 和活动 B,有着相互放大的作用,这个时候就会 1+1 > 2
  • 还有的时候,活动 A 和活动 B,本质上是在做相同的事情,这个时候就会 1+1 < 2

这个时候,我们准确量化春节活动的贡献,就需要一个【贯穿】所有活动的对照组,在 AB 实验系统中通俗称作贯穿层

(说明:实验中,各层的流量是正交的,简单理解,例如,A 层的分流采用用户 ID 的倒数第 1 位,B 层的分流采用用户 ID 的倒数第 2 位,在用户 ID 随机的情况下,倒数第 1 位和倒数第 2 位是没有关系的,也称作相互独立,我们称作正交。当然,AB Test 实验系统真实的分流逻辑,是采用了复杂的 hash 函数、正交表,能够保证正交性。)

这样分层后,我们可以按照如下的方式量化贡献

  • 计算春节活动的整体贡献:实验填充层-填充层填充组 VS 贯穿层-贯穿层填充组
  • 计算活动 A 的贡献:活动 A 实验层中,实验组 VS 对照组
  • 计算活动 B 的贡献:活动 B 实验层中,实验组 VS 对照组
业务迭代的同时,如何与自身的过去比较

上面谈到了【贯穿层】的设计,贯穿层的设计其实不但可以应用在多个活动的场景,有些场景,我们的业务需要和去年或上个季度的自身对比,同时业务还不断在多个方面运用 AB Test 迭代

类似与上面这种层次设计,在推荐系统中较为常见,在某一些产品或系统中,贯穿层不能够完全没有策略,那么采用去年或上个季度的策略,代表着基准值,从而量化新一个周期的增量贡献

我们可以量化:

  • 每个小迭代对整个系统的贡献:实验层中的实验组 VS 对照组
  • 周期内,系统全部迭代与上个周期的比较:实验填充层 VS 贯穿层 1(或贯穿层 2)
  • 同时,可以量化去年策略的自然增长或下降,以衡量旧有系统是否具有长期的适用性(作为系统设计者,更应鼓励设计具有长期适应性的系统):贯穿层 1(上个季度的策略)VS 贯穿层 2(去年的策略)
更为复杂的实验设计

我以我目前负责的业务,微视任务福利中心的实验设计为例,举例一个更复杂的实验系统设计,综合了上面提到的 2 个目的:

  • 量化每一个实验迭代为系统带来的增量贡献
  • 量化每一类迭代(如 UI 迭代、策略迭代),在一个阶段的增量贡献
  • 量化系统整体在上一个周期(季度、年)的增量贡献
  • 量化任务福利中心的整体 ROI(本质上,是给用户一些激励,促进用户活跃,获得更多商业化收益,所以和推荐系统不同的是,需要有完全没有任务福利中心的对照组,用户量化 ROI)

更多干货,尽在 腾讯技术

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史诗级大反转!北上广楼市彻底炸锅,成交量狂飙破5年新高,一场财富大洗牌正在上演!

史诗级大反转!北上广楼市彻底炸锅,成交量狂飙破5年新高,一场财富大洗牌正在上演!

新浪财经
2026-04-02 12:43:03
55年农民将军甘祖昌,觉得评师级太高了,向上申报后又提了半级

55年农民将军甘祖昌,觉得评师级太高了,向上申报后又提了半级

咸説历史
2026-04-04 01:51:35
有没有人装B正好撞到你擅长的领域上?网友:停顿一下,继续补刀

有没有人装B正好撞到你擅长的领域上?网友:停顿一下,继续补刀

夜深爱杂谈
2026-02-27 22:43:52
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
8000 万镑豪购!曼联锁定下一个塞斯科, 红魔酝酿队史第三贵转会

8000 万镑豪购!曼联锁定下一个塞斯科, 红魔酝酿队史第三贵转会

澜归序
2026-04-04 05:03:43
黄金市场重量级观点!买入警报:美国顶级经济学家称黄金走势即将反转

黄金市场重量级观点!买入警报:美国顶级经济学家称黄金走势即将反转

新浪财经
2026-04-03 10:42:05
全球主帅年薪排行榜:小因扎吉第1,瓜迪奥拉第2,热刺新帅第6

全球主帅年薪排行榜:小因扎吉第1,瓜迪奥拉第2,热刺新帅第6

足球狗说
2026-04-03 18:09:14
经常有学生喊ching chang chong咋办?网友:不反击,他们更猖狂

经常有学生喊ching chang chong咋办?网友:不反击,他们更猖狂

带你感受人间冷暖
2026-04-02 00:20:03
交通运输部对重庆市万开达高速公路工程项目铁峰山隧道“3·30”瓦斯爆炸事故挂牌督办

交通运输部对重庆市万开达高速公路工程项目铁峰山隧道“3·30”瓦斯爆炸事故挂牌督办

新京报
2026-04-03 14:21:10
过年回家竟多了个弟弟,我直接断了父母生活费:喝西北风去

过年回家竟多了个弟弟,我直接断了父母生活费:喝西北风去

清茶浅谈
2025-09-20 23:14:13
官媒下场,音著协彻查!年少轻狂的单依纯,到了付出代价的时候

官媒下场,音著协彻查!年少轻狂的单依纯,到了付出代价的时候

生命之泉的奥秘
2026-04-04 02:15:28
1-5惨败!郑智离中超首位下课主帅,只差一场比赛?

1-5惨败!郑智离中超首位下课主帅,只差一场比赛?

罗掌柜体育
2026-04-04 06:00:06
梁文杰给郑丽文写“台词”了:去中山陵扫墓,必须喊这句话!

梁文杰给郑丽文写“台词”了:去中山陵扫墓,必须喊这句话!

有态度的何总
2026-04-03 21:36:13
赛力斯开始两头下注了

赛力斯开始两头下注了

电动势
2026-04-03 08:06:03
合肥4名大学生买饮料均中金条?记者实地探访

合肥4名大学生买饮料均中金条?记者实地探访

极目新闻
2026-04-03 17:22:19
苹果把充电口改细了1毫米,官方配件当场报废

苹果把充电口改细了1毫米,官方配件当场报废

全栈遛狗员
2026-04-03 07:27:27
成都蓉城5-1青岛西海岸,赛后评分:不是韦林顿第一,蓉城9号第一

成都蓉城5-1青岛西海岸,赛后评分:不是韦林顿第一,蓉城9号第一

侧身凌空斩
2026-04-03 21:39:01
受刺激了,一伙计2天干了430个W。

受刺激了,一伙计2天干了430个W。

观世不语笑红尘
2026-03-28 11:18:50
安徽6岁女童失踪第四天,恶心事发生,父母被波及,亲戚透露更多

安徽6岁女童失踪第四天,恶心事发生,父母被波及,亲戚透露更多

牛锅巴小钒
2026-04-03 19:53:29
家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

小谈食刻美食
2026-04-02 08:57:37
2026-04-04 07:19:00
腾讯技术工程
腾讯技术工程
不止于技术
1378文章数 601关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

房产
家居
数码
时尚
健康

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

家居要闻

温馨多元 爱的具象化

数码要闻

消息称三星显示器部门面临巨大危机,最坏结果将退出中国大陆市场

冬奥双金夫妻:爱与荣耀,顶峰相见

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版