网易首页 > 网易号 > 正文 申请入驻

把抖音、今日头条背后技术开放给企业,字节跳动揭秘A/B测试产品

0
分享至

机器之心发布

机器之心编辑部

「A/B 测试不一定是最好的评估方法。它不是万能的,但不会 A/B 测试肯定是不行的。」

4 月 20 日,首个火山引擎技术开放日在北京方恒时尚中心举办,字节跳动副总裁杨震原以《聊聊数据驱动和用 A/B 测试解决问题》为题,分享了他对于 A/B 测试的理解。

杨震原称,A/B 测试是字节跳动一项非常基础的工具,从公司成立之初就在使用,支撑了抖音、今日头条等产品的增长迭代。目前,字节跳动 A/B 测试每日新增 1500 + 实验,服务于 400 多项大大小小的业务,累计做了 70 多万次实验。这项工具已经实现产品化,通过火山引擎向企业客户开放。

A/B 测试广泛应用于字节跳动方方面面,包括产品命名、交互设计、推荐算法等。但杨震原表示,这项工具也存在很多应用局限,比如独立性、置信度、长短期等问题。

杨震原透露,抖音产品名字,其实是综合了 A/B 测试和人为判断的结果,「『抖音』这个名字在测试结果中排名第二。但大家觉得,这个名字更符合认知,更能体现它的形态,所以还是选了它。」

杨震原在火山引擎技术开放日现场

以下为杨震原演讲全文:

大家好,我叫杨震原。非常高兴在火山引擎技术开放日上和大家交流分享,希望对大家有所帮助。

字节跳动做了很多产品,我们希望技术团队对待自家产品就像对待客户一样。我们不仅有内部客户,像抖音、今日头条,也希望有更多外部客户,把我们的技术能力输出,于是就有了火山引擎品牌。火山引擎技术开放日也是这个目的,希望把我们的技术对外,跟更多朋友分享交流。当然,也有点私心,希望我们的产品能卖到更多地方去。

今天我们聊的话题是 “数据驱动和用 A/B 测试解决问题”。这里的关键词是“解决问题、数据驱动、A/B 测试”。解决问题一定要有好的方法,每个人都想用更好的方法解决问题,这涉及用什么方法,达成什么目标。“数据驱动” 是我们公司内非常看重的一系列方法,“A/B 测试”是 “数据驱动” 中的一个具体方法。

用户画像和使用时长不是好的目标

要想解决问题,第一个问题是:目标是什么?很多人觉得:这个很简单啊!目标嘛,今天想干一个什么事情,我就确定一个目标,接下来就是照着这个目标去完成。但是,确认目标,以及这个目标是否可量化,其实是特别重要的。

我给大家举几个例子。我大概 2014 年初来到字节跳动。刚来时,张一鸣说把我们的推荐质量提升提升,想想办法怎么做改进。所以,当时我的目标就是提升今日头条产品的用户体验,把推荐做得更好。

很快我发现,这方面其实已经有很多项目在做了,其中有一个子方向的目标是“全面、精准的用户画像体系”。但在我看来,这个目标其实有很多问题。

我们的实际目标是“提升推荐的用户体验”。我们有很多方法来达成目标,用户画像只是方法之一。它是个子目标,不是我们要解决的目标,甚至可能都不是重要的方法。即使假设这个目标就是我们的主要目标,我们也还要评估它是不是可衡量的。

如何评估这一点非常难,比如衡量用户画像是不是好,很难量化。用户的实际兴趣是什么,很难评估。问用户喜欢不喜欢旅游,一般人都说喜欢,但是推荐旅游相关文章看不看?实际上很多人都不看。

因此,用户画像不是一个好的目标。首先,这个目标优先级不一定高,其次,它的评估非常难,这就意味着,这个目标很难指导我们的具体工作。

还有一种常用目标,叫“使用时长”。A 做了一个算法,平均使用时长 40 分钟,B 做的算法,平均使用时长 45 分钟,那是不是 B 就比 A 好?这个听起来似乎很科学。

但是我要跟大家讲一个例子。大概在 2016 年,有一个传统老牌外企,它在美国的 PC 端有一款产品是新闻推荐。这个公司在中国有一个研究所,其中一项工作是去提高新闻推荐质量,采用的评估标准是用户使用时长。对于用户在平台上阅读了多少时长,这个研究所每个季度都有 KPI,连续几年他们每年都能完成目标,并且经常超额完成。但后来我跟他们聊的时候,这个研究所快要解散了。

原来,虽然使用时长在增加,但这个产品的用户规模其实是不好的,用户体验也不够理想,整个产品的留存在下降。我问他们,为什么你们的时长一直在涨,但是你们产品却不行了?对方说:时长是在涨,但时长增长有两种方式,一种是用户体验变好了、用户看的时间更长了;还有一种方式是用着很好的用户继续留下来了,而一些时长很短的用户看了看觉得这个产品不好,就走了。这些用户走了以后,平均时长继续变长。于是就变成了 “不断驱赶体验差的用户,平均时长却变长了” 这样一个过程。

这是很可怕的,看起来是个很好的目标,但却把产品做死了。可以预见,如果我们只用使用时长作为目标的话,是有风险的。

那怎么办呢?我们也没有大招,只能是尽量将多个目标综合。既要考虑用户体验,也要考虑一些客观指标,同时可能辅以一些用户访谈的直观印象,最后综合去制定我们的方向。

好的目标层次合理、可衡量

如何选一个合适的目标?我觉得至少有两个角度,需要去考虑。

第一个角度,目标层次合理性。

什么叫“层次合理性”?比如你是一家公司的首席技术官(CTO),CEO 问你公司的技术目标是什么,你说“我要让我们的公司市值做得更大,原来估值 5 亿美元,10 年之后估值 50 亿美元”。这个目标很泛、很高层次,跟最终目标很接近。通常大家也不会质疑说这个目标有错误。但是这个目标就不太能指导你的工作。CTO 下面的总监、经理、工程师这个季度该干什么呢?这个目标能有些推导分解吗?很难。虽然目标层次很高,不容易偏离,但是对具体工作很难有指导。

那我们定非常具体的目标可以吗?比如像刚才的例子,以使用时长为目标。这种时候,会有另一个问题:这个目标很具体、很能指导工作,但是它偏离了怎么办?还有一个可能出现的问题是,这个目标没有偏离,但不可衡量,它不利于指导工作。

所以,应该选一个不要太高、不要太低的目标,并且定期衡量特别重要。聊数据驱动思路时,当试图用数据驱动思路去细化目标时,有利于你仔细反思:我的目标是不是这个?我的目标能不能量化?它会逼你把目标想得很清楚。

第二个角度,目标可衡量。这一点特别重要。它跟数据驱动的理念互相帮助,定好目标,才能更好的应用数据驱动,当你用数据驱动的方法去做事情时,它就会 push 你的目标到底是不是合理。比如你想了想这个目标:哦,之前的目标就定错了,怪不得搞不清楚。

什么是靠谱的评估方法?

当目标想清楚了,那我们就评估吧。通常我们有哪些方法?

一是经验判断。不管什么公司,每天都在不停的用这个方法,这个方法非常靠谱的,但是有它的问题。

二是非 A/B 测试的数据分析。

三是 A/B 测试的数据分析。我特别把 A/B 测试和非 A/B 测试区分了一下,因为它是一个更接近真实、更能够把握住本质的一个方法。相信很多朋友都了解因果推断,做精准的 A/B 测试能够把因果说得更清楚,所以是更有效的方法。

经验判断是什么?本质上是就靠人,这个方法是普遍采用的。举个例子,大家都知道我们公司在做短视频,怎么评估质量好坏?很多时候都靠人去判断,如果你用客观指标判断它,会有另外的风险,所以很多时候用人判断。在很多公司,比如战略决策通常是人判断的,很难靠数据定你的战略方向,这是一个很重要的方法。

但它的问题在于:执行层面很容易不一致,尤其对一个很大的公司来说,每天要决策的事情很多,并不是每个决策都由 CEO 或者高管来做,可能会分到公司很多团队很多部门,每个部门都有很多人,这些人在他们的点上去做希望对公司正确的决策,但他们的意见有可能是不一致的。而且每个人可能有每个人的偏好,这是很难避免的。尤其公司比较大的时候,就会带来非常多风险,比如不一致性和有偏性。

非 A/B 测试的数据分析。这个主要想强调关联跟因果的问题,我们来举个例子就很容易看到。暑假前,运营团队做了一波活动,声势非常浩大,到了暑假开始的时候,发现用户的活跃度大幅上升,这个提升是我们的运营活动带来的吗?二者是有关联的,但是关联并不代表因果。很明显,暑假就是一个因素,暑假带来的变化跟运营活动带来的变化,到底谁更大?这个事情很难归因的。每个人都觉得自己做的事情有用,关联分析中往往就会带有偏见。

我们再举个有趣的例子,诺贝尔奖和巧克力消费量的关系图。图片显示,巧克力吃得越多的国家,诺贝尔奖得主就越多。如果想改进中国的科技水平,多拿诺贝尔奖,我们应该多吃巧克力吗?这显然不靠谱。可能会变胖,但很难拿到诺贝尔奖。

这可以说明一件事情,这两个事件有关联性,但是它不是因果性。从数据分析中得出结论,就会面临很多这样的风险,它会混淆关联性和因果性,并不能解决问题。

真正的完美解决方案是什么?得靠平行宇宙了。当前时空是这个状态,做了一波 A 操作,比如一些同事搞了一波活动,时间退回去,他没有做这个事情。我们再回过头来看这两个平行宇宙的差别是什么,这个差别就是这个活动所带来的,这个很好理解。但是我们没办法做平行宇宙的实验,就只能做 A/B 测试了。

怎么做 A/B 测试?当我们想观测某个方面,比如说人群或者某类产品,就把人群和产品分成 A、B 两组,比如你的操作是发红包,或者改了设计页面,又或者是做了运营活动。除了这些操作之外,其他的分布完全一样。当然了,这件事情只能无限逼近,不能做到理论上完全一样,除非是平行宇宙。

A/B 测试看上去好像效率很低,非常复杂,要分组,还要看因素是不是剥离干净了。但是当你真正把一个事情搞清楚以后,就可以一个台阶一个台阶往上走。如果你搞不清楚,做得很快,有可能今天上一个台阶,明天下一个台阶,后天上一个台阶,不能保证一直在前进,这是非常大的差别。

字节跳动的 A/B 测试实践

早期有记载的 A/B 测试,是在 1747 年,詹姆斯 · 林德治疗坏血病的临床实验。他们把患有坏血病的水手分成 6 组,每组 2 个人。在 6 天的时间内,他们把大家安排在同样的治疗室中,吃同样的食物,尽量排除实验的干扰。这个人群选择也很重要,我们应该选择各种年龄段的,各种国家地区的。这里没有写,没有足够的数量,这是它不严谨的地方。唯一的不同是每组的治疗方案,吃什么东西?柠檬、橘子、苹果汁、醋、海水等等。最后的实验结果是柠檬 / 橘子、苹果汁有用。

在此之前有很多玄学,这个病,有人说用这个方法有用,用那个方法有用,有的是碰上了,有的是有效了。这个实验虽然不够严谨,还可以做得更好,但是它真正确定了什么原因。当你非常确信这个结论时,就可以继续深入研究,比如从这个食物中分离出它所必要的真正有效物质是什么。在很确定结论的基础上不断演化,就能够往后走得很远。

知道了 A/B 测试的源头后,现在说下字节跳动做的 A/B 测试实践。

2012 年公司成立,那时候我还没来。听说那会儿一鸣还在自己写代码,已经开始做 A/B 测试。

我大概是 2014 年来的,发现公司已经非常重视这方面。这跟我的理念非常像,我也在继续推动这件事情。比如定目标,推动 A/B 测试的平台化,让它更严谨,以及发现它的问题,在公司中更广泛地使用。

到 2016 年,已经变成一个内部广泛使用的平台了,叫 Libra 平台,它有很多的功能。到 2019 年时,我们已经不只是内部平台了,正式立项,开始做对外平台,给外部更多客户来用我们的产品。

内部来说,我们用 A/B 测试确实很多,现在每天大概新增 1500 个实验,服务了 400 多项业务,累计已经做了 70 万次实验。

应用在哪些方面呢?产品命名、交互设计,比如改一个字体、一个弹窗、界面大小,都会做 A/B 测试。推荐算法就不说了,从一鸣自己写代码开始,就一直在做了。广告优化,这是业界普遍做法。用户增长,也是这样。市场活动,我们做了一小部分。内部基本上就是,能用 A/B 测试的都用。

A/B 测试不是万能的

那 A/B 测试是不是就一统天下了呢?显然也不是。A/B 测试不一定是最好的评估方法,它不是万能的,但是我觉得,不会 A/B 测试肯定是不行的。

为什么说它不一定是最好的评估方法?我们说说它的一些局限和问题。

首先是独立性的问题。如果你真的想做 A/B 测试,就要对你的实验对象进行分组,分组之后,去做一个操作,观测结果。这个分组要求两组是非常独立,除了你的这个操作之外,其他部分都一样,至少是分布一样。但有时候这点并不容易保证。

举个例子,网约车的司机分配策略,比如这个网约车分配什么司机?谁离你最近,我就分配,这是一个策略。我们还可以考虑价格,以及车型和时间等等,做别的策略。A 同学做了 A 策略,B 同学做了 B 策略,哪个策略更好?

我们可以来做个 A/B 实验,把用户分成两组,A 组是一部分用户,用 A 策略,B 组是另一部分用户,用 B 策略。但这是有很多问题的。如果只按用户来分,A 策略和 B 策略的用户有可能都用同一个司机,A 策略的用户把这个司机订走了,B 组的用户就订不到这个司机了。

也就是说,你最后观测到的统计指标,比如成单量、成单率,可能会有交叉影响,但具体是多少?单从这个实验数据来讲,是看不出来的,也不太容易分析,所以它不独立。交叉影响在哪?按用户分了,但是司机没有分开,两波用户有可能会联系到同一个司机,这就叫“独立性问题”。

更严谨的实验怎么做?应该把用户和司机都分开,把用户编个组,司机也编个组,用户司机 A 组,用户司机 B 组。当你发现你要观测的对象不能被严格切分的话,就需要考虑独立性的问题,这时候你做的结论很可能是错的。

我们再看一个置信度的问题。比如做搜索评估,我们评估 100 个随机测试,把它们分成 A、B 两个测试组,其中有 22 个变好了,有 20 个变差了,加起来是 42 个,剩下的 58 个两边一样。

请问,A 组是比 B 组变好了吗?有人说,系统变好 10%,效果非常明显。你相信吗?你要相信的话就被蒙蔽了。

我这里写了一个置信度,P 值 = 0.75,这是什么意思?我们通常认为,P 值要小于 0.05,这个数据才是可信的,也就是 A 比 B 好。0.75 的意思是 “A 比 B 好” 碰巧出现的概率是 75%,这是不可信的。我们把这个箱型图画出来,它波动的范围如果按照 95% 的区间,从 - 0.1 一直到 0.147,是非常大的范围。把置信度画出来,发现这个实验完全不能说明 A 比 B 好。结论就是:这个实验不可信,没有显著性,完全不能从这个实验中得出 A 比 B 好的结论。

还有长短期的影响,这也是一个常见的问题。我举一个例子,比如说,我们对每个商品会有评价,现在兴趣电商比较热,电商的推荐主要会考虑它的评价,对于评价低的商品,我们会做一些控制和惩罚,让它的推荐少一些。如果加大惩罚力度,或者由不惩罚变成惩罚,交易量会怎么样变化?

如果做 A/B 实验,会发现加上这个惩罚,它的交易量是下降的。这很显然,商品本来可以买,现在不让买了,那它的交易量肯定下降。如果你看了 A/B 测试,说我们不应该做,对这些差的产品就应该保持,那你很可能就错了。

有时候,靠人的经验相信这个事情是对的,坚持做,你很可能会得到一个正确的答案。为什么?我们这个实验不再测 3 天或者 1 个星期,而是测 1 个月,你会发现,这个交易量开始是下降的,但是慢慢持平了。随着时间再往前推移,它的交易量就变好了。

可以想象,当你做了一些正确的事情,短期可能会受一定损失,但是积累了用户口碑,这些东西周期都很长的,慢慢效果就体现出来了。A/B 测试通常不会做那么多时间。

所以有时候要结合判断相信背后本质的东西,可以用更长期的 A/B 测试验证它,这时候你会做出更正确的选择。如果相信短期,就掉到沟里了,得出错误的结论。

抖音的名字是怎么来的?

最后再讲讲抖音取名字的故事。很多人都很关心这件事,甚至有人说抖音的名字是找大师算过的。起名字是可以做 A/B 测试的。当年,我们做了这个短视频产品,有很多候选名字,那会儿已经有一些产品 demo 了。

我们就把这个 demo 产品起成不同的名字,用不同的 logo,在应用市场商店做 A/B 测试,同样的预算,同样的位置,这能测出用户对这个名字的关心程度,吸引力程度,下载转化率等等,但其实也是非常短期的。

做完这个测试之后,我们得出了一个排名,比如第一名是什么,第二名是什么。“抖音”是排名第二的,不是最好的名字。当时负责抖音的产品经理,讨论应该用哪个名字。

你去看这个分析和排名,看那个过程,就会发现有一些是符合你的感觉,有一些不是符合你的感觉,才知道,原来人们对这个东西可能会这么想。所以 A/B 测试的过程,有时不完全看它的结论,它也会给你带来很多认知,这就是经验带来的偏差。A/B 测试可以纠正这些偏差,但是它也会有这样或那样的问题,有时候你不会完全采纳它的结论。

我们就没有采纳排名第一的名字,大家觉得,“抖音”长期来讲更符合认知,更能体现它的形态,所以就选择了 “抖音” 这个排名第二的选项。

从这个故事中可以看到,真正想去做一个科学决策,是很难有完美方法的,没有一招鲜的方法,只有最合适的方法。充分地做 A/B 测试,这是一个能够在很大程度上补充信息的过程,能够消除很多偏见,能够带来很多客观的事实。但是它也不是完美的,需要补充其他方法一起来用。就像 “抖音” 起名字的例子一样。在公司中更广泛地使用 A/B 测试,我相信对提高整个公司的决策质量是很有帮助的。

今天就讲到这里,谢谢大家。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
接近官宣!拜仁新帅正式曝光,65岁老帅将入主,曾被C罗点名吐槽

接近官宣!拜仁新帅正式曝光,65岁老帅将入主,曾被C罗点名吐槽

绿茵舞着
2024-04-26 00:19:32
今日!NBA战3场,湖人VS掘金,能否3连败?詹姆斯+浓眉PK约基奇

今日!NBA战3场,湖人VS掘金,能否3连败?詹姆斯+浓眉PK约基奇

晚池
2024-04-26 01:01:05
王楚钦0-4马龙是让球?许昕看出端倪讲原因,大满贯的心眼太多了

王楚钦0-4马龙是让球?许昕看出端倪讲原因,大满贯的心眼太多了

三十年莱斯特城球迷
2024-04-25 11:54:00
韩国女团造型又惹争议,让未成年人穿透明裙子,一上台根本遮不住

韩国女团造型又惹争议,让未成年人穿透明裙子,一上台根本遮不住

萌神木木
2024-04-24 11:21:23
王博高兴早了!周琦禁赛引发蝴蝶效应,杜锋压哨提拔一人拒绝逆转

王博高兴早了!周琦禁赛引发蝴蝶效应,杜锋压哨提拔一人拒绝逆转

负角度的球
2024-04-25 09:15:59
浙江一男子出轨,警花妻子带婆婆捉奸,进门后婆婆咆哮:竟是你

浙江一男子出轨,警花妻子带婆婆捉奸,进门后婆婆咆哮:竟是你

莉雅细细谈
2024-03-25 16:46:37
两双在即!阿尔瓦雷斯本赛季32场英超9球9助直接参与18球

两双在即!阿尔瓦雷斯本赛季32场英超9球9助直接参与18球

直播吧
2024-04-26 05:04:20
意大利房地产有史以来最豪交易!开云集团以13亿收购全欧最贵商铺大楼

意大利房地产有史以来最豪交易!开云集团以13亿收购全欧最贵商铺大楼

华人街
2024-04-07 03:08:31
情侣最舒服的六种姿势,你们都试过哪种?

情侣最舒服的六种姿势,你们都试过哪种?

户外阿崭
2024-04-25 20:24:23
很多人看空楼市,却根本没看到点上

很多人看空楼市,却根本没看到点上

大胡子说房
2024-04-23 12:10:10
重庆市教委现任领导

重庆市教委现任领导

识海纵横
2024-04-26 03:25:03
哈尔滨一九四四:潘越身份曝光,原来这才是他潜伏在特务科的原因

哈尔滨一九四四:潘越身份曝光,原来这才是他潜伏在特务科的原因

阿芒娱乐说
2024-04-26 02:13:30
财务造假多年,近500年“老字号”锁定退市!大股东套取巨额资金,5万多股民“埋单”

财务造假多年,近500年“老字号”锁定退市!大股东套取巨额资金,5万多股民“埋单”

每日经济新闻
2024-04-25 21:06:23
玄松月:金正恩初恋,惹怒金正日,丈夫被除,几年后被张成泽染指

玄松月:金正恩初恋,惹怒金正日,丈夫被除,几年后被张成泽染指

阿胡
2024-03-04 11:54:49
中甲最新积分榜:仅7轮就看出了冲超和保级趋势,呈3+7+6格局

中甲最新积分榜:仅7轮就看出了冲超和保级趋势,呈3+7+6格局

篮球侍郎
2024-04-25 20:35:34
42岁范冰冰又美到国外去了!穿两万 “中式睡袍” 又美又飒,让世界见证东方之雅韵

42岁范冰冰又美到国外去了!穿两万 “中式睡袍” 又美又飒,让世界见证东方之雅韵

白宸侃片
2024-04-25 11:04:53
A股:一个可怕的信号突然袭来,让人目瞪口呆,A股即将重大变盘

A股:一个可怕的信号突然袭来,让人目瞪口呆,A股即将重大变盘

一树梨花红
2024-04-26 05:10:03
贵州通报6起违反八项规定精神典型问题,一高级警长借操办女儿婚宴违规收礼金

贵州通报6起违反八项规定精神典型问题,一高级警长借操办女儿婚宴违规收礼金

红星新闻
2024-04-25 16:46:30
李兆会:连娶2位女明星,败光家产,如今靠雨伞再赚千亿

李兆会:连娶2位女明星,败光家产,如今靠雨伞再赚千亿

蓝色海边
2024-04-26 03:33:50
2-1!4-0!足坛疯狂一夜,罗马绝杀,曼城狂胜,韩国爆冷出局

2-1!4-0!足坛疯狂一夜,罗马绝杀,曼城狂胜,韩国爆冷出局

足球狗说
2024-04-26 05:09:36
2024-04-26 06:04:50
机器之心Pro
机器之心Pro
专业的人工智能媒体
8929文章数 141892关注度
往期回顾 全部

科技要闻

北京车展,被穿红衣服的他们占领

头条要闻

河北一高校学生就读4年无学籍 省教育厅回应

头条要闻

河北一高校学生就读4年无学籍 省教育厅回应

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

健康
亲子
本地
房产
艺术

这2种水果可降低高血压死亡风险

亲子要闻

“纸尿裤里都是海水吧”

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

无障碍浏览 进入关怀版