网易首页 > 网易号 > 正文 申请入驻

神秘公式 p<0.05 支配了整个硅谷?

0
分享至

本文转载自涵的硅谷成长笔记

可我今儿,一打眼就发现他不对,愁眉苦脸的,就问咋滴了呢。

他说:“哎,最近又收到好多人寄来的刀片儿。。。”

原来,这是用户们在抱怨他的产品不好用呢:“这个App是脑残吗...”, “孤儿码农...”

关键是人们的呼声又不一样!总自相矛盾。。。

比如你问妹子想吃啥,她嘴上说“随便”,其实她心里是想说:

那。。。毕竟产品总要出去,最后到底是根据啥做的决定呢?

其实,好多硅谷企业呢,现在都已经有了一套基于统计学的科学方法啦!

最简单地,总结起来就是一个公式:

今天就来给你爆料下,这个不是秘密的公开内幕吧!

案件重现

让你对两方案进行选择,最好方法是啥?很简单,做实验嘛。

没错,先来一个例子。

比如,你知道“颜色”对用户行为,有显著的影响吧。(不知道也不怕,我之前的文章有介绍过“颜色”在产品里的作用和背后的心理学原理,点这里:王者荣耀和LOL:真受不了没素质玩家)

于是,你现在想试试把按钮的颜色从绿色改成红色,想看看是不是有更多的人点击。

然后呢,实验开始了,你让一半儿的人看到绿色按钮,而另外一半儿的人看到的,则是红色:

实验结束后,你得到的结果是这样的:

A组,绿色:100个人看到了这个按钮,没人点击这个按钮

B组,红色:同样有100个人看到,50个人点击。。。

结论很明显,红色有效的促进了用户点击!实验成功!!

但遗憾的是,现实往往不是这样简单。。。

你应该知道,手机的“推送通知”对挽留用户很重要吧。发一个推送,用户没准就会点开好久不用的App了!(我之前的文章也有详细介绍过优化“推送通知”的办法,点这里:网易垃圾推送让我气到围笑)

所以,你又有了一个想法,想试试,个性化通知内容,是不是有效。

于是,你分别给两组人发了不一样的推送通知。

第一组收到的是非个性的:“屠龙宝刀点就送!明星都在玩!”

第二组则有一点点个性化:“{\$Name},屠龙宝刀点就送!明星都在玩!”

好了,结果是,在发出推送的24小时内:

第一组,有95个人看到了,有4个人打开了App,但有1个人删除了你的App (可能是因为太烦了)。

第二组,有107个人看到了,有11个人打开了App,但是有3个人删除了你的App。。。

谢邀。如果只看打开率的话,那可能是第二组更好,可是第二组的删除率又上升了。

这怎么搞!

p值是啥?

这个事情,要是交给统计学家,会怎么处理呢?

他们会计算p值(p Value)

什么意思呢?

p就是概率Probability,p值就是说:新方案根本没啥卵用的可能性。。。

咋算呢?

为了简单,咱先只看打开率。

那么第一组用户的打开率是:4/95 = 4.21%

现在问题的关键是,我们需要知道,第二组这个打开人数的增长,到底是一个【恰好】出现的偶然结果,还是真的因为“个性化”的通知内容有效而提高的呢?

要知道,很多用户即使不看通知,也会打开App的呀!

如果“无效假设”成立,第二组的真实打开率,那就是维持4.21%不变嘛,和第一组一样*。(*此处进行了简化,详情见文末)

那么,我们来看看,按照4.21%这个打开率,第二组出现11个人打开App的概率是多少呢?

这是一道高考送分题,答案就是:

其实,p值就表示了:实验结果纯属巧合的可能性

所以p值当然是越低越好啦,那么多低是低呢?标准是啥?

硅谷各公司,普遍采用的p值标准线是0.05。

也就是,如果 p < 0.05, 就代表数据有统计学显著性Statistically Significant,口语交流时,简称"Stat-Sig"),实验结果是有意义的,无效假设将被驳回(Reject)

(这就是p值小于0.05的感觉)

我们再回过头来,看看两组删除率的p值,经过计算,我们得出p = 0.1795,大于0.05,也就是说,删除率上升,纯属偶然

这下好啦!!产品决策清晰了!

相比原来的非个性化推送,我们发现个性化的推送打开率显著性提升,而删除率没有显著的统计学差异

A/B测试

上面提到的,整个新产品的验证过程,被称之为“A/B Test”(AB测试)。A和B就是指,实验里的两个组。

AB测试是最最简单的工具啦,实际工作中会遇到更多的奇葩情况,那“A/B Test”可就不够了。比如,涉及到两个用户以上的社交功能,还有涉及到“钱“的情况等等,这些我以后再讲。。。

可以说,硅谷就是由实验驱动着的。无论是一个小小的UI变动,还是推荐算法模型的升级,都会进行一次实验。因为实在是太常用了,很多大型App里,往往同时运行着超级多的实验。

为了提高效率,各厂们都纷纷开发了,专门的实验工具和分析系统,让人们快速使用。

比如:

Google旗下Analytics产品的Content Experiments工具:

他可以快速的通过UI创建一个实验,还能在运行时,利用Multi-armed bandit算法,自动调整并分配流量比例,到不同的用户组,以加快实验速度。结束后,还会自动生成报表。

Uber的实验平台XP

XP不仅是实验和分析工具,还帮助Uber安全上线和部署新功能,实时观测数据。

Airbnb的实验框架 ERF(Experimentation Reporting Framework):

ERF的交互设计非常好,还提供了美观的报表系统,p值一目了然:

Netflix的跨平台实验工具ABlaze

他有着跨平台的优良特性。要知道,其实Netflix的压力非常大。数据发现,如果用户不能在90秒内找到自己喜欢的影片,他们就会关掉App。借助ABlaze,Netflix得以快速迭代产品,以便满足全球超过一亿用户的观影需求。

其实,这里还是要提一句,硅谷各企业的产品决策,绝对不是只考虑“p<0.05”这么简单啦。

这里也仅是出于科普的目的,对实际情况进行了极大的简化。

更进一步

你可能会问,为啥这些硅谷企业都选0.05这个数字呢?

答案就是:

嗯。。。其实这个真的就只是一个约定俗成的数值而已。

Tommy告诉我,提出这个值的人,还是和英国有关。这是几十年前,英国统计学家Ronald Fisher提出来的,后人沿用了而已。

当然,很多产品为了更加可靠,也会使用更低的p值, 比如0.01。

不仅仅是硅谷这样的工业界啦,在学术界,尤其是统计学支撑的学科,比如心理学,生物医学甚至经济学,“p < 0.05”早就被当作常识一样了。

比如,医学领域,有人提出了一种新药。想知道这种新药的效果,那就要进行实验了。简单来讲,他们会找到一些病人,随机的分成两组,比如每组20个人。

双盲测试:医生和患者都不知道分组情况

一组人,作为测试组,会按时吃这种新药。而另一组则是控制组,不会吃这种药。

当然了,也不是啥也不吃。他们会被要求随便吃点啥,比如吃淀粉片,这东西被称为“安慰剂”。

因为心里作用也会影响治疗效果,所以不能让他们知道其实他们吃的东西没啥用嘛。吃安慰剂,就能保证他们不知道自己被分到了控制组。

实验结束之后,会看看哪组人治愈率更高,这个时候就要进行p值的计算来进行检验了。

我也是从身边好多医学生物学博士朋友那里知道的:他们经常说,科研狗奋斗一生,就为了那0.05,其实硅谷的码农们又何尝不是呀~

(妹子,你的p值一定大于0.05,

因为我无法拒绝你)

后记

我告诉Tommy,你看“p < 0.05”对吧,这就意味着,概率上来讲,咱们每上线20个产品,其实就会有一个产品是垃圾。。。所以,别难过了 ,你可能就。。。恰好是那个垃圾。。。

---

*文中p值计算过程并不完全准确哈,而是为了可读性,进行了简化。因为第一组的4.21%也不能代表真实情况。这里其实是在比较两个样本的分布。特此大感谢我的数据科学家同事+朋友Cora帮我Review~实际比较复杂,比如先看成是一个正态分布,然后计算一堆值,再。。不说了,你去看统计学课本吧。。但是告诉你一个小秘密,已经有很多开源在线工具可以帮你计算p值了: ( 可见对于文中的例子,打开率p值可以为0.0453。)

ref:

https://en.wikipedia.org/wiki/P-value

https://support.google.com/analytics/answer/1745152?hl=en&ref_topic=1745207

https://eng.uber.com/experimentation-platform/

https://medium.com/airbnb-engineering/experiment-reporting-framework-4e3fcd29e6c0

https://taplytics.com/blog/how-to-experiment-like-facebook-and-netflix-by-adopting-the-10000-experiment-rule/

https://abtestguide.com/calc/ (免费计算p值的工具)

关于iCDO

internet Chief Data Officer (iCDO),中文全称互联网数据官,中国专业化的学习型媒体平台,专注数据驱动的互联网营销和运营。

订阅号-每日尝鲜

服务号- 每月精选

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《权游》龙妈自嘲:我还演过这些翻车大片

《权游》龙妈自嘲:我还演过这些翻车大片

时光慢旅人
2026-06-02 01:18:48
中方严肃定性,16国加入联合军团围剿俄,日本也已经介入战斗了!

中方严肃定性,16国加入联合军团围剿俄,日本也已经介入战斗了!

墨印斋
2026-06-03 00:52:19
学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

爆角追踪
2026-06-02 22:12:58
季新杰被曝与未成年发生关系 若真或构成强奸 女友若造谣涉嫌诽谤

季新杰被曝与未成年发生关系 若真或构成强奸 女友若造谣涉嫌诽谤

念洲
2026-06-02 19:18:06
46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

牛油果生活观
2026-06-02 19:09:43
“宿迁阿斗”,国补都扶不起京东?

“宿迁阿斗”,国补都扶不起京东?

七使2022
2026-06-02 16:21:50
女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

酷侃体坛
2026-06-02 09:09:51
惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

火山詩话
2026-06-02 16:32:30
悲催!江苏一工厂突然停产放假1个月,员工哭诉国际形势不容乐观

悲催!江苏一工厂突然停产放假1个月,员工哭诉国际形势不容乐观

火山詩话
2026-06-02 08:34:49
收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

奇思妙想草叶君
2026-06-02 22:41:36
山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

知知贵阳
2026-06-02 22:06:03
挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

大风新闻
2026-06-02 12:15:18
割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

番外行
2026-06-02 14:19:47
亢奋女主硬刚导演:我是OnlyFans模特,裸戏别想删!

亢奋女主硬刚导演:我是OnlyFans模特,裸戏别想删!

自愈小日子
2026-06-02 00:21:55
诺贝尔经济学奖得主克鲁格曼:对中国经济的评估

诺贝尔经济学奖得主克鲁格曼:对中国经济的评估

生命可以承受之轻
2026-06-02 15:57:17
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

安安说
2026-06-02 12:46:29
随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

侧身凌空斩
2026-06-02 23:15:57
“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

大风新闻
2026-06-02 19:35:11
铜价:大家做好心理准备!从今天6月2日开始,或有更大调整行情

铜价:大家做好心理准备!从今天6月2日开始,或有更大调整行情

花小猫的美食日常
2026-06-02 18:20:46
2026-06-03 03:00:49
互联网数据官iCDO
互联网数据官iCDO
基于互联网数据的中立平台
417文章数 539关注度
往期回顾 全部

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

艺术
旅游
本地
数码
公开课

艺术要闻

抖音砸60个亿,要盖一座“不像医院”的医院?

旅游要闻

北京位列全球数字旅游引领型城市榜首

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版