type
status
date
slug
summary
tags
category
相关性 OR 因果性?
工作中我们可能经常听到这样的结论:
- “做任务更多的用户留存率也更高,所以应该引导用户多做任务”
- “客户端的新用户留存率更高,所以应该引导新用户下载客户端”
这些推导的过程看起来好像没有毛病,但仔细想想好像又不是那么回事。 问题在哪里呢?
相关性 ≠ 因果性
相关性是统计学上的一个概念,指两个事件在统计学上有相关关系。 但有相关关系的事件,并不一定有因果关系。
举个例子: A:夏天到了 B:冰淇淋的销量会增加 C:溺水的人数会增加
B 和 C 之间,是有明显的相关性的,冰淇淋销量增加的时候,溺水的人数就会增加。 那么我们如果为了减少溺水的人数,就要限制冰淇淋的售卖吗? 显然荒谬。这个例子中,A 是分别导致 B 和 C 的『原因』,而 B 和 C 都是『结果』。对于结果的观测和归因,是我们做出错误判断的核心原因。
而因果性的判定其实要远强于相关性,相关性只是因果性的其中一个条件(必要不充分) 1. 二者相关。可以是正相关,也可以是负相关 2. 时序优先。原因必须先于结果出现 3. 去除潜在混杂变量。即『控制唯一变量』
相关性的作用
因果论是人类认识这个世界的根基和信仰。 但要追根究底地了解事情发生的原因,那可就太难了。一件事情的发生可能有一万个推手——就像 PRO WAU 的增长和下降有五千个原因一样。 于是人类的本能驱使我们,不要归根究底,只要『表现上相关』。
相关性广泛应用在人类生产生活中。要预测发动机故障,可以定期收集它们工作时的声音,某个发动机出现故障后,回过头分析收集到的声音,就能发现某些规律,下一个发动机也出现类似特征,它们出故障的几率就增加了很多,样本数越多,结论的可靠性就越高。 医学上也是类似思路,疾病大多表现稳定的有原因的变化过程,会表现某些“声音”,应当想法加以观察、理解、利用。观察得足够细致,掌握的数据足够多,结论的准确性更高。
相关性的危险
虽然相关性能帮助我们尽快找到头绪,如果缺乏观察的视角,更容易得出错误的结论而无法察觉。
我们可以利用相关性的做样本归纳和总结,但不应该把「结果」当作「原因」加以干预。
还是举上面的例子:
因为: 做任务多的用户留存率高 所以: 要想提高用户留存率,引导用户多做任务
如果误用相关性,搞成了因果性。那我们只要引导用户多做任务就好了。 但事实肯定不是这样。
这里,「做任务多」和「留存高」其实就是相关关系,而非因果关系。 而真正的原因,大概率没那么容易让我们知道。上面的例子中,「用户需求能持续被满足」是潜在的深层原因,而「做任务多」和「留存高」只是这些用户活跃后产生的结果。
相关性&因果性,何时何用?
相关性和因果性都是我们愚蠢的人类认识世界的方法,妥善运用它们能帮助我们达成目标。
如果要理解一个复杂系统,及之间各个因素之间的关联关系,相关性是简单且直观的。 比如我们可以观测留存率不同的用户之间,各个行为的差异,用来理解高粘性用户在平台上的画像和行为。 但注意,不能像上面提到的例子一样,用其中一个行为结果作为原因去企图产生另外的结果。
拓展阅读
一个有趣的悖论——尤里-辛普森悖论
- 作者:Ryan
- 链接:https://blog.gaoran.xyz/article/causality
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。