因果推断 如何用通俗易懂的了解因果推断的起源

栏目:国际 2021-09-18 17:05:11
分享到:

因果推理的起源

朱迪亚珍珠

但它还在动。

-来自伽利略

弗朗西斯·高尔顿爵士在皇家学院展示了他的“高尔顿板”或“梅花机”。

他认为这种类似弹球的工具是遗传基因特征的类比。弹球会堆积成上缘呈钟形曲线的图案,与人体身高的分布曲线非常相似。那么,为什么人类世代相传的身高分布不像弹球那样分散呢?这个问题导致他发现了“回归中庸”的现象。

在过去的两个世纪里,英国科学界最持久的仪式之一是在伦敦皇家学院举行的“星期五晚上的演讲”。

19世纪,许多重大发现首先由演讲者在这个会场宣布:1839年,迈克尔.法拉第发表了他的摄影原理;1897年,约瑟夫·汤姆逊提出了电子理论;1904年,詹姆斯·杜瓦发表了氢液化理论。

每个演讲会都是一个盛大的仪式。毫不夸张地说,演讲会以科学为舞台,而舞台下的观众则是衣着光鲜的英国社会精英。到了约定的时间,钟声会响起,人们会欢迎晚会的演讲者进入礼堂。按照传统,演讲者将跳过自我介绍或开场白,直接开始演讲。实验和现场演示是这一壮观场景的重要组成部分。

1877年2月9日晚,主讲人是英国皇家学院院士弗朗西斯·高尔顿。他是查尔斯·达尔文的大表哥,著名的非洲探险家,指纹学的创始人,维多利亚时代绅士科学家的典范。高尔顿演讲的主题是“典型遗传规律”。那天晚上,他的实验仪器是一个奇怪的装置,他称之为“梅花机”,现在它经常被称为“高尔顿板”。一款名为Plinko的类似游戏经常出现在电视节目《价格猜测》中。高尔顿板是由一块木板和排列成三角形的钉或钉子组成的。操作员可以通过顶部开口插入小金属球。金属球像弹珠一样从上到下弹起,最后落入底部的一排槽中。对于单个金属球来说,向左或向右弹跳似乎完全是随机的。但是,如果你往高尔顿盘中倒入大量的球,就会出现一个惊人的规律:堆积在底部的球的上缘总会形成一个近似钟形的曲线。在最靠近中心的槽中,球会堆积得很高,槽中的球数会从中间向两边减少,直到为零。

这个规律有一个数学解释:单个球下落的整个路径就像一系列独立抛硬币的结果。每次球碰到一根针,它就会向左或向右反弹。从表面上看,它的选择似乎完全是随机的。所有结果的总和,即向右弹跳次数和向左弹跳次数之差,决定了球最终会落在哪个槽里。根据皮埃尔·西蒙·拉普拉斯在1810年证明的中心极限定理,任何这样的随机过程,即多次抛硬币的总效应,都会导致相同的概率分布,这就是所谓的正态分布。高尔顿板只是拉普拉斯中心极限定理的直观演示。

中心极限定理确实是19世纪的数学奇迹。想象一下:虽然单个球的路径是不可预测的,但是1000个球的路径是非常可预测的,这对于Price Guess的制作人来说是一个非常实际的事实。基于此,他们可以准确估计选手在普林科比赛中长时间获得的奖品数量。此外,虽然人的事情充满了不确定因素,但同样的法律仍然让保险公司盈利。

皇家学院穿着考究的观众一定想知道这一切和遗传规律有什么关系,因为这是演讲者一致认同的主题。为了说明两者之间的关系,高尔顿向观众展示了他收集的关于法国新兵身高的数据。这些数据也遵循正态分布:大多数人中等身材,很少有人特别高或特别矮。事实上,无论是谈论1000名新兵的身高,还是高尔顿板上1000个球的轨迹,相应的槽位和身高类别中的数字几乎都是一样的。

因此,对于高尔顿来说,梅花机是一个关于身高遗传的模型,甚至可能是一个关于许多其他遗传特征的模型。这是一个因果模型。简单来说,高尔顿认为,就像人类继承了上一代人的身高一样,金属球也会“继承”自己在梅花机中的地位。

但是,如果我们暂时接受这种模式,就会出现一个难题,这也是高尔顿当晚的主题。钟形曲线的宽度取决于钉板顶部和底部之间放置的钉子的行数。假设我们把行数翻倍,我们构造一个可以表示两代人继承的模型,其中上半部分代表第一代,下半部分代表第二代。这时你会发现,第二代比第一代有更多的变异,钟形曲线在后面几代会越来越宽。

然而,人类身高的真实情况却没有这样的趋势。事实上,随着时间的推移,人类身高分布的宽度一直保持相对恒定。一个世纪前,没有9英尺高的人类,今天仍然没有。那么,是什么因素解释了这种整体遗传的稳定性呢?自从1869年《高尔顿的遗传天才》出版以来,他已经思考这个难题八年了。

正如标题所示,高尔顿真正感兴趣的不是弹球游戏或人类身高,而是人类智力。作为一个孕育了许多科学天才的大家庭的成员之一,高尔顿自然愿意证明自己的才华在家族中代代相传。他在这本书里着手做的正是这项研究。他煞费苦心地编纂了可追溯到四个世纪前的605个英国“贵族家庭”的家谱。但他发现,这些名门望族的儿子和父亲并不是那么优秀,他们的祖辈和孙辈也不都是杰出的人才。

如今,我们很容易发现高尔顿研究方法的缺陷。毕竟,优秀的定义是什么?有没有可能贵族家庭的成员成功只是因为他们的特权,而不是因为他们自己的才能?尽管高尔顿意识到了这种可能的解释,但他并没有改变最初的意图,而是以更大的决心徒劳地寻求一种新的基因解释。

然而,高尔顿在这个过程中发现了一些东西,尤其是当他开始关注像身高这样的遗传特征时。与“优秀”相比,身高特征更容易测量,与遗传的相关性更强。高个子男人的儿子往往比普通人高——但可能没有他们的父母高;矮个子男人的儿子往往比普通人矮,但可能没有他们的父母矮。起初,高尔顿称这种现象为“复归”,后来又改为“回归中庸”。我们可以在许多其他情况下观察到这种现象。如果允许学生基于相同的复习资料参加两次不同的标准化考试,那么第一次考试得分较高的学生通常在第二次考试中的得分仍然会高于平均水平,但不会像第一次考试那样高。这种回归中庸的现象,在生活、教育、商业的方方面面都很普遍。比如棒球比赛中的“年度最佳新秀”经常遭遇“新秀场墙”,即在次年的比赛中陷入表现不佳的低谷。

当然,高尔顿不知道这一点。他认为他偶然发现的是遗传规律,而不是统计规律。他认为回归均值背后一定有某种原因。在皇家学院的一次演讲中,他解释了自己的观点。他给观众看了一台两层楼的梅花机。

图2.1用高尔顿板和弗朗西斯·高尔顿模拟人体身高的遗传规律。许多小球被扔进弹球仪,随机弹跳的球堆积成钟形曲线。高尔顿指出,球通过两层高尔顿板块下落形成的钟形曲线,经过A、B通道后会变宽。为了抵消这种曲线变宽的趋势,他安装了一个滑槽,让“第二代”球回到中心。滑槽是高尔顿对“回归中庸”现象的因果解释

在穿过第一组钉子阵列后,球将通过滑槽向板的中心集中,然后穿过第二组钉子阵列。借助于这一成功的论证,高尔顿表明溜槽的设置正好抵消了正态分布的扩散趋势。这一次,钟形曲线在一代又一代的传递中保持恒定的宽度。

因此,高尔顿推测,回归均值是一个物理过程,也是保证身高分布世代不变的自然方式。高尔顿告诉观众:“逆转过程符合遗传变异的一般规律。”他将这一过程与描述弹簧返回稳态长度趋势的胡克定律进行了比较。

请记住这一天。1877年,高尔顿致力于寻找因果解释,认为回归均值是一个因果过程,就像物理定律一样。他错了,但他的错误绝不是个案。今天,许多人继续犯同样的错误。例如,棒球专家总是试图为遇到新表演墙的球员找到一个因果解释。他们会抱怨,“他变得过于自信了”,或者“其他球员已经发现了他的弱点”。他们可能是对的,但新的秀场墙并不真的需要因果解释,只能用概率规则来解释。

现代统计学的解释很简单。正如丹尼尔·卡内曼在《思考,快与慢》一书中总结的:“成功=天赋+运气,伟大的成功=更多的天赋+更多的运气。”一个获得年度最佳新秀奖的球员可能确实比一般人更有天赋,但他可能也有很多运气。下赛季,他可能就没那么幸运了,平均打击率也会下降。

到1889年,高尔顿已经明白了这一点。在这个过程中,他在统计学脱离因果关系的道路上迈出了第一大步。这既令人失望又令人着迷。他的推理过程微妙晦涩,但值得我们努力去理解。这是统计学作为一门新学科的第一声呐喊。

高尔顿开始收集各种“人体测量”统计数据:身高、前臂长、头长、头宽等等。他注意到,例如,当他根据前臂的长度计算自己的身高时,又出现了同样的回归均值的现象:高个子男人通常前臂的长度比均值长,但并不比他的身高高出均值多少。显然,身高不是前臂长的原因,反之亦然。如果有原因的话,应该说两者都是遗传基因决定的。高尔顿开始用一个新词来形容这种关系:身高和前臂长度是“相关在一起”的。后来,他把这个词简化成一个更常见的英文单词——“related”。

后来,他意识到一个更令人惊讶的事实:在比较世代时,回归平均值的时间顺序可以颠倒。也就是说,孩子父母的遗传特征会回归均值。也就是说,如果一个儿子的身高高于平均水平,他父亲的身高很可能高于平均水平,但往往他父亲比儿子矮。当高尔顿意识到这一点时,他不得不放弃任何为回归中庸寻找因果解释的想法,因为显然他孩子的身高不可能是他父母身高的原因。

图2.2散点图显示了关于高度的数据集。每一点都代表父亲身高和儿子身高的结合。虚线与椭圆的长轴重合,而实线连接椭圆的最右边和最左边的点。它们之间的区别是回归均值的体现。例如,椭圆中的黑色星号表示,如果父亲的身高为72英寸,那么他的孩子的平均身高为71英寸,即图中垂直框中所有数据点的平均值为71英寸。水平框和白色星号表示在非因果方向上的相同高度损失

乍一看,这种理解可能听起来矛盾。你可能会问,“等等!你的意思是高个子的父亲通常比自己的儿子矮,同时高个子的儿子通常比自己的父亲矮——这两种说法怎么可能同时成立?儿子怎么可能比父亲高,比父亲矮?”

答案是,我们谈论的不是个体父亲和个体儿子,而是父母和孩子。让我们从6英尺高的父母开始。因为他们的身高高于平均水平,他们儿子的身高也会回到平均水平。让我们假设他们儿子的平均身高是5英尺11英寸。然而,父母身高6英尺的父亲和儿子组成的总数不同于孩子身高5英尺11英寸的父亲和儿子组成的总数。在第一组中,所有的父亲都有6英尺高。而第二组的父亲身高不足6英尺,大部分身高不足6英尺,平均身高不足5英尺11英寸,再次呈现回归均值的趋势。

另一种解释回归平均值的方法是使用所谓的散点图。每个亲子组合由一个点表示,其中X坐标代表父亲的身高,Y坐标代表儿子的身高。因此,高度为5英尺9英寸的父子组合可以用一个点来表示,该点位于散点图的中心,如图2.2所示。6英尺高的父亲和5英尺11英寸高的儿子的组合可以用点来表示,这些点位于散点图的东北角。请注意,散点图的形状大致为椭圆形,这对于高尔顿分析和揭示两个变量的钟形分布特征非常重要。

如图2.2所示,高度为72英寸的亲子组合点位于以72为中心的竖框内;高度为71英寸的父子组合的点位于以71为中心的水平框中。从观察可以看出,它们是两个不同的种群。如果只关注第一人口,也就是父母身高72英寸的父子组合,我们可以问这样一个问题:孩子的平均身高是多少?这相当于问竖框的中心位置,通过观察大概是71。如果只关注第二人口,也就是孩子身高71英寸的父亲和儿子,我们可以问这样一个问题:他们父亲的平均身高是多少?这相当于问横框的中心位置,通过观察大概是70.3左右。

我们可以进一步考虑用同样的步骤分析每个垂直方框。这就相当于问:身高为X的父母的后代身高最好的预测是什么?或者,我们可以拿着每个横框,问一下它的中心在哪里,也就是对于身高Y的孩子来说,父母身高的最佳“预测”是什么?

通过思考这个问题,高尔顿无意中发现了一个重要的事实:预测总是落在一条直线上,他称之为回归线,它的斜率小于椭圆的长轴。其实这样的线有两条,我们选择哪条线作为回归线,取决于我们要预测哪个变量,以哪个变量作为证据。你可以根据父亲的身高预测儿子的身高,也可以根据儿子的身高“预测”父亲的身高。这两种情况完全对称。这再一次表明,在回归均值的现象中,因果是没有区别的。

图2.3高尔顿回归线。横轴表示孩子的身高和偏差值,纵轴表示“中间父母”的身高和偏差值。如果你知道你父亲的身高,直线OM会为你提供他儿子身高的最佳预测;如果你知道你儿子的身高,直线on会为你提供他父亲身高的最佳预测。这两条线不同于散点图中的主轴

给定一个变量的值,回归斜率允许您预测另一个变量的值。在高尔顿的父子身高问题中,0.5的回归斜率意味着父亲身高每增加1英寸,儿子的平均身高就会增加0.5英寸,反之亦然。回归斜率为1表明两个变量完全相关,这意味着父亲每增加一英寸,这种变化就可以完全传递给儿子,使他的平均身高增加一英寸。回归斜率不能大于1,否则高的父子身高会进一步高于平均值,矮的父子身高会进一步低于平均值,随着时间的推移身高分布会变宽。这样,身高9英尺的人和身高2英尺的人可能几代之后才出现,与现实不符。因此,只要身高分布世代不变,回归线的斜率就不能大于1。

即使我们将身高和智力这两类不同的量联系起来,回归定律仍然适用。如果在散点图中画出这两个变量的数据点,并适当缩放坐标系,关于两个变量之间关系的最佳拟合线的斜率总是具有相同的属性:只有当一个量能够准确预测另一个量时,斜率才等于1;如果预测结果几乎等于随机猜测,斜率等于0。无论你从y预测x还是从x预测y,斜率都是一样的。换句话说,斜率根本不涉及因果信息。一个变量可能是另一个变量的原因,或者它们都可能是第三个变量的结果,这对于预测目标变量的值来说并不重要。

高尔顿提出的相关性概念,第一次展示了两个变量是如何通过客观的测量而不依赖于人的判断或解释而联系在一起的。这两个变量可以是身高、智力或收入,可以是因果、独立或反因果。相关性总能反映两个变量之间的相互可预测性。高尔顿的弟子卡尔·皮尔逊后来推导出一个回归斜率公式,叫做“相关系数”。今天,当我们想知道一个数据集中两个不同变量之间的相关性有多强时,相关系数仍然是全世界统计学家计算的第一个值。高尔顿和皮尔森一定对找到这样一种描述随机变量之间关系的通用方法感到兴奋。特别是在皮尔森眼里,与数学上清晰准确的相关系数概念相比,那些模糊过时的因果概念似乎已经完全过时,失去了科学性。

评论:

中心极限定理是概率论的“无冕之王”。高尔顿曾盛赞其中蕴含的宇宙秩序无与伦比的美,可见其对人类认知的影响是多么深远。-译者注

又称“高斯分布”,最早由高斯在研究误差理论时明确提出,其密度函数曲线关于平均值对称,中间高,两边低。中心极限定理揭示了为什么正态分布在一定条件下是普遍的。-译者注

1英尺≈30.48厘米。——编者按

“倒退”这个词在英语中也是退化、倒退、衰退、倒退的意思。-译者注

女性的身高普遍低于男性,所以高尔顿用计算出的男女平均身高比乘以女性身高1.08,换算成男性身高。据此,高尔顿定义了“中间父母”的身高=1/2,用来计算父母的身高。这本书为了方便,简化到父子的高度。-译者注