Chapter 11 Mathematical Foundation in Causal Inference 因果推断中的数理基础

因果性

人类都已经掌握了最基本的因果推断的概念。

蹒跚学步时，当你看到愿意跳进泳池的孩子能在后来拿到果酱，你也会这样做
青少年时，当你看到在最危险的斜坡上滑雪的人后来更有可能在之后的滑雪比赛中获奖，你也会这么做
当了父母后，当你看到吃了抗生素的孩子之后在公园玩的可能性更小时，你会拒绝给你的孩子吃药

因果问题的重要性

一种新药的药效
老板是否在选择员工中涉嫌歧视
在某政策下多大比例的犯罪能被避免
$\cdots$

因果推断的概念

预测：在观测到 $X = x$ 后预测 $Y$
因果：在设置 $X = x$ 后预测 $Y$

因果涉及到人为干涉

预测：病人吃下维C后预测病人的状况
因果：如果病人吃下维C，预测病人的状况。
预测和因果之间的区别非常显著，并且需要不同的方法和更强的假设

因果性与因果效应

因果性的不同方面

研究因果的表示法的终极意义（Studying ultimate meaningfulness of the notation of causation）
推算某一效应的原因
理解因果机制的细节
在一些统计可以起重要作用的领域测量一些原因的影响（我们关注的东西）

从关联到因果

标准统计和概率模型的目标是从样本出发估计一个分布的参数
从而可以在变量间建立关系，估计过去和未来事件的概率，同时在有新的证据和观测的时候更新这些概率
只要试验条件不变，这些过程都可以在标准统计和概率分析中很好地实现
因果分析不仅仅是得到静态条件下的概率，同时还有变化的条件下概率的动力学（dynamics of probabilities），例如治疗手段、新政策等带来的改变
关联的概念是任何可以根据观测变量的联合分布定义的关系，因果的概念是任何不能仅从观测变量的分布中定义的关系

因果推断的数理基础

关联的数理模型

关联模型是对于一个三元集合 $R = ( U , Y , A )$ 来说的。

$U $ 是个体（units）的全体
$A$ 和 $Y$ 是定义在 $U$ 上的实函数（响应），是研究 $A$ 和 $Y$ 的值为何随 $U$ 变化的变量
关联的参数被 $A$ 和 $Y$ 在 $U$ 上的联合分布决定

因果推断的数理模型

鲁宾的因果模型是一个四元集合 $R = ( U , K , Y , S )$

$U$ 是个体的总体
$K$ 是考虑中的不同因素或者治疗方案的集合
$Y$ 是定义在 $U \times K$上的函数（响应），并且如果 $u$ 是有原因 $t$ 的个体，则 $Y { t } ( u ) = Y ( u , t )$ 是在 $u$ 下测量的响应的值。$Y t ( u )$ 被称为可能结局（potential outcome）
$S$ 是从 $U$ 到 $K$ 的映射，表示 $U$ 中的每个个体 $u$ 实际上接受的何种治疗方案（不同的原因）
相对治疗方案 $c$，对 $u$ 采用治疗方案 $t$ 的效果为
$Y _ { t } ( u ) - Y _ { c } ( u )$
相对治疗 $c$，对于 $U$ 的治疗 $t$ 的平均因果效应 $\delta$ 为
$\delta = E \left( Y _ { t } ( u ) - Y _ { c } ( u ) \right)$

预测 vs 因果

预测意味着当我们观测到 $X=x$ 时 $Y \in A$ 的概率
$P ( Y \in A | X = x )$
因果意味着当我们让 $X=x$ 时 $Y \in A$ 的概率
$P ( Y \in A | \operatorname { set } X = x )$
一个关系 (correlation) 是非因果的，是指
$P ( Y \in A | X = x ) \neq P ( Y \in A | \text { set } X = x )$

因果效应的例子

Tom 接受心脏移植 $( Z = 1 )$，$5$ 天后死亡 $( Y ( 1 ) = 1 )$。上帝发现，如果 Tom 没有接受心脏移植 $( Z = 0 )$，那么他就不会死 $( Y ( 0 ) = 0 )$。直观上，心脏移植导致了 Tom 的死，也即心脏移植对于 Tom 的存活有因果效应。（如果 Tom 术后 5 天活下来了，没手术 5 天后也能活下来，那么我们不认为手术对于 Tom 5 天后的生死有因果效应）

对于因果效应的可能结局的表示法

$Y ( z , u )$ 表示当治疗 $Z$ 在水平 $z$ 上时一个个体 $u$ 的结局 $Y$ 的值

如果 $u$ 是随机选取的，那么 $Y ( z )$ 就是一个随机变量
Pearl 曾用 $P ( Y = y | d o ( Z = z ) )$ 表示采用治疗 $Z = z$ 时事件 $( Y = y )$ 发生的概率

数理定义

我们说治疗 $Z$ 对于一个个体有因果效应，如果 $Y ( 1 ) \neq Y ( 0 )$（没有因果效应，如果相等）

平均因果效应

为了定义累积因果效应我们需要：

感兴趣的结局（比如 $5$ 天后的存活）
比较不同的操作（$z=1$ 和 $z=0$）
良好定义的个体的总体——这些个体的反事实结果（已经采用一种治疗，现假设采用的是另一种治疗）将被用来比较

一个总体中的平均因果效应 (ACE)

注意区分总体的和个体的，只有总体的才叫 ACE

结局 $Y$ 对应的治疗 $Z$ 的 ACE 是
$E ( Y ( 1 ) ) - E ( Y ( 0 ) ),$
如果在感兴趣的总体中有
$E ( Y ( 1 ) ) \neq E ( Y ( 0 ) ).$
由于
$E ( Y ( 1 ) ) - E ( Y ( 0 ) ) = E ( Y ( 1 ) - Y ( 0 ) ),$
因此 ACE 等于一个个体的平均因果效应。

因果效应的测量

一般来说，因果效应可以定义为不同治疗值下反事实结局的分布的泛函的对比。这些泛函包括：均值，中值，方差，hazard，CDF。

因果效应差
$\operatorname { Pr } ( Y ( 1 ) = 1 ) - \operatorname { Pr } ( Y ( 0 ) = 1 )$
因果效应比
$\frac { \operatorname { Pr } ( Y ( 1 ) = 1 ) } { \operatorname { Pr } ( Y ( 0 ) = 1 ) }$
因果可能性（odds）比
$\frac { \operatorname { Pr } ( Y ( 1 ) = 1 ) / \operatorname { Pr } ( Y ( 1 ) = 0 } { \operatorname { Pr } ( Y ( 0 ) = 1 ) ) / \operatorname { Pr } ( Y ( 0 ) = 0 ) }$

这些都是对效应的测量

随机变化性（variability）

采样的变化性
反事实结局的随机或非确定性

采样的变化性

从一个极大的总体中随机采样
用经验估计 $\widehat { \operatorname { Pr } } ( Y ( 0 ) = 1 )$ 代替 $\operatorname { Pr } ( Y ( 0 ) = 1 )$
由大数律，二者是 consistent（相合：大样本下相等）的
此种情形中，每个个体的结局是固定的（例如宙斯如果被治疗有 100% 的概率死亡，而不被治疗则有 0% 的概率存活）

反事实结局不固定

反事实的结局的值可能不固定，或非决定性
- 如果宙斯被治疗，他会有 90% 的概率死亡；如果不被治疗，他会有 10% 的概率死亡——不论我们收集多少宙斯的数据，他的死亡都有不确定性
- 此外，这个概率对不同的个体来说可能不同，因为他们的敏感程度不同（量子力学也是这里描述的的情形）
对于非决定性的反事实结局，治疗 $z$ 下的平均结局为
$E ( Y ( z ) ) = \sum _ { y } y p _ { Y ( z ) } ( y ),$
- 其中 $y$ 是随机变量 $Y ( z )$ 的可能值，$p { Y ( z ) } ( y ) = E \left( Q { Y ( z ) } ( y ) \right)$
- $Q { Y ( z ) } ( y )$ 是治疗 $z$ 下结局 $Y=y$ 的随机概率（random possibility），上一个例子中 $Q { Y ( 1 ) } ( 1 ) = 0.9$
- 如果结局是连续的，求和用积分表示。
更一般地，反事实结局的一个非决定性定义不赋予每个个体一个特定的 $Y ( z )$ 值，而给定 $Y ( z )$ 的一个统计分布 $P _ { z }$
因果效应的非决定性定义是决定性定义的推广，其中 $P_z$ 是一个在 0$\sim$1 中取值的 cdf
总体中的平均反事实结局变量 $E(Y(z))$ 等于 $E { E [ Y ( z ) | P { z } ( \cdot ) ] }$ 如果我们定义 $F { Y ( z ) } ( \cdot ) = E \left( P _ { z } ( \cdot ) \right)$，那么
$E ( Y ( z ) ) = E \left[ \int y \text{d} P _ { Y ( z ) } ( y ) \right] = \int y \text{d} E \left[ P _ { Y ( z ) } ( y ) \right] = \int y \text{d} F _ { Y ( z ) } ( y )$

尽管非决定性反事实结局的概率没有给总体因果效应和效果测量二者的定义带来改变，但是引入了随机变化。这个变化会给效果测量的置信区间的计算带来影响。

因果 vs 关联

$Z$ 和 $Y$ 是有关系的 (dependent/associated)，如果
$E ( Y | Z = 1 ) \neq E ( Y | Z = 0 )$
条件概率 $\operatorname { Pr } ( Y = 1 | Z = z )$ 是在总体的一个满足 $Z=z$ 的子集中，$Y=1$ 的概率——对应关联
- 关联：由被试者的实际治疗值决定的总体的两个不相交的子集的不同风险
边缘概率 $\operatorname { Pr } ( Y ( z ) = 1 )$ 是在整个总体中 $Y(z)=1$ 的概率，由于实际上无法对所有个体采用治疗方式 $z$ ，实际上有反事实结局——对应因果
- 因果：两个不同治疗值下的全部总体的不同风险（全部总体都要两种治疗）
二者不总是相同的
Confounder: a variable that influences both the dependent variable and independent variable causing a spurious association
混淆变量：一个同时影响自变量和因变量，因而导致自变量和因变量之间虚假联系的变量

因果性的三个框架

结构性因果模型（SCM，Pearl，2000）
图形模型中的因果分析
基于可能结局的因果模型

随机化

例子

一个典型的因果问题：你抬头看天，会让路人跟着看吗？我们希望在某个总体（全体北京市民）中研究某种行为（你抬头看天）是否影响某种结局（路人跟着看）
一种科学的研究：站在路边，有人过来就抛硬币。正面向上就朝天上看，反之就漫不经心朝前看。重复试验数千次。如果在你向上看后也向上看的人的比例比你没看也还是向上看的人比例大，你就得出结论：你向上看对于人们向上看有因果效应
随机化试验：对于被研究物的操作都是由随机行为行为决定的——Neyman（1923）对随机化试验中的因果效应的测量采用了反事实理论

例子

真实研究中我们不知道宙斯的可能结局 $Y(1)$（被治疗）和 $Y(0)$（不被治疗），只知道他事实上接受值为 $A$ 的治疗后的结局 $Y$
下表给出一家医院的 20 个病人的总体的信息，对于每个个体，两个反事实结局中只有一个可知：他实际上所接受的治疗水平下的结局
另一个反事实结局的数据丢失了

随机化

随机化保证缺失的反事实 $( Y ( 0 ) , Y ( 1 ) )$ 偶然发生，得到效果测量的相合估计
注意：理想的随机化试验
- 没有数据遗失
- 试验对象乖♂乖♂站♂好♂
- tx (treatments) 的单一性
- 双盲

可交换性

又被称为外生性 exogeneity
- $Y(z)$ 与 $Z$ 之间的独立性和 $Y$ 与 $Z$ 之间的独立性是不同的，$Y(z)$ 与 $Z$ 之间的独立性并不意味着 $Y$ 与 $Z$ 之间的独立性
Ex. 随机分组，对第 1 组治疗 (tx)，第 2 组使用安慰剂 (placebo)，需满足
- 本可以给第 1 组安慰剂，给第 2 组治疗
- 在被治疗的组中个体死亡（结局）的概率应该相等（安慰剂组同样如此）
- 这两组可交换
  - 可交换性
    $\operatorname { Pr } ( Y ( z ) = 1 | Z = 1 ) = \operatorname { Pr } ( Y ( z ) = 1 | Z = 0 ) \text { for } z = 0,1\\ 等号两端分别代表两个组$
    因此
    $\operatorname { Pr } ( Y ( z ) = 1 | Z = 0 ) = \operatorname { Pr } ( Y ( z ) = 1 | Z = 0 ) = \operatorname { Pr } ( Y ( z ) = 1 )$
可能的结局和实际的治疗独立

\begin{array} { c } { Y ( z ) \perp Z,\ \forall z } \\ { E [ Y ( z ) ] = E [ Y | Z = z ] } \end{array}

证明需要用到相合性和可交换性
$\begin{align*} E [ Y | Z = z ] &= E [ Y(z) | Z = z ] \\ &= E [ Y ( z ) ] \end{align*}$
- 相合性：$Z=z$ 时，利用观测到的 $Y(z)$ 估计的经验期望等于 $Y$ 实际的条件期望
- 可交换性：$Z=0,1$ 并不影响 $Y(z)$ 的分布
条件（conditional）可交换性
- Ex. 我们有条件型的双协变量 $L$ (非决定性 vs. 决定性)
  - $L=1$ 的被随机分配到治疗 $p_1$
  - $L=0$ 的被随机分配到治疗 $p_0$
- 条件可交换性给出
  $\begin{array} { c } { \operatorname { Pr } ( Y ( z ) = 1 | Z = 1 , L = 1 ) = \operatorname { Pr } ( Y ( z ) = 1 | Z = 0 , L = 1 ) } \\ { Y ( z ) \perp z | L, \ \forall z } \end{array}$

因果被估计量

分层：对于不同的层次（如 $L=0,1$）计算出特定的 (stratum-specific) 因果估计量（注意：我们可以决定，当层次划分的估计不同时，是否有效应修正 effect modification）
标准化和概率倒数加权：计算总体的因果被估计量

分层

条件随机试验仅仅是两个边缘随机试验的结合
- 一个在 $L=1$ 的子集里进行
- 另一个在 $L=0$ 的子集里进行
条件随机化 $=$ 边缘随机化
- 边缘随机化的试验应该导致被治疗组和未被治疗组的可交换性：$P ( Y ( z ) = 1 | Z = 1 ) = P ( Y ( z ) = 1 | Z = 0 )$ 或者 $Y(z)$ 和 $Z$ 的独立性
- 另一方面，条件随机化的试验通常不应该导致被治疗的和未被治疗的之间的可交换性，因为从设计上来说，每个组中带有不乐观病情预报（预后）的个体的比例可能不同
- $Y(z)$ 和 $Z$ 的独立性不会保持不变，但是在给定 $L$ 的条件下二者是独立的（conditionally independent）
- 在边缘随机化试验中，反事实结局的值完全随机地丢失（MCAR） missing completely at random
- 在条件随机化的试验中，反事实结局的值不是 MCAR，但是会条件性地在协变量 $L$ 下随机丢失（MAR） missing at random conditional on the covariate L

标准化

边缘反事实风险 $\operatorname { Pr } ( Y ( 1 ) = 1 )$ 是层次划分风险的加权平均：
$\begin{aligned} \operatorname { Pr } [ Y ( 1 ) = 1 ] & = \sum _ { I } \operatorname { Pr } [ Y ( 1 ) | L = l ] \times \operatorname { Pr } [ L = l ] \\ & = \sum _ { I } \operatorname { Pr } [ Y = 1 | L = I , Z = a ] \times \operatorname { Pr } [ L = l ] \end{aligned}$
其中第二行从条件可交换性中得到；当 $a=1$ 时，第二行是总体中所有个体都被治疗时的反事实风险

概率倒数加权

创造一组假的总体（pseudo-population）
对观测结果加权，权重为给定协变量时所接受治疗的概率的倒数

W ^ { a } = \frac { 1 } { P ( Z = a | L ) }

和标准化等价（证明见 PPT：Lecture14）

E [ Y ( a ) ] = E \left[ \frac { I ( Z = a ) } { P ( Z = a |L) } Y \right]

证明：
$\begin{align*} E \left[ \frac { I ( Z = a ) } { P ( Z = a |L) } Y \right]&=E \left[ \frac { I ( Z = a ) } { P ( Z = a |L) } Y(a) \right]\\ &=E \left\{E\left[ \frac { I ( Z = a ) } { P ( Z = a |L) } Y(a) \Bigg|L\right]\right\}\\ &=E \left\{\frac { E\left[ I ( Z = a )|L\right]} { P ( Z = a |L) }E\left[ Y(a) |L\right]\right\}\\ &=E \left\{E\left[ Y(a) |L\right]\right\}\\ &=E[ Y(a)] \end{align*}$
例如：
- 表中的数据可以画成一棵树，20 个个体从左边开始，然后向右随时间发展，如下图所示。
- 上图第一棵树中总体中每个人都未被治疗。这里的计算基于： $L=0$ 的被治疗的个体如果未被治疗，将会和实际上一直未被治疗的个体死亡概率相同。给定 $L=0$，这个条件恰好是可交换的
- 第二棵树显示了每个人都被治疗的总体

非理想试验——违反随机化

病人不乖♂乖♂站♂好♂
数据缺失
病人不乖♂乖♂站♂好♂+数据缺失
病人离世

不乖♂乖♂站♂好♂+数据缺失下的因果推断

相关定义
- $Z_i$ 代表对第 $i$ 个病人的随机任务
- $D_i(Z_i)$ 代表第 $i$ 个病人在任务 $Z_i$ 是否接受了处理
- $Y { i } \left( Z { i } \right) = Y { i } \left( Z { i } , D { i } \left( Z { i } \right) \right)$ 代表第 $i$ 个病人的结局变量
- $R_i(z)$ 代表 $Y_i(z)$ 的响应——如果 $Y_i(z)$ 被观测到，$R_i(z)=1$ ，否则 $R_i(z)=0$
- $D_i(z),Y_i(z),R_i(z)$ 都是病人潜在的结局变量
Stable Unit Treatment Value (SUTVA)
- 假定每一个个体潜在的结局变量都不受其他个体的影响
$Z$ 对 $Y$ 的因果效应
- 第 $i$ 个个体的因果效应
  $Y _ { i } \left( 1 , D _ { i } ( 1 ) \right) - Y _ { i } \left( 0 , D _ { i } ( 0 ) \right)$
- ACE
  $I T T = E \left[ Y _ { i } \left( 1 , D _ { i } ( 1 ) \right) - Y _ { i } \left( 0 , D _ { i } ( 0 ) \right) \right]$
$D$ 对 $Y$ 的因果效应
- 为了得到因果效应，需要加上更多限制，并定义顺从类型
- 顺从类型
  - 把总体划分为四部分，定义顺从表现 $C_i$
    $C _ { i } = \left\{ \begin{array} { l l } { c ( \text { a complier } ) } & { \text { if } D _ { i } ( z ) = z } \\ { n ( \text { a never taker } ) } & { \text { if } D _ { i } ( z ) = 0 } \\ { a ( \text { always-taker } ) } & { \text { if } D _ { i } ( z ) = 1 } \\ { d ( \text { a defier } ) } & { \text { if } D _ { i } ( z ) = 1 - z } \end{array} \right.$
- 顺从者平均因果效应（CACE）——更值得关注
  $C A C E = E \left( Y _ { i } ( 1,1 ) - Y _ { i } ( 0,0 ) | C _ { i } = c \right)$
- 逆反者平均因果效应（DACE）
  $D A C E = E \left( Y _ { i } ( 1,0 ) - Y _ { i } ( 0,1 ) | C _ { i } = d \right)$
可识别性——为了满足可识别性需要给出假设
- 治疗方案的影响可以忽略（病人不会因为被分进吃药的组里就喜出望外……）：$Y(1),Y(0)$ 与 $Z$ 是独立的
- 单调性假设（不存在逆反者）：
  $D _ { i } ( 1 ) \geq D _ { i } ( 0 )$
- 排除总是吃药和总是不吃药的病人之间的限制：
  $P \left( Y _ { i } ( 1 ) | Z _ { i } = 1 , C _ { i } = n \right) = P \left( Y _ { i } ( 0 ) | U _ { i } = n \right)\\ P \left( Y _ { i } ( 1 ) | C _ { i } = a \right) = P \left( Y _ { i } ( 0 ) | C _ { i } = a \right)$
- 损失的数据完全不可忽略：
  $P \left( R _ { i } ( z ) | Y _ { i } ( z ) , D _ { i } ( z ) , C = c \right) = P \left( R _ { i } ( z ) | Y _ { i } ( z ) \right)\text{ for }z = 0 \text { and } 1$
- 此时模型中的所有参数都是可识别的

死亡影响下的因果推断

试验对象可能在试验结束前离世
有人会把这些数据舍去——很可能有偏（这很大程度上相当于舍去了身体不好的对象）
一些定义
- $Z$ 代表随机试验
- $S(z)$ 表示对象在接受 $z$ 后（潜在）生存与否
- $Y(z)$ 表示对象接受 $z$ 后的（潜在）生存质量
Principle Strata $G$
$G = \left\{ \begin{array} { l l } { L L , \text{ always-survivor}} & { \text { if } S ( 1 ) = 1 \text { and } S ( 0 ) = 1 } \\ { L D , \text{ protected}} & { \text { if } S ( 1 ) = 1 \text { and } S ( 0 ) = 0 } \\ { D L ,\text{ harmed} } & { \text { if } S ( 1 ) = 0 \text { and } S ( 0 ) = 1 } \\ { D D , \text{ doomed}} & { \text { if } S ( 1 ) = 0 \text { and } S ( 0 ) = 0 } \end{array} \right.$
$\pi _ { g } = P ( G = g ) \text { for } g = L L , L D , D L \text { or } D D$
- 对于每一层 $G$ ，因果参数为
  $A C E _ { g } = E ( Y ( 1 ) - Y ( 0 ) | G = g )$
- 但当 $ g = L D , D L , D D$ 时这样的定义没有意义，因为病人的死亡肯定会导致数据的缺失，从而我们只考虑 $A C E _ { LL }$
  $A C E _ { LL } = E ( Y ( 1 ) - Y ( 0 ) | G = LL )$
  也即 SACE ——幸存者平均因果效应——一般是不可识别的

PreviousChapter 2. Estimation 估计 NextChapter 8. Analysis of Variance 方差分析

Last updated 5 years ago

hashtag因果性

hashtag因果问题的重要性

hashtag因果推断的概念

hashtag因果性与因果效应

hashtag从关联到因果

hashtag因果推断的数理基础

hashtag关联的数理模型

hashtag因果推断的数理模型

hashtag预测 vs 因果

hashtag因果效应的例子

hashtag对于因果效应的可能结局的表示法

hashtag数理定义

hashtag平均因果效应

hashtag一个总体中的平均因果效应 (ACE)

hashtag因果效应的测量

hashtag随机变化性（variability）

hashtag采样的变化性

hashtag反事实结局不固定

hashtag因果 vs 关联

hashtag因果性的三个框架

hashtag随机化