Chapter 5. Hypothesis Testing 假设检验
Last updated
Last updated
假设检验是一个明确的规则,给出:
对于怎样的样本接受 $H_0$
对于怎样的样本拒绝 $H_0$ 或者接受 $H_1$ ——拒绝前者不代表接收后者
拒绝域:对应着拒绝 $H_0$ 的样本空间的子集
Type I & Type II 错误:
在假设检验中考虑的不是零假设是否正确,而是我们有没有足够的证据拒绝零假设
步骤:
选择测试统计量 $Tn= T { n } \left( X { 1 } , \ldots , X { n } \right)$
选择拒绝域 $\mathcal{R}$
如果 $T _ { n } \in \mathcal { R }$ ,拒绝零假设,否则接受零假设
功效函数:
含义:当 $\theta\in\Theta_0$ 的时候,犯 Type I 错误的概率为 $\beta(\theta)$ ;当 $\theta\in\Theta_1$ 的时候,犯 Type II 错误的概率为 $1-\beta(\theta)$
我们希望构建一个拒绝域,当 $\theta\in\Theta_0$ 的时候 $\beta(\theta)$ 很小(不容易拒绝 $H_0$ ),当 $\theta\in\Theta_1$ 的时候 $\beta(\theta)$ 很大(不容易接受 $H_0$ )
做法:
固定一个 $\alpha$ (比如等于 $0.05$ )
在 $\beta(\theta)\le\alpha$ 对于 $\theta\in\Theta_0$ 恒成立时,使 $\beta(\theta)$ 在 $\theta\in\Theta_1$ 上取最大
size $\alpha$ :相当于犯 Type I 错误的概率的上界
level $\alpha$
无偏测试:
例:正态分布,方差已知
零假设和备假设:
拒绝域:
功效函数:
为了得到一个 size-$\alpha$ 的检验
可以解出 $c$
零假设和备假设:
LRT 统计量:
当 $\lambda(x)\le c$ 时拒绝零假设——在零分布下,出现观测到的样本的最大概率太小了
对于 size-$\alpha$ 的检验,$c$ 由下式给出:
考虑用充分统计量 $T(X)$ 和它的似然函数 $L ^ { * } ( \theta | t )$ (而非样本的似然函数 $L ( \theta | x )$ )来构造似然比
可以证明 $\lambda ^ { * } ( T ( x ) ) = \lambda ( x )$ (用因子化定理)
LRTs 可以帮助处理含有不感兴趣参数的情况
例:正态分布,我们对 $\mu$ 感兴趣但不关心 $\sigma^2$
$H { 0 } : \mu = \mu { 0 } \text { versus } H { 1 } : \mu \neq\mu { 0 }$
可以这样写似然比:
其中 $\widehat\sigma_0$ 在 $\mu=\mu_0$ 时把似然函数最大化,$\widehat\sigma_0$ 在 $\mu\in(-\infty,\infty)$ 时把似然函数最大化
在 $\lambda \left( x { 1 } , \dots , x { n } \right) < c$ 时拒绝原假设,这等价于 $\left| T _ { n } \right| > k$ ,$k$ 是一个常数,而:
满足 $n-1$ 维的 t 分布
size-$\alpha$ 的检验:当 $\left| T { n } \right| > t { n - 1 , \alpha / 2 }$ 时(注意 t 分布要考虑双侧,作为对比,卡方分布只要考虑单侧)拒绝零假设—— Student’s t-test
有时我们无法给出 LRT 的分布,为了得到 size-$\alpha$ 的检验,需要用到渐近分布
在零假设下,$T { n } = - 2 \log \lambda \left( x { 1 } , \ldots , x { n } \right) \stackrel { d } { \rightarrow } \chi { r } ^ { 2 }$ ,其中 $r = \operatorname { dim } ( \Theta ) - \operatorname { dim } \left( \Theta _ { 0 } \right)$
渐近的 size-$\alpha$ 的检验:当 $T { n } > \chi { r , 1 - \alpha } ^ { 2 }$ 时拒绝零假设
uniformly most powerful (UMP) 检验:
对于任意的 $\theta\in\Theta_1$ ,功效函数都不小于任何其他 (level-$\alpha$) 检验的功效函数
简单零假设和备假设:$H { 0 } : \theta = \theta { 0 } \text { versus } H { 1 } : \theta = \theta { 1 }$
Neyman-Pearson 定理
当 $T { n } > k$ 时拒绝零假设,$k$ 满足 $P { \theta { 0 } } \left( T { n } > k \right) = \alpha$
这个检验是 UMP level-$\alpha$ 检验
对于 $p$ 维的 MLE $\hat\theta$ ,大样本下有:
Fisher Information Matrix 如下:
Cramer-Wald 定理:
Slutsky 定理:
对于任意随机向量 $X_n$ 和 $Y_n$ 和任意常数 $c$
可能的零假设
$C$ 是 $r \times p$ 的满秩矩阵,$\theta$ 是 $p\times1$ 向量,$h$ 是一个已知的 $r\times1$ 向量
$H _ { 0 } : C \theta = h$
例(把零假设写成矩阵形式):
Wald 检验:
令 $\widehat { \mathcal { I } ( \theta ) } \stackrel { P } { \rightarrow } \mathcal { I } ( \theta )$ ,零假设 $H _ { 0 } : C \theta = h$ 为真
Wald 统计量:$W _ { n } = n ( { C } \widehat { \theta } - h ) ^ { \prime } \left( \mathcal { C } \widehat { \mathcal { I } ( \theta ) } C ^ { \prime } \right) ^ { - 1 } ( C \widehat { \theta } - h )$
零假设下:$W _ { n } \stackrel { d } { \rightarrow } \chi ^ { 2 } ( r )$
$Wn>\chi { r , 1 - \alpha } ^ { 2 }$ 时拒绝零假设
Observed Fisher Information 和相合估计量
Fisher information 需要计算期望,非常不便
从样本出发,可以得到:
由强大数定律:
可以证明:
Score 检验
$\widehat\theta$ 是 $k\times1$ 的 MLE
$H { 0 } : \theta = \theta { 0 }$ ,$\widehat\theta_0$ 是零假设下的 MLE
由 Score 函数定义:
零假设下, $S \left( \widehat { \theta } { 0 } \right) \stackrel { d } { \rightarrow } N { k } ( 0 , \mathcal { J } )$
Score 检验统计量:
$r$ 是 $H_0$ 约束的个数
p 值是我们拒绝 $H_0$ 的最小 $\alpha$(避免犯 Type II 错误),$\alpha>p$ 时我们拒绝零假设
有效的 p 值:对于 $\theta\in\Theta0$ 和 $0<\alpha<1$ 有 $P { \theta } ( p ( X ) \leq \alpha ) \leq \alpha$
p 值小给出 $H_1$ 正确的证据
一个(通常的)定义:
$W(X)$ 是一个统计量,大的 $W(X)$ 给出备假设正确的证据,则可以定义:
此时的 p 值是有效的
这个定义等价于在零分布下,比样本更糟糕的情况出现的概率
在 $H_0$ 下,$p(X)\sim Uniform(0,1)$
p 值的意义:
我们希望在零假设错误时备假设是正确的
我们无法证明备假设是正确的,但我们可以证明备假设比零假设更靠谱
给定检验统计量的值和零分布,我们想看到这个值是在分布的中间(和零假设相符)还是在分布的尾上(备假设更可靠)
有时我们会考虑单边的尾,有时则是双侧的,这主要由检验统计量和备假设的定义决定
p 值不是零假设成立的概率,而是在假设零假设成立的前提下计算一组新的样本的检验统计量(相同的公式,新的数据),得到的结果比原结果偏离更远
贝叶斯检验把样本信息和先验信息结合在一起(利用贝叶斯公式),所有推断都建立在后验分布上
我们分别计算概率:
贝叶斯假设检验:
如果 $P \left( \theta \in \Theta { 0 } | x \right) \geq P \left( \theta \in \Theta { 1 } | x \right)$ 就接受零假设,否则拒绝
拒绝域:
$\mathcal{R}=\left{ x : P \left( \theta \in \Theta _ { 1 } | x \right) > 1 / 2 \right}$
例:正态分布,$\theta$ 的先验分布也是正态分布,$H { 0 } : \theta \leq \theta { 0 } \text { versus }H { 1 } : \theta > \theta { 0 }$
接受零假设的条件是:
零假设可能对应许多零假设的交集
设对于每一个 $\gamma$ ,$H { 0 \gamma } : \theta \in \Theta { \gamma } \text { versus } H { 1 \gamma } : \theta \in \Theta { \gamma } ^ { c }$ ,拒绝域为 $\left{ x : T { \gamma } ( x ) \in \mathcal { R } { \gamma } \right}$
整体的拒绝域为每一个子拒绝域的并集:
如果某一个 $H_{0\gamma}$ 被拒绝了,整体的零假设就被拒绝了
非参检验,不引入任何大样本渐近近似
$X { 1 } , \ldots , X { n } \sim F,\quad Y { 1 } , \ldots , Y { m } \sim G$
$H { 0 } : F = G \text { versus } H { 1 } : F \neq G$
定义 $Z = \left( X { 1 } , \ldots , X { n } , Y { 1 } , \ldots , Y { m } \right)$ 和标签 $L = ( 1 , \ldots , 1,2 , \ldots , 2 )$ ,$n$ 个 $1$ ,$m$ 个 $2$ ,可以利用它们来构造统计量,比如:
$T$ 太大时拒绝零假设
p 值
$L_\pi$ 是标签的一种排序,这里对所有可能的排序求和并除以排序总数
零假设下的 $ T ( L , Z ) $ 是均匀分布,如果 p 值很小,则在零假设下我们观测到的样本出现概率非常小,考虑拒绝零假设
对所有排列进行检验运算量太大,常用的做法是随机抽取 $K$ 组,p 值为:
接受 $H_0$
拒绝 $H_0$
$H_0$ 为真
Type I 错误
$H_1$ 为真
Type II 错误