Chapter 5. Hypothesis Testing 假设检验

假设检验

  • 假设检验是一个明确的规则,给出:

    • 对于怎样的样本接受 $H_0$

    • 对于怎样的样本拒绝 $H_0$ 或者接受 $H_1$ ——拒绝前者不代表接收后者

  • 拒绝域:对应着拒绝 $H_0$ 的样本空间的子集

  • Type I & Type II 错误:

    • 在假设检验中考虑的不是零假设是否正确,而是我们有没有足够的证据拒绝零假设

      接受 $H_0$

      拒绝 $H_0$

      $H_0$ 为真

      Type I 错误

      $H_1$ 为真

      Type II 错误

  • 步骤:

    • 选择测试统计量 $Tn= T { n } \left( X { 1 } , \ldots , X { n } \right)$

    • 选择拒绝域 $\mathcal{R}$

    • 如果 $T _ { n } \in \mathcal { R }$ ,拒绝零假设,否则接受零假设

统计功效

  • 功效函数:

  • 含义:当 $\theta\in\Theta_0$ 的时候,犯 Type I 错误的概率为 $\beta(\theta)$ ;当 $\theta\in\Theta_1$ 的时候,犯 Type II 错误的概率为 $1-\beta(\theta)$

  • 我们希望构建一个拒绝域,当 $\theta\in\Theta_0$ 的时候 $\beta(\theta)$ 很小(不容易拒绝 $H_0$ ),当 $\theta\in\Theta_1$ 的时候 $\beta(\theta)$ 很大(不容易接受 $H_0$ )

  • 做法:

    • 固定一个 $\alpha$ (比如等于 $0.05$ )

    • 在 $\beta(\theta)\le\alpha$ 对于 $\theta\in\Theta_0$ 恒成立时,使 $\beta(\theta)$ 在 $\theta\in\Theta_1$ 上取最大

  • size $\alpha$ :相当于犯 Type I 错误的概率的上界

  • level $\alpha$

  • 无偏测试:

  • 例:正态分布,方差已知

    • 零假设和备假设:

    • 拒绝域:

    • 功效函数:

  • 为了得到一个 size-$\alpha$ 的检验

    可以解出 $c$

检验方法

似然比检验 (LRTs)

  • 零假设和备假设:

  • LRT 统计量:

  • 当 $\lambda(x)\le c$ 时拒绝零假设——在零分布下,出现观测到的样本的最大概率太小了

  • 对于 size-$\alpha$ 的检验,$c$ 由下式给出:

LRTs 和充分性

  • 考虑用充分统计量 $T(X)$ 和它的似然函数 $L ^ { * } ( \theta | t )$ (而非样本的似然函数 $L ( \theta | x )$ )来构造似然比

  • 可以证明 $\lambda ^ { * } ( T ( x ) ) = \lambda ( x )$ (用因子化定理)

冗余参数

  • LRTs 可以帮助处理含有不感兴趣参数的情况

  • 例:正态分布,我们对 $\mu$ 感兴趣但不关心 $\sigma^2$

    • $H { 0 } : \mu = \mu { 0 } \text { versus } H { 1 } : \mu \neq\mu { 0 }$

    • 可以这样写似然比:

      其中 $\widehat\sigma_0$ 在 $\mu=\mu_0$ 时把似然函数最大化,$\widehat\sigma_0$ 在 $\mu\in(-\infty,\infty)$ 时把似然函数最大化

    • 在 $\lambda \left( x { 1 } , \dots , x { n } \right) < c$ 时拒绝原假设,这等价于 $\left| T _ { n } \right| > k$ ,$k$ 是一个常数,而:

      满足 $n-1$ 维的 t 分布

    • size-$\alpha$ 的检验:当 $\left| T { n } \right| > t { n - 1 , \alpha / 2 }$ 时(注意 t 分布要考虑双侧,作为对比,卡方分布只要考虑单侧)拒绝零假设—— Student’s t-test

LRTs 的渐近分布

  • 有时我们无法给出 LRT 的分布,为了得到 size-$\alpha$ 的检验,需要用到渐近分布

  • 在零假设下,$T { n } = - 2 \log \lambda \left( x { 1 } , \ldots , x { n } \right) \stackrel { d } { \rightarrow } \chi { r } ^ { 2 }$ ,其中 $r = \operatorname { dim } ( \Theta ) - \operatorname { dim } \left( \Theta _ { 0 } \right)$

  • 渐近的 size-$\alpha$ 的检验:当 $T { n } > \chi { r , 1 - \alpha } ^ { 2 }$ 时拒绝零假设

Neyman-Pearson 检验

  • uniformly most powerful (UMP) 检验:

    对于任意的 $\theta\in\Theta_1$ ,功效函数都不小于任何其他 (level-$\alpha$) 检验的功效函数

  • 简单零假设和备假设:$H { 0 } : \theta = \theta { 0 } \text { versus } H { 1 } : \theta = \theta { 1 }$

  • Neyman-Pearson 定理

    • 当 $T { n } > k$ 时拒绝零假设,$k$ 满足 $P { \theta { 0 } } \left( T { n } > k \right) = \alpha$

    • 这个检验是 UMP level-$\alpha$ 检验

Wald 检验——适合无约束的模型

  • 对于 $p$ 维的 MLE $\hat\theta$ ,大样本下有:

    Fisher Information Matrix 如下:

  • Cramer-Wald 定理:

  • Slutsky 定理:

    对于任意随机向量 $X_n$ 和 $Y_n$ 和任意常数 $c$

  • 可能的零假设

    • $C$ 是 $r \times p$ 的满秩矩阵,$\theta$ 是 $p\times1$ 向量,$h$ 是一个已知的 $r\times1$ 向量

    • $H _ { 0 } : C \theta = h$

    • 例(把零假设写成矩阵形式):

  • Wald 检验:

    • 令 $\widehat { \mathcal { I } ( \theta ) } \stackrel { P } { \rightarrow } \mathcal { I } ( \theta )​$ ,零假设 $H _ { 0 } : C \theta = h​$ 为真

    • Wald 统计量:$W _ { n } = n ( { C } \widehat { \theta } - h ) ^ { \prime } \left( \mathcal { C } \widehat { \mathcal { I } ( \theta ) } C ^ { \prime } \right) ^ { - 1 } ( C \widehat { \theta } - h )$

    • 零假设下:$W _ { n } \stackrel { d } { \rightarrow } \chi ^ { 2 } ( r )$

    • $Wn>\chi { r , 1 - \alpha } ^ { 2 }$ 时拒绝零假设

Score 检验——适合有约束的模型

  • Observed Fisher Information 和相合估计量

    • Fisher information 需要计算期望,非常不便

    • 从样本出发,可以得到:

    • 由强大数定律:

    • 可以证明:

  • Score 检验

    • $\widehat\theta$ 是 $k\times1$ 的 MLE

    • $H { 0 } : \theta = \theta { 0 }$ ,$\widehat\theta_0$ 是零假设下的 MLE

    • 由 Score 函数定义:

    • 零假设下, $S \left( \widehat { \theta } { 0 } \right) \stackrel { d } { \rightarrow } N { k } ( 0 , \mathcal { J } )$

    • Score 检验统计量:

      $r$ 是 $H_0$ 约束的个数

p 值

  • p 值是我们拒绝 $H_0$ 的最小 $\alpha$(避免犯 Type II 错误),$\alpha>p$ 时我们拒绝零假设

  • 有效的 p 值:对于 $\theta\in\Theta0$ 和 $0<\alpha<1$ 有 $P { \theta } ( p ( X ) \leq \alpha ) \leq \alpha$

  • p 值小给出 $H_1$ 正确的证据

  • 一个(通常的)定义:

    • $W(X)$ 是一个统计量,大的 $W(X)$ 给出备假设正确的证据,则可以定义:

      此时的 p 值是有效的

    • 这个定义等价于在零分布下,比样本更糟糕的情况出现的概率

    • 在 $H_0$ 下,$p(X)\sim Uniform(0,1)$

  • p 值的意义:

    • 我们希望在零假设错误时备假设是正确的

    • 我们无法证明备假设是正确的,但我们可以证明备假设比零假设更靠谱

    • 给定检验统计量的值和零分布,我们想看到这个值是在分布的中间(和零假设相符)还是在分布的尾上(备假设更可靠)

    • 有时我们会考虑单边的尾,有时则是双侧的,这主要由检验统计量和备假设的定义决定

    • p 值不是零假设成立的概率,而是在假设零假设成立的前提下计算一组新的样本的检验统计量(相同的公式,新的数据),得到的结果比原结果偏离更远

贝叶斯检验

  • 贝叶斯检验把样本信息和先验信息结合在一起(利用贝叶斯公式),所有推断都建立在后验分布上

  • 我们分别计算概率:

  • 贝叶斯假设检验:

    如果 $P \left( \theta \in \Theta { 0 } | x \right) \geq P \left( \theta \in \Theta { 1 } | x \right)$ 就接受零假设,否则拒绝

  • 拒绝域:

    $\mathcal{R}=\left{ x : P \left( \theta \in \Theta _ { 1 } | x \right) > 1 / 2 \right}$

  • 例:正态分布,$\theta$ 的先验分布也是正态分布,$H { 0 } : \theta \leq \theta { 0 } \text { versus }H { 1 } : \theta > \theta { 0 }$

    接受零假设的条件是:

并交检验

  • 零假设可能对应许多零假设的交集

  • 设对于每一个 $\gamma$ ,$H { 0 \gamma } : \theta \in \Theta { \gamma } \text { versus } H { 1 \gamma } : \theta \in \Theta { \gamma } ^ { c }$ ,拒绝域为 $\left{ x : T { \gamma } ( x ) \in \mathcal { R } { \gamma } \right}$

  • 整体的拒绝域为每一个子拒绝域的并集:

  • 如果某一个 $H_{0\gamma}$ 被拒绝了,整体的零假设就被拒绝了

置换检验

  • 非参检验,不引入任何大样本渐近近似

  • $X { 1 } , \ldots , X { n } \sim F,\quad Y { 1 } , \ldots , Y { m } \sim G$

  • $H { 0 } : F = G \text { versus } H { 1 } : F \neq G$

  • 定义 $Z = \left( X { 1 } , \ldots , X { n } , Y { 1 } , \ldots , Y { m } \right)$ 和标签 $L = ( 1 , \ldots , 1,2 , \ldots , 2 )$ ,$n$ 个 $1$ ,$m$ 个 $2$ ,可以利用它们来构造统计量,比如:

    $T$ 太大时拒绝零假设

  • p 值

    $L_\pi$ 是标签的一种排序,这里对所有可能的排序求和并除以排序总数

    零假设下的 $ T ( L , Z ) $ 是均匀分布,如果 p 值很小,则在零假设下我们观测到的样本出现概率非常小,考虑拒绝零假设

  • 对所有排列进行检验运算量太大,常用的做法是随机抽取 $K$ 组,p 值为:

Last updated