Chapter 5. Hypothesis Testing 假设检验
假设检验
假设检验是一个明确的规则,给出:
对于怎样的样本接受 $H_0$
对于怎样的样本拒绝 $H_0$ 或者接受 $H_1$ ——拒绝前者不代表接收后者
拒绝域:对应着拒绝 $H_0$ 的样本空间的子集
Type I & Type II 错误:
在假设检验中考虑的不是零假设是否正确,而是我们有没有足够的证据拒绝零假设
接受 $H_0$
拒绝 $H_0$
$H_0$ 为真
Type I 错误
$H_1$ 为真
Type II 错误
步骤:
选择测试统计量 $Tn= T { n } \left( X { 1 } , \ldots , X { n } \right)$
选择拒绝域 $\mathcal{R}$
如果 $T _ { n } \in \mathcal { R }$ ,拒绝零假设,否则接受零假设
统计功效
功效函数:
含义:当 $\theta\in\Theta_0$ 的时候,犯 Type I 错误的概率为 $\beta(\theta)$ ;当 $\theta\in\Theta_1$ 的时候,犯 Type II 错误的概率为 $1-\beta(\theta)$
我们希望构建一个拒绝域,当 $\theta\in\Theta_0$ 的时候 $\beta(\theta)$ 很小(不容易拒绝 $H_0$ ),当 $\theta\in\Theta_1$ 的时候 $\beta(\theta)$ 很大(不容易接受 $H_0$ )
做法:
固定一个 $\alpha$ (比如等于 $0.05$ )
在 $\beta(\theta)\le\alpha$ 对于 $\theta\in\Theta_0$ 恒成立时,使 $\beta(\theta)$ 在 $\theta\in\Theta_1$ 上取最大
size $\alpha$ :相当于犯 Type I 错误的概率的上界
θ∈Θ0supβ(θ)=αlevel $\alpha$
θ∈Θ0supβ(θ)≤α无偏测试:
β(θ′)≥β(θ′′) for every θ′∈Θ1 and θ′′∈Θ0例:正态分布,方差已知
零假设和备假设:
H0:θ=θ0 v.s. H1:θ>θ0拒绝域:
R={Tn>cTn=σ/nXn−θ0}功效函数:
β(θ)=Pθ(σ/nXn−θ0>c)=Pθ(σ/nXn−θ>c+σ/nθ0−θ)=1−Φ(c+σ/nθ0−θ)
为了得到一个 size-$\alpha$ 的检验
α=θ∈Θ0supβ(θ)=β(θ0)=1−Φ(c)可以解出 $c$
检验方法
似然比检验 (LRTs)
零假设和备假设:
H0:θ∈Θ0 versus H1:θ∈Θ1LRT 统计量:
λ(x)=supθ∈ΘL(θ∣x)supθ∈Θ0L(θ∣x)当 $\lambda(x)\le c$ 时拒绝零假设——在零分布下,出现观测到的样本的最大概率太小了
对于 size-$\alpha$ 的检验,$c$ 由下式给出:
θ∈Θ0supPθ(λ(X)≤c)=α
LRTs 和充分性
考虑用充分统计量 $T(X)$ 和它的似然函数 $L ^ { * } ( \theta | t )$ (而非样本的似然函数 $L ( \theta | x )$ )来构造似然比
可以证明 $\lambda ^ { * } ( T ( x ) ) = \lambda ( x )$ (用因子化定理)
冗余参数
LRTs 可以帮助处理含有不感兴趣参数的情况
例:正态分布,我们对 $\mu$ 感兴趣但不关心 $\sigma^2$
$H { 0 } : \mu = \mu { 0 } \text { versus } H { 1 } : \mu \neq\mu { 0 }$
可以这样写似然比:
λ(x1,…,xn)=L(μ,σ)L(μ0,σ0)其中 $\widehat\sigma_0$ 在 $\mu=\mu_0$ 时把似然函数最大化,$\widehat\sigma_0$ 在 $\mu\in(-\infty,\infty)$ 时把似然函数最大化
在 $\lambda \left( x { 1 } , \dots , x { n } \right) < c$ 时拒绝原假设,这等价于 $\left| T _ { n } \right| > k$ ,$k$ 是一个常数,而:
Tn=S/nX−μ0满足 $n-1$ 维的 t 分布
size-$\alpha$ 的检验:当 $\left| T { n } \right| > t { n - 1 , \alpha / 2 }$ 时(注意 t 分布要考虑双侧,作为对比,卡方分布只要考虑单侧)拒绝零假设—— Student’s t-test
LRTs 的渐近分布
有时我们无法给出 LRT 的分布,为了得到 size-$\alpha$ 的检验,需要用到渐近分布
在零假设下,$T { n } = - 2 \log \lambda \left( x { 1 } , \ldots , x { n } \right) \stackrel { d } { \rightarrow } \chi { r } ^ { 2 }$ ,其中 $r = \operatorname { dim } ( \Theta ) - \operatorname { dim } \left( \Theta _ { 0 } \right)$
渐近的 size-$\alpha$ 的检验:当 $T { n } > \chi { r , 1 - \alpha } ^ { 2 }$ 时拒绝零假设
Neyman-Pearson 检验
uniformly most powerful (UMP) 检验:
对于任意的 $\theta\in\Theta_1$ ,功效函数都不小于任何其他 (level-$\alpha$) 检验的功效函数
简单零假设和备假设:$H { 0 } : \theta = \theta { 0 } \text { versus } H { 1 } : \theta = \theta { 1 }$
Neyman-Pearson 定理
- Tn=L(θ0)L(θ1)
当 $T { n } > k$ 时拒绝零假设,$k$ 满足 $P { \theta { 0 } } \left( T { n } > k \right) = \alpha$
这个检验是 UMP level-$\alpha$ 检验
Wald 检验——适合无约束的模型
对于 $p$ 维的 MLE $\hat\theta$ ,大样本下有:
n(θ−θ)→dT∼Np(0,I(θ)−1)Fisher Information Matrix 如下:
I(θ)ij=E(−∂θi∂θj∂2logf(X∣θ))Cramer-Wald 定理:
Xn→dX⟺aTXn→daTX for all a∈RpSlutsky 定理:
对于任意随机向量 $X_n$ 和 $Y_n$ 和任意常数 $c$
Xn→dX,Yn→Pc⇒(XnYn)→d(Xc)可能的零假设
$C$ 是 $r \times p$ 的满秩矩阵,$\theta$ 是 $p\times1$ 向量,$h$ 是一个已知的 $r\times1$ 向量
$H _ { 0 } : C \theta = h$
例(把零假设写成矩阵形式):
θ1=θ2,θ1=θ3⟺[11−100−1]θ=000
Wald 检验:
令 $\widehat { \mathcal { I } ( \theta ) } \stackrel { P } { \rightarrow } \mathcal { I } ( \theta )$ ,零假设 $H _ { 0 } : C \theta = h$ 为真
Wald 统计量:$W _ { n } = n ( { C } \widehat { \theta } - h ) ^ { \prime } \left( \mathcal { C } \widehat { \mathcal { I } ( \theta ) } C ^ { \prime } \right) ^ { - 1 } ( C \widehat { \theta } - h )$
零假设下:$W _ { n } \stackrel { d } { \rightarrow } \chi ^ { 2 } ( r )$
$Wn>\chi { r , 1 - \alpha } ^ { 2 }$ 时拒绝零假设
Score 检验——适合有约束的模型
Observed Fisher Information 和相合估计量
Fisher information 需要计算期望,非常不便
从样本出发,可以得到:
Jn(θ)ij=n1i=1∑n−∂θi∂θj∂2logf(Xi∣θ)由强大数定律:
Jn(θ)⟶ a.s. I(θ)可以证明:
Jn(θ^)→ a.s. I(θ)
Score 检验
$\widehat\theta$ 是 $k\times1$ 的 MLE
$H { 0 } : \theta = \theta { 0 }$ ,$\widehat\theta_0$ 是零假设下的 MLE
由 Score 函数定义:
S(θ)=∂θ∂l,S(θ^)=0零假设下, $S \left( \widehat { \theta } { 0 } \right) \stackrel { d } { \rightarrow } N { k } ( 0 , \mathcal { J } )$
Score 检验统计量:
Tn=S(θ0)′J−1(θ0)−1S(θ0)→dχ2(r)$r$ 是 $H_0$ 约束的个数
p 值
p 值是我们拒绝 $H_0$ 的最小 $\alpha$(避免犯 Type II 错误),$\alpha>p$ 时我们拒绝零假设
有效的 p 值:对于 $\theta\in\Theta0$ 和 $0<\alpha<1$ 有 $P { \theta } ( p ( X ) \leq \alpha ) \leq \alpha$
p 值小给出 $H_1$ 正确的证据
一个(通常的)定义:
$W(X)$ 是一个统计量,大的 $W(X)$ 给出备假设正确的证据,则可以定义:
p(x)=θ∈Θ0supPθ(W(X)≥W(x))此时的 p 值是有效的
这个定义等价于在零分布下,比样本更糟糕的情况出现的概率
在 $H_0$ 下,$p(X)\sim Uniform(0,1)$
p 值的意义:
我们希望在零假设错误时备假设是正确的
我们无法证明备假设是正确的,但我们可以证明备假设比零假设更靠谱
给定检验统计量的值和零分布,我们想看到这个值是在分布的中间(和零假设相符)还是在分布的尾上(备假设更可靠)
有时我们会考虑单边的尾,有时则是双侧的,这主要由检验统计量和备假设的定义决定
p 值不是零假设成立的概率,而是在假设零假设成立的前提下计算一组新的样本的检验统计量(相同的公式,新的数据),得到的结果比原结果偏离更远
贝叶斯检验
贝叶斯检验把样本信息和先验信息结合在一起(利用贝叶斯公式),所有推断都建立在后验分布上
我们分别计算概率:
P(θ∈Θ0∣x)=P(H0 is true ∣x)P(θ∈Θ1∣x)=P(H1 is true ∣x)贝叶斯假设检验:
如果 $P \left( \theta \in \Theta { 0 } | x \right) \geq P \left( \theta \in \Theta { 1 } | x \right)$ 就接受零假设,否则拒绝
拒绝域:
$\mathcal{R}=\left{ x : P \left( \theta \in \Theta _ { 1 } | x \right) > 1 / 2 \right}$
例:正态分布,$\theta$ 的先验分布也是正态分布,$H { 0 } : \theta \leq \theta { 0 } \text { versus }H { 1 } : \theta > \theta { 0 }$
接受零假设的条件是:
X≤θ0+nτ2σ2(θ0−μ)
并交检验
零假设可能对应许多零假设的交集
H0:θ∈γ∈Γ⋂Θγ设对于每一个 $\gamma$ ,$H { 0 \gamma } : \theta \in \Theta { \gamma } \text { versus } H { 1 \gamma } : \theta \in \Theta { \gamma } ^ { c }$ ,拒绝域为 $\left{ x : T { \gamma } ( x ) \in \mathcal { R } { \gamma } \right}$
整体的拒绝域为每一个子拒绝域的并集:
γ∈Γ⋃{x:Tγ(x)∈Rγ}如果某一个 $H_{0\gamma}$ 被拒绝了,整体的零假设就被拒绝了
置换检验
非参检验,不引入任何大样本渐近近似
$X { 1 } , \ldots , X { n } \sim F,\quad Y { 1 } , \ldots , Y { m } \sim G$
$H { 0 } : F = G \text { versus } H { 1 } : F \neq G$
定义 $Z = \left( X { 1 } , \ldots , X { n } , Y { 1 } , \ldots , Y { m } \right)$ 和标签 $L = ( 1 , \ldots , 1,2 , \ldots , 2 )$ ,$n$ 个 $1$ ,$m$ 个 $2$ ,可以利用它们来构造统计量,比如:
T=Xn−Ym=∑i=1NI(Li=1)∑i=1NZiI(Li=1)−∑i=1NI(Li=2)∑i=1NZiI(Li=2)$T$ 太大时拒绝零假设
p 值
p=N!1π∑I(T(Lπ)>T(L,Z))$L_\pi$ 是标签的一种排序,这里对所有可能的排序求和并除以排序总数
零假设下的 $ T ( L , Z ) $ 是均匀分布,如果 p 值很小,则在零假设下我们观测到的样本出现概率非常小,考虑拒绝零假设
对所有排列进行检验运算量太大,常用的做法是随机抽取 $K$ 组,p 值为:
p=K1j=1∑KI(T(j)>T)
Last updated