Chapter 7. Two Sample Comparisons 两个样本的比较
两个样本的比较
在许多实验中,两个样本都被认为是独立的
引理
令 $X { 1 } , \ldots , X { n }$ 是来自正态分布的随机样本,则:
均值和方差是独立随机样本
$\overline { X } \sim N \left( \mu , \sigma ^ { 2 } / n \right)$
$( n - 1 ) S ^ { 2 } / \sigma ^ { 2 }\sim\chi^2_{n-1}$
参数方法
t 检验
可以利用 t 检验比较两个样本的均值($H_0: \mu_X=\mu_Y$),但必须假设两个样本方差相同
对于两个样本,$\overline { X } \sim N \left( \mu , \sigma ^ { 2 } / n \right)$ ,$\overline { Y } \sim N \left( \mu , \sigma ^ { 2 } / m \right)$ ,$( n - 1 ) S { X } ^ { 2 } / \sigma ^ { 2 }\sim\chi^2{n-1}$,$( m - 1 ) S { Y } ^ { 2 } / \sigma ^ { 2 }\sim\chi^2{m-1}$ ,且互相独立
定义:
U=σ1/n+1/mX−Y−(μX−μY)∼N(0,1)V=[σ2(n−1)SX2+σ2(m−1)SY2]m+n−21, where σ2(n−1)SX2+σ2(m−1)SY2∼χ2(m+n−2)构造统计量为:$T=U/V\sim t_{n+m-2}$
置信区间:
$\mu_X - \mu_Y$ 的一个 $1-\alpha$ 置信区间为:
X−Y±S1/n+1/mtn+m−2(1−α/2)这里的 $S$ 相当于总体的标准差:
S=[(n−1)SX2+(m−1)SY2]m+n−21如果方差相同的假设不成立——Behrens Fisher problem:
大样本情况下,依然可以由中心极限定理和正态分布的性质得到:
X−Y≈N(μX−μY,nσX2+mσY2)进而给出 $\mu { X } - \mu { Y }$ 的 $1-\alpha$ 置信区间,$S = \sqrt { S { X } ^ { 2 } / n + S { Y } ^ { 2 } / m }$:
X−Y±SZ1−α/2如果甚至不满足大样本情况:
U=SX2/n+SY2/mX−Y∼t(v)其中 $v$ 为离 $v^*$ 最近的整数:
v=(SX2/n)2/(n+1)+(SY2/m)2/(m+1)(SX2/n+SY2/m)2−2
Fisher’s Fiducial approach
Bayesian approach
F 检验
可以用 F 检验比较两个样本的方差($H_0: \sigma_X^2=\sigma_Y^2$)
F 统计量表示为样本方差的比,满足 F 分布(两个独立卡方分布之比):
F=SY2SX2∼Fn−1,m−1$1-\alpha$ 置信区间
双侧($H1: \sigma_X^2\neq\sigma_Y^2$):$F{n-1,m-1;\alpha/2}<F<F_{n-1,m-1;1-\alpha/2}$
其中 $F{n-1,m-1;\alpha/2}\cdot F{n-1,m-1;1-\alpha/2}=1$
单侧
若 $H1: \sigma_X^2>\sigma_Y^2$:$F<F{n-1,m-1;1-\alpha}$
若 $H1: \sigma_X^2<\sigma_Y^2$:$F>F{n-1,m-1;\alpha}$
配对的 t 检验
$Z { i } = \left( X { i } , Y { i } \right)$ 是独立同分布的,检验 $H { 0 } : \mu { X } = \mu { Y }$
等价于对于 $Di=X_i-Y_i$ ,检验 $H { 0 } : \mu { X } - \mu { Y }=\mu_D=0$
t 统计量:
t=SDnDn−μD∼tn−1
非参方法
非参方法不假设数据服从特定的分布,很多都基于对数据顺序的改变
仅仅涉及各数据之间相对大小,对原数据作任何单调变换之后,比较的结果保持不变
减小了离群值的影响
Mann-Whitney 检验
$X { 1 } , \ldots , X { n }\sim F$,$Y { 1 } , \ldots , Y { m }\sim G$,$H _ { 0 } : F = G$
零假设下,这 $m+n$ 个观测量的任何一种排列都是等可能的
这里已经假设了不同观测之间两两不等;如果有少量的观测值相等,它们的秩全部取为平均值,对 $\alpha$ 不会有显著影响
第一种视角
定义 $TY$ 为 $Y { 1 } , \ldots , Y _ { m }$ 的秩和
零假设下:
E(TY)=2m(m+n+1),Var(TY)=12mn(m+n+1)证明:根据抽样调查理论:
E(TY)=mμ,Var(TY)=mσ2N−1N−m$N=m+n$ ,$\mu,\sigma^2$ 是总体中某一个元素的均值和方差:
μ=N1k=1∑Nk=2N+1σ2=N1k=1∑N(k−μ)2=N1k=1∑Nk2−μ2=6(N+1)(2N+1)−4(N+1)2=12(N+1)(N−1)直接代入就证明了上述结果
$n$ 足够大时:
Var(TY)TY−E(TY)∼N(0,1)可以据此构造检验
第二种视角
考虑 $\pi=P(X<Y)$, $H_0:\pi=1/2$
定义统计量:
π=mn1i=1∑nj=1∑nZij≡mn1i=1∑nj=1∑nI(Xi<Xj)容易证明:
i=1∑nj=1∑mZij=i=1∑nj=1∑mVij≡i=1∑nj=1∑mI(X(1)<X(j))j=1∑mVij=TY−2m(m+1)⇒π=mn1(TY−2m(m+1))
符号秩检验
可以对成对的样本构造符号秩检验
计算 $D_i=Y_i-X_i$ 和 $|D_i|$ 的秩,其中如果有多个 $|D_i|$ 相等,将其秩取为平均——这样的情况不太多的时候,$\alpha$ 受的影响不大,否则要作修正
若 $D_i>0$ ,记秩的符号为正;若 $D_i<0$ ,记秩的符号为为负;若恰好为零,一般把这组数据点丢弃
记符号秩的和为 $W_+$
零假设下 $D_i$ 对称分布在零点两侧,可以证明:
E(W+)=4n(n+1),Var(W+)=24n(n+1)(2n+1)证明:
将 $W_+$ 写成:
W+=k=1∑nkIk≡k=1∑nkI(Dk>0)$k$ 是第 $k$ 大的 $|D_i|$ 的下标
零假设下,$I_k\sim Bernoulli(1/2)$ ,有:
E(lk)=1/2,Var(Ik)=1/4推出:
E(W+)=21k=1∑nk=4n(n+1)Var(W+)=41k=1∑nk2=24n(n+1)(2n+1)
Last updated