Chapter 7. Two Sample Comparisons 两个样本的比较
两个样本的比较
在许多实验中,两个样本都被认为是独立的
引理
令 $X { 1 } , \ldots , X { n }$ 是来自正态分布的随机样本,则:
均值和方差是独立随机样本
$\overline { X } \sim N \left( \mu , \sigma ^ { 2 } / n \right)$
$( n - 1 ) S ^ { 2 } / \sigma ^ { 2 }\sim\chi^2_{n-1}$
参数方法
t 检验
可以利用 t 检验比较两个样本的均值($H_0: \mu_X=\mu_Y$),但必须假设两个样本方差相同
对于两个样本,$\overline { X } \sim N \left( \mu , \sigma ^ { 2 } / n \right)$ ,$\overline { Y } \sim N \left( \mu , \sigma ^ { 2 } / m \right)$ ,$( n - 1 ) S { X } ^ { 2 } / \sigma ^ { 2 }\sim\chi^2{n-1}$,$( m - 1 ) S { Y } ^ { 2 } / \sigma ^ { 2 }\sim\chi^2{m-1}$ ,且互相独立
定义:
构造统计量为:$T=U/V\sim t_{n+m-2}$
置信区间:
$\mu_X - \mu_Y$ 的一个 $1-\alpha$ 置信区间为:
这里的 $S$ 相当于总体的标准差:
如果方差相同的假设不成立——Behrens Fisher problem:
大样本情况下,依然可以由中心极限定理和正态分布的性质得到:
进而给出 $\mu { X } - \mu { Y }$ 的 $1-\alpha$ 置信区间,$S = \sqrt { S { X } ^ { 2 } / n + S { Y } ^ { 2 } / m }$:
如果甚至不满足大样本情况:
其中 $v$ 为离 $v^*$ 最近的整数:
Fisher’s Fiducial approach
Bayesian approach
F 检验
可以用 F 检验比较两个样本的方差($H_0: \sigma_X^2=\sigma_Y^2$)
F 统计量表示为样本方差的比,满足 F 分布(两个独立卡方分布之比):
$1-\alpha$ 置信区间
双侧($H1: \sigma_X^2\neq\sigma_Y^2$):$F{n-1,m-1;\alpha/2}<F<F_{n-1,m-1;1-\alpha/2}$
其中 $F{n-1,m-1;\alpha/2}\cdot F{n-1,m-1;1-\alpha/2}=1$
单侧
若 $H1: \sigma_X^2>\sigma_Y^2$:$F<F{n-1,m-1;1-\alpha}$
若 $H1: \sigma_X^2<\sigma_Y^2$:$F>F{n-1,m-1;\alpha}$
配对的 t 检验
$Z { i } = \left( X { i } , Y { i } \right)$ 是独立同分布的,检验 $H { 0 } : \mu { X } = \mu { Y }$
等价于对于 $Di=X_i-Y_i$ ,检验 $H { 0 } : \mu { X } - \mu { Y }=\mu_D=0$
t 统计量:
非参方法
非参方法不假设数据服从特定的分布,很多都基于对数据顺序的改变
仅仅涉及各数据之间相对大小,对原数据作任何单调变换之后,比较的结果保持不变
减小了离群值的影响
Mann-Whitney 检验
$X { 1 } , \ldots , X { n }\sim F$,$Y { 1 } , \ldots , Y { m }\sim G$,$H _ { 0 } : F = G$
零假设下,这 $m+n$ 个观测量的任何一种排列都是等可能的
这里已经假设了不同观测之间两两不等;如果有少量的观测值相等,它们的秩全部取为平均值,对 $\alpha$ 不会有显著影响
第一种视角
定义 $TY$ 为 $Y { 1 } , \ldots , Y _ { m }$ 的秩和
零假设下:
证明:根据抽样调查理论:
$N=m+n$ ,$\mu,\sigma^2$ 是总体中某一个元素的均值和方差:
直接代入就证明了上述结果
$n$ 足够大时:
可以据此构造检验
第二种视角
考虑 $\pi=P(X<Y)$, $H_0:\pi=1/2$
定义统计量:
容易证明:
符号秩检验
可以对成对的样本构造符号秩检验
计算 $D_i=Y_i-X_i$ 和 $|D_i|$ 的秩,其中如果有多个 $|D_i|$ 相等,将其秩取为平均——这样的情况不太多的时候,$\alpha$ 受的影响不大,否则要作修正
若 $D_i>0$ ,记秩的符号为正;若 $D_i<0$ ,记秩的符号为为负;若恰好为零,一般把这组数据点丢弃
记符号秩的和为 $W_+$
零假设下 $D_i$ 对称分布在零点两侧,可以证明:
证明:
将 $W_+$ 写成:
$k$ 是第 $k$ 大的 $|D_i|$ 的下标
零假设下,$I_k\sim Bernoulli(1/2)$ ,有:
推出:
Last updated