Chapter 1. Data Reduction 数据压缩
统计模型
一个统计模型是一系列概率分布(或概率密度)的集合
参数模型
P={p(x;θ):θ∈Θ} 比如正态分布:
p(x;θ)=σ2π1e−2σ21(x−μ)2 参数 $\theta = ( \mu , \sigma )$
非参模型
比如所有平方可积的分布的集合:
P={p:∫(p′′(x))2dx<∞}
统计量
统计量 $T$ 是随机向量$X { 1 } , \ldots , X { n } \sim p ( x ; \theta )$ 的函数,自身是一个随机变量
顺序统计量:$X { ( 1 ) } \leq X { ( 2 ) } \leq \ldots \leq X _ { ( n ) }$
样本平均:$\overline { X } = \frac { 1 } { n } \sum { i = 1 } ^ { n } X { i }$
样本方差(无偏估计):$S ^ { 2 } = \frac { 1 } { n - 1 } \left( X _ { i } - \overline { X } \right) ^ { 2 }$
数据压缩
一个实验者使用样本里的信息来推断统计总体的未知参数 $\theta$
当样本容量 $n$ 很大的时候,样本的信息不好转译——在保留样本的一些关键特征的前提下对信息进行压缩
任何一个统计量 $T ( X )$ 都定义了一种形式的数据压缩
选择一个特定的统计量进行数据压缩,相当于对样本空间 $\chi$ 进行了一次分割:
令 $T = { t : t = T ( x ) \text { for some } x \in \chi }$
$T(X)$ 把样本空间分成一个个子集 $At,t\in T$ ,满足 $A { t } = { x : T ( x ) = t }$
数据压缩的三种原则
似然性原则:给出参数的一个函数,这个函数由样本决定,包含了样本可以提供的 $\theta$ 的全部信息
充分性原则
充分统计量
令 $X ^ { n } = \left( X { 1 } , \ldots , X { n } \right) , x ^ { n } = \left( x { 1 } , \ldots , x { n } \right)$
如果 $T(X^n)$ 是 $\theta$ 的充分统计量,那么任何关于参数 $\theta$ 的推断都仅仅依赖于 $T(X^n)$
对于 $T(x^n)=T(y^n)$ ,不管样本 $x^n$ 和 $y^n$ 是否相等,推断出的 $\theta$ 都是一样的
数学表述:
$X { 1 } , \ldots , X { n } \sim p ( x ; \theta )$
$T$ 是 $\theta$ 的充分统计量,如果 $T=t$ 下的条件分布与 $\theta$ 无关
p(x1,…,xn∣T(x)=t;θ)=p(x1,…,xn∣T(x)=t)
充分统计量的判断
一个定理
如果 $P(x^n|\theta)$ 是 $X^n$ 的联合pdf/pmf,$q ( t | \theta )$ 是 $T \left( X ^ { n } \right)$ 的pdf/pmf,则 $T \left( X ^ { n } \right)$ 是 $\theta$ 的充分统计量当且仅当,任取样本空间中的 $x^n$ ,比例
q(T(xn)∣θ)p(xn∣θ) 与 $\theta$ 无关,只是样本的函数
这个定理非常显然,只需要把 $T=t$ 下的条件分布代入,并注意到 $X^n=x^n$ 时必有 $T(X^n)=T(x^n)$ 即可:
===p(Xn=xn∣T(Xn)=T(xn))p(T(Xn)=T(xn))p(Xn=xn,T(Xn)=T(xn))p(T(Xn)=T(xn))p(Xn=xn)q(T(xn);θ)p(xn;θ) 例:泊松分布:$P \left( X _ { i } = x \right) = e ^ { - \theta } ( \theta ) ^ { x } / x !$
$p(x^n;\theta)=e ^ { - n\theta } ( \theta ) ^ { \sum x_i } / \prod x_i !$
$n$ 个iid的泊松分布之和 $\sim Poisson(n\theta)$
q(∑xi∣θ)=(∑xi)!e−nθ(nθ)∑xi 比例
q(T(xn)∣θ)p(xn∣θ)=e−nθ(nθ)∑xi/(∑xi)!e−nθ(θ)∑xi/∏xi!=∏xi!(n)∑xi(∑xi)! 与 $\theta$ 无关
例:任取一个分布 $f$ ,对于iid的样本,顺序统计量都是充分统计量——没有对数据进行压缩!
充分划分
$T(X)$ 把样本空间分成 $B{t_1},\cdots,B{t_k}$ 。一个划分是充分的,如果 $f ( x | X \in B )$ 不依赖于 $\theta$ ;而 $T$ 的充分性和分割的充分性是等价的
不同的统计量可能产生同样的划分(最简单的例子是一个统计量是另外一个的倍数)
例:比如我们可以证明,对于 $X { 1 } , X { 2 } , X { 3 } \sim \text { Bernoulli } ( \theta )$ ,$T = \sum X { i }$ 是充分的,因为只要给定了 $T$ ,$x_i$ 每一种可能的取值都是等概率的;但 $T=X_1$ 不是充分的,给定 $X_1$ 之后,不同情况的概率仍和 $\theta$ 有关
因子化定理
$T(X^n)$ 是 $\theta$ 的充分统计量,如果联合pdf/pmf可以被因子化为(课程PPT写的充分条件,其实是充要条件)::
p(xn;θ)=h(xn)×g(t;θ) 最小充分统计量(MSS)
$T$ 是最小充分统计量,如果:
对于任意一个充分统计量 $U$ ,$T$ 是 $U$ 的函数(若 $T(U=U_1)\neq T(U=U_2)$ ,$U_1\neq U_2$
最小充分统计量的判断
一个定理
R(x,y;θ)=p(x;θ)p(y;θ) 如果 $R(x,y;\theta)$ 不依赖于 $\theta$ 当且仅当 $T ( y ) = T ( x )$ ,则 $T$ 是MSS
例:泊松分布
p(yn;θ)=∏iyi!e−nθθ∑yi,p(xn;θ)p(yn;θ)=∏iyi!/∏ixi!θ∑yi−∑xi 比例与 $\theta$ 无关当且仅当 $\sum x_i=\sum y_i$ ,所以 $T(X^n)=\sum X_i$ 是MSS
例:$(\theta,\theta+1)$ 上的均匀分布
p(x;θ)={10θ<xi<θ+1,i=1,…,n otherwise 也就是:
p(x;θ)={10x(n)−1<θ<x(1) otherwise 令 $T(X)=\left( X { ( 1 ) } , X { ( n ) } \right)$ ,显然当且仅当 $T(x)=T(y)$ 时,$p ( x ; \theta )$ 和 $p ( y ; \theta )$在共同区间上恒为1,$T(X)$ 为MSS
充分统计量的意义
充分统计量包含了数据中可以用来计算似然函数的所有信息
辅助统计量
分布与 $\theta$ 无关的统计量——恰与充分统计量相对
MSS在仍能提取 $\theta$ 信息的前提下把数据量压缩到了最小
完备统计量
充分性:该保留的信息都保留;完备性:该丢掉的信息都丢掉
考虑 $T(X)$ 的一个分布族 $f(t|\theta)$
如果对于任意 $\theta$ 都有 $E { \theta } g ( T ) = 0$ 可以推出对于任意 $\theta$ 都有 $P { \theta } ( g ( T ) = 0 ) = 1$ ,那么这个分布族就是完备的
Basu定理:如果 $T(X)$ 是完备的最小充分统计量,那么它和辅助统计量独立
如果最小充分统计量存在,那么任何完备统计量都是最小充分统计量
指数分布族
指数分布族( $k$ 为参数个数):
f(x∣θ)=h(x)c(θ)exp(j=1∑kwj(θ)tj(x)) $X_1,\cdots,X_n$ 是iid的观测结果,得到联合分布:
f(x∣θ)=∏h(xi)cn(θ)exp(j=1∑kwj(θ)i=1∑ntj(xi))≡∏h(xi)cn(θ)exp(j=1∑kwj(θ)Tj(xn)) 统计量:
T(X)=(i=1∑nt1(Xi),…,i=1∑ntk(Xi))≡(T1(Xn),…,Tk(Xn)) 是充分统计量(因子化定理);只要参数空间包含 $\mathbb{R}^k$ 中的一个开集(有内点,正常模型几乎都满足),则它也是完备统计量
例:正态分布
f(xn;θ)=(2πσ2)−n/2exp[−2σ2∑(xi−μ)2]=(2πσ2)−n/2exp(−2σ2nμ2)exp[−2σ2nn∑xi2+2σ2nμx] 得到 $\frac{1}{n}\sum X_i^2$ 和 $\overline X $ 是完备的充分统计量
似然性原则
在对 $\theta$ 进行推断和决策时,所有相关的信息都包含在样本的似然函数中
如果两个似然函数成比例($\theta$ 的函数),则它们含有 $\theta$ 的信息相同——两个似然函数是对同一个参数而言的
所有有关 $\theta$ 的实验结论或证据都来自实际观测到的样本,其他信息还包括先验信息和损失等
等价性原则
如果 $Y=g(X)$ 仅仅是一种测量尺度的变换,$X$ 和 $Y$ 的模型的内在结构是一样的,那么推断过程应该是等价的
$X$ 满足二项分布,为了估计 $p$ ,可以用成功的次数 $X$ ,也可以用失败的次数 $Y=n-X$ ,它们满足一样的分布,因而是等价的