Chapter 4. Asymptotic Theory 渐近理论
MLE 的渐近性质
在满足正则条件的前提下:
相合性:$\widehat { \theta } \stackrel { P } { \rightarrow } \theta _ { 0 }$ ,$\theta_0$ 是真值
渐近正态分布:$\sqrt { n } ( \widehat { \theta } - \theta ) / \widehat { s e } \stackrel { d } { \rightarrow } N ( 0,1 )$
大样本有效性:较好的估计量中,大样本下MLE方差最小
正则条件
参数空间包含一个开集 $\omega$ ,$\theta_0\in\omega$ ,且是一个内点(不在边界上)
在假设 $1\sim3$ 下,$P { \theta { 0 } } \left( L \left( \theta _ { 0 } | X \right) > L ( \theta | X ) \right) \rightarrow 1$ ,这里的 $L$ 是似然函数
相合性
在正则条件下,假定任取 $x$ ,$f(x|\theta)$ 对 $\theta\in\omega$ 可导,且似然方程对 $x,n$ 有唯一解 $\hat\theta_n$ ,那么 $\hat\theta_n$ 是相合的
渐近正态
Score Function & Fisher Information
Sn(θ)=[logL(θ)]′=∂θ∂logp(X1,…,Xn;θ)=i∑∂θ∂logp(Xi;θ) I(θ)=Varθ(S(θ)),In(θ)=Varθ(Sn(θ))=nI(θ) I(θ)=−E(∂θ2∂2logp(X;θ)) 可以看到 Fisher information 有两种等价的定义,证明并不复杂,只需用到:
E(Sn(θ))=0 I(θ)=Varθ(Sn(θ))=E(Sn(θ)2)−E2(Sn(θ))=E(Sn(θ)2) ∂θ2∂2logf(X;θ)=f(X;θ)∂θ2∂2f(X;θ)−(f(X;θ)∂θ∂f(X;θ))2=f(X;θ)∂θ2∂2f(X;θ)−(∂θ∂logf(X;θ))2 即可证明:
E(S(θ)2)=E(∂θ∂logf(X;θ))2=∫f(X;θ)∂θ2∂2f(X;θ)f(X;θ)dθ−E(∂θ2∂2logp(X;θ))=−E(∂θ2∂2logp(X;θ)) 对于向量的情况,Fisher Information 是一个矩阵
In(θ)(r,s)=−E(∂θr∂θs∂2l(θ)) 渐近正态性
假定:
$p(x;\theta)$ 是 $\theta$ 的光滑函数(任意阶求导)
$\frac{\partial }{\partial\theta}$ 和 $\int\text{d}x$ 可交换
则有:
n(θn−θ)→dN(0,I(θ)1) θn=θ+OP(n1) Slutsky 定理
若 $X { n } \stackrel { d } { \rightarrow } X, Y { n } \stackrel { P } { \rightarrow } a$ ,则有:
YnXn→daXYn+Xn→da+X 多元 Delta 方法
$Y { 1 } , \ldots , Y { n }$ 满足$\sqrt { n } \left( Y { n } - \theta \right) \stackrel { d } { \rightarrow } N { p } ( 0 , \Sigma )$
如果向量 $g(\theta)'$ 存在且不为 $0$ ,那么
n(g(Yn)−g(θ))→dN(0,(∂θ∂g(θ))TΣ(∂θ∂g(θ)))
证明:
考虑 Score Function
$S(\hat\theta)=0, S(\theta)=\sum\frac{\partial}{\partial\theta}l(x_i;\theta)$
由相合性,当 $n$ 很大时 $\hat\theta-\theta_0$ 是小量,因此可以对 $S(\hat\theta)$ 展开:
0=S(θ^)≈S(θ0)+[∂θ∂S(θ)]θ0(θ^−θ0) 得到:
θ^−θ0=−[∂θ∂S(θ)]θ0S(θ0) 求出期望和方差:
Eθ0(S(θ0))=∑Eθ0(∂θ∂lnf(xi;θ))θ0=∑Eθ0(f(xi;θ)f(xi;θ)′)θ0=∑∫(f(xi;θ)f(xi;θ)′)θ0f(xi;θ0)dθ0=∑∫f(xi;θ0)′dθ0=dθ0d∫f(xi;θ)dx=0
nI(θ)=Varθ0(S(θ0))=nVarθ0(∂θ∂lnf(xi;θ))θ0≡nVarθ0(ωi(θ0)) 从而可以得出 $S(\theta_0)$ 满足的分布:
n(n1S(θ0))→dN(0,Varθ0(ωi(θ0))) 最后得到 $\hat\theta$ 的分布:
θ^−θ0=−[∂θ∂S(θ)]θ0S(θ0)→dN0,[∂θ∂S(θ)]θ02nVarθ0(ωi(θ0))=N(0,nI(θ)1)
大样本的有效性
在正则条件下,对于MLE $\hat\theta$ 和一个表现良好的估计量 $\tilde{\theta}$:
θ=θ+n1i=1∑nψ∗(Xi)+oP(n−1/2) θ~=θ+n1i=1∑nψ(Xi)+oP(n−1/2) 可以证明在大样本情况下:
Var(ψ(X))≥Var(ψ∗(X)) 相对有效性
如果 $\sqrt { n } \left( W { n } - \theta \right) \stackrel { d } { \rightarrow } N \left( 0 , \sigma { W } ^ { 2 } \right) , \sqrt { n } \left( V { n } - \theta \right) \stackrel { d } { \rightarrow } N \left( 0 , \sigma { \mathrm { V } } ^ { 2 } \right)$ ,则渐近的相对有效性 (ARE) 为:
ARE(Vn,Wn)=σW2/σV2 稳健性
MLE只在模型正确的时候有较小的方差,如果模型错误,MLE的方差可能会很糟糕
例:正态分布下的MLE是均值,与中位数相比,$ARE=0.64$ ;若正态分布混入一定概率的柯西分布,则均值的方差发散,中位数的方差变化不大
概率的收敛性
概率不等式