Chapter 4. Asymptotic Theory 渐近理论

MLE 的渐近性质

在满足正则条件的前提下:

  • 相合性:$\widehat { \theta } \stackrel { P } { \rightarrow } \theta _ { 0 }$ ,$\theta_0$ 是真值

  • 渐近正态分布:$\sqrt { n } ( \widehat { \theta } - \theta ) / \widehat { s e } \stackrel { d } { \rightarrow } N ( 0,1 )$

  • 大样本有效性:较好的估计量中,大样本下MLE方差最小

  • 大样本下近似于贝叶斯估计量(参见第3章)

正则条件

  1. 参数可分辨(不同参数给出的分布是不同的)

  2. 分布函数有共同支集

  3. 每一个随机变量独立同分布

  4. 参数空间包含一个开集 $\omega$ ,$\theta_0\in\omega$ ,且是一个内点(不在边界上)

  • 在假设 $1\sim3$ 下,$P { \theta { 0 } } \left( L \left( \theta _ { 0 } | X \right) > L ( \theta | X ) \right) \rightarrow 1$ ,这里的 $L$ 是似然函数

相合性

  • 在正则条件下,假定任取 $x$ ,$f(x|\theta)$ 对 $\theta\in\omega$ 可导,且似然方程对 $x,n$ 有唯一解 $\hat\theta_n$ ,那么 $\hat\theta_n$ 是相合的

  • 如果参数个数与 $n$ 有关,则可能不相合

渐近正态

  • Score Function & Fisher Information

    • Score Function

    • Fisher Information

    ​ 可以看到 Fisher information 有两种等价的定义,证明并不复杂,只需用到:

    即可证明:

  • 对于向量的情况,Fisher Information 是一个矩阵

  • 渐近正态性

    假定:

    • 参数个数不随 $n$ 变化

    • $p(x;\theta)$ 是 $\theta$ 的光滑函数(任意阶求导)

    • $\frac{\partial }{\partial\theta}$ 和 $\int\text{d}x$ 可交换

    • $X$ 的范围不依赖于参数

    则有:

  • Slutsky 定理

    若 $X { n } \stackrel { d } { \rightarrow } X, Y { n } \stackrel { P } { \rightarrow } a$ ,则有:

  • 多元 Delta 方法

    • 基于泰勒展开式,用近似的方法求随机变量函数的方差

    • $Y { 1 } , \ldots , Y { n }$ 满足$\sqrt { n } \left( Y { n } - \theta \right) \stackrel { d } { \rightarrow } N { p } ( 0 , \Sigma )$

    • 如果向量 $g(\theta)'$ 存在且不为 $0$ ,那么

  • 证明:

    • 考虑 Score Function

      $S(\hat\theta)=0, S(\theta)=\sum\frac{\partial}{\partial\theta}l(x_i;\theta)$

    • 由相合性,当 $n$ 很大时 $\hat\theta-\theta_0$ 是小量,因此可以对 $S(\hat\theta)$ 展开:

      得到:

    • 求出期望和方差:

    • 从而可以得出 $S(\theta_0)$ 满足的分布:

    • 最后得到 $\hat\theta$ 的分布:

大样本的有效性

在正则条件下,对于MLE $\hat\theta$ 和一个表现良好的估计量 $\tilde{\theta}$:

可以证明在大样本情况下:

相对有效性

如果 $\sqrt { n } \left( W { n } - \theta \right) \stackrel { d } { \rightarrow } N \left( 0 , \sigma { W } ^ { 2 } \right) , \sqrt { n } \left( V { n } - \theta \right) \stackrel { d } { \rightarrow } N \left( 0 , \sigma { \mathrm { V } } ^ { 2 } \right)$ ,则渐近的相对有效性 (ARE) 为:

稳健性

  • MLE只在模型正确的时候有较小的方差,如果模型错误,MLE的方差可能会很糟糕

    • 可以使用非参方法

    • 可以把MLE换成其他更强健的估计量

  • 例:正态分布下的MLE是均值,与中位数相比,$ARE=0.64$ ;若正态分布混入一定概率的柯西分布,则均值的方差发散,中位数的方差变化不大

概率的收敛性

概率不等式

Last updated