Notes
  • Notes
  • 恒星结构与演化
    • Chapter 7. Equation of State
    • Chapter 3. Virial Theorem
    • Chapter 11. Main Sequence
    • Chapter 4. Energy Conservation
    • Chapter 12. Post-Main Sequence
    • Chapter 2. Hydrostatic Equilibrium
    • Chapter 6. Convection
    • Chapter 9. Nuclear Reactions
    • Chapter 10 Polytrope
    • Chapter 8. Opacity
    • Chapter 14. Protostar
    • Chapter 13. Star Formation
    • Chapter 5. Energy Transport
  • 天体光谱学
    • Chapter 6 气体星云光谱
    • Chapter 5 磁场中的光谱
    • Chapter 7 X-射线光谱
    • Chapter 3 碱金属原子
    • Chapter 1 光谱基础知识
    • Chapter 9 分子光谱
    • Chapter 4 复杂原子
    • Chapter 2 氢原子光谱
  • 物理宇宙学基础
    • Chapter 2 Newtonian Cosmology
    • Chapter 1 Introduction
    • Chapter 5* Monochromatic Flux, K-correction
    • Chapter 9 Dark Matter
    • Chapter 10 Recombination and CMB
    • Chapter 8 Primordial Nucleosynthesis
    • Chapter 7 Thermal History of the Universe
    • Chapter 6 Supernova cosmology
    • Chapter 5 Redshifts and Distances
    • Chapter 4 World Models
    • Chapter 3 Relativistic Cosmology
  • 数理统计
    • Chapter 6. Confidence Sets (Intervals) 置信区间
    • Chapter 1. Data Reduction 数据压缩
    • Chapter 7. Two Sample Comparisons 两个样本的比较
    • Chapter 3. Decision Theory 统计决策
    • Chapter 4. Asymptotic Theory 渐近理论
    • Chapter 5. Hypothesis Testing 假设检验
    • Chapter 9. Linear Models 线性模型
    • Chapter 10 Model Selection 模型选择
    • Chapter 2. Estimation 估计
    • Chapter 11 Mathematical Foundation in Causal Inference 因果推断中的数理基础
    • Chapter 8. Analysis of Variance 方差分析
  • 天体物理动力学
    • Week8: Orbits
    • Week7: Orbits
    • Week6: Orbits
    • Week5: Orbits
    • Week4: Orbits
    • Week3: Potential Theory
    • Week2
    • Week1
  • 天体物理吸积过程
    • Chapter 4. Spherically Symmetric Flow
    • Chapter 2. Fluid Dynamics
    • Chapter 5. Accretion Disk Theory
    • Chapter 3. Compressible Fluid
  • 天文技术与方法
    • Chapter1-7
  • 理论天体物理
    • Chapter 6 生长曲线的理论和应用
    • Chapter 5 线吸收系数
    • Chapter 4 吸收线内的辐射转移
    • Chapter 3 恒星大气模型和恒星连续光谱
    • Chapter 2 恒星大气的连续不透明度
    • Chapter 1 恒星大气辐射理论基础
  • 常微分方程
    • 线性微分方程组
    • 高阶微分方程
    • 奇解
    • 存在和唯一性定理
    • 初等积分法
    • 基本概念
  • 天体物理观测实验
Powered by GitBook
On this page
  • MLE 的渐近性质
  • 正则条件
  • 相合性
  • 渐近正态
  • 大样本的有效性
  • 相对有效性
  • 稳健性
  • 概率的收敛性
  • 概率不等式
  1. 数理统计

Chapter 4. Asymptotic Theory 渐近理论

MLE 的渐近性质

在满足正则条件的前提下:

  • 相合性:$\widehat { \theta } \stackrel { P } { \rightarrow } \theta _ { 0 }$ ,$\theta_0$ 是真值

  • 渐近正态分布:$\sqrt { n } ( \widehat { \theta } - \theta ) / \widehat { s e } \stackrel { d } { \rightarrow } N ( 0,1 )$

  • 大样本有效性:较好的估计量中,大样本下MLE方差最小

  • 大样本下近似于贝叶斯估计量(参见第3章)

正则条件

  1. 参数可分辨(不同参数给出的分布是不同的)

  2. 分布函数有共同支集

  3. 每一个随机变量独立同分布

  4. 参数空间包含一个开集 $\omega$ ,$\theta_0\in\omega$ ,且是一个内点(不在边界上)

  • 在假设 $1\sim3$ 下,$P { \theta { 0 } } \left( L \left( \theta _ { 0 } | X \right) > L ( \theta | X ) \right) \rightarrow 1$ ,这里的 $L$ 是似然函数

相合性

  • 在正则条件下,假定任取 $x$ ,$f(x|\theta)$ 对 $\theta\in\omega$ 可导,且似然方程对 $x,n$ 有唯一解 $\hat\theta_n$ ,那么 $\hat\theta_n$ 是相合的

  • 如果参数个数与 $n$ 有关,则可能不相合

渐近正态

  • Score Function & Fisher Information

    • Score Function

    • Fisher Information

    ​ 可以看到 Fisher information 有两种等价的定义,证明并不复杂,只需用到:

    即可证明:

  • 对于向量的情况,Fisher Information 是一个矩阵

  • 渐近正态性

    假定:

    • 参数个数不随 $n$ 变化

    • $p(x;\theta)$ 是 $\theta$ 的光滑函数(任意阶求导)

    • $\frac{\partial }{\partial\theta}$ 和 $\int\text{d}x$ 可交换

    • $X$ 的范围不依赖于参数

    则有:

  • Slutsky 定理

    若 $X { n } \stackrel { d } { \rightarrow } X, Y { n } \stackrel { P } { \rightarrow } a$ ,则有:

  • 多元 Delta 方法

    • 基于泰勒展开式,用近似的方法求随机变量函数的方差

    • $Y { 1 } , \ldots , Y { n }$ 满足$\sqrt { n } \left( Y { n } - \theta \right) \stackrel { d } { \rightarrow } N { p } ( 0 , \Sigma )$

    • 如果向量 $g(\theta)'$ 存在且不为 $0$ ,那么

  • 证明:

    • 考虑 Score Function

      $S(\hat\theta)=0, S(\theta)=\sum\frac{\partial}{\partial\theta}l(x_i;\theta)$

    • 由相合性,当 $n$ 很大时 $\hat\theta-\theta_0$ 是小量,因此可以对 $S(\hat\theta)$ 展开:

      得到:

    • 求出期望和方差:

    • 从而可以得出 $S(\theta_0)$ 满足的分布:

    • 最后得到 $\hat\theta$ 的分布:

大样本的有效性

在正则条件下,对于MLE $\hat\theta$ 和一个表现良好的估计量 $\tilde{\theta}$:

可以证明在大样本情况下:

相对有效性

如果 $\sqrt { n } \left( W { n } - \theta \right) \stackrel { d } { \rightarrow } N \left( 0 , \sigma { W } ^ { 2 } \right) , \sqrt { n } \left( V { n } - \theta \right) \stackrel { d } { \rightarrow } N \left( 0 , \sigma { \mathrm { V } } ^ { 2 } \right)$ ,则渐近的相对有效性 (ARE) 为:

稳健性

  • MLE只在模型正确的时候有较小的方差,如果模型错误,MLE的方差可能会很糟糕

    • 可以使用非参方法

    • 可以把MLE换成其他更强健的估计量

  • 例:正态分布下的MLE是均值,与中位数相比,$ARE=0.64$ ;若正态分布混入一定概率的柯西分布,则均值的方差发散,中位数的方差变化不大

概率的收敛性

概率不等式

PreviousChapter 3. Decision Theory 统计决策NextChapter 5. Hypothesis Testing 假设检验

Last updated 4 years ago

Sn(θ)=[log⁡L(θ)]′=∂log⁡p(X1,…,Xn;θ)∂θ=∑i∂log⁡p(Xi;θ)∂θS _ { n } ( \theta ) = [\log L ( \theta )] ^ { \prime } = \frac { \partial \log p \left( X _ { 1 } , \ldots , X _ { n } ; \theta \right) } { \partial \theta } = \sum _ { i } \frac { \partial \log p \left( X _ { i } ; \theta \right) } { \partial \theta }Sn​(θ)=[logL(θ)]′=∂θ∂logp(X1​,…,Xn​;θ)​=i∑​∂θ∂logp(Xi​;θ)​
I(θ)=Var⁡θ(S(θ)),In(θ)=Var⁡θ(Sn(θ))=nI(θ)I ( \theta ) = \operatorname{Var}_\theta(S(\theta)),\quad I _ { n } ( \theta ) = \operatorname { Var } _ { \theta } \left( S _ { n } ( \theta ) \right)= n I ( \theta )I(θ)=Varθ​(S(θ)),In​(θ)=Varθ​(Sn​(θ))=nI(θ)
I(θ)=−E(∂2log⁡p(X;θ)∂θ2)I ( \theta )=- E \left( \frac { \partial ^ { 2 } \log p ( X ; \theta ) } { \partial \theta ^ { 2 } } \right)I(θ)=−E(∂θ2∂2logp(X;θ)​)
E(Sn(θ))=0E(S_n(\theta))=0E(Sn​(θ))=0
I(θ)=Var⁡θ(Sn(θ))=E(Sn(θ)2)−E2(Sn(θ))=E(Sn(θ)2)I(\theta)=\operatorname{Var}_\theta(S_n(\theta))=E(S_n(\theta)^2)-E^2(S_n(\theta))=E(S_n(\theta)^2)I(θ)=Varθ​(Sn​(θ))=E(Sn​(θ)2)−E2(Sn​(θ))=E(Sn​(θ)2)
∂2∂θ2log⁡f(X;θ)=∂2∂θ2f(X;θ)f(X;θ)−(∂∂θf(X;θ)f(X;θ))2=∂2∂θ2f(X;θ)f(X;θ)−(∂∂θlog⁡f(X;θ))2\begin{align*}\frac { \partial ^ { 2 } } { \partial \theta ^ { 2 } } \log f ( X ; \theta )& = \frac { \frac { \partial ^ { 2 } } { \partial \theta ^ { 2 } } f ( X ; \theta ) } { f ( X ; \theta ) } - \left( \frac { \frac { \partial } { \partial \theta } f ( X ; \theta ) } { f ( X ; \theta ) } \right) ^ { 2 }\\& = \frac { \frac { \partial ^ { 2 } } { \partial \theta ^ { 2 } } f ( X ; \theta ) } { f ( X ; \theta ) } - \left( \frac { \partial } { \partial \theta } \log f ( X ; \theta ) \right) ^ { 2 } \end{align*}∂θ2∂2​logf(X;θ)​=f(X;θ)∂θ2∂2​f(X;θ)​−(f(X;θ)∂θ∂​f(X;θ)​)2=f(X;θ)∂θ2∂2​f(X;θ)​−(∂θ∂​logf(X;θ))2​
E(S(θ)2)=E(∂∂θlog⁡f(X;θ))2=∫∂2∂θ2f(X;θ)f(X;θ)f(X;θ)dθ−E(∂2log⁡p(X;θ)∂θ2)=−E(∂2log⁡p(X;θ)∂θ2)\begin{align*} E(S(\theta)^2)&=E\left( \frac { \partial } { \partial \theta } \log f ( X ; \theta ) \right) ^ { 2 }\\ &=\int\frac { \frac { \partial ^ { 2 } } { \partial \theta ^ { 2 } } f ( X ; \theta ) } { f ( X ; \theta ) } f(X;\theta)\text{d}\theta- E \left( \frac { \partial ^ { 2 } \log p ( X ; \theta ) } { \partial \theta ^ { 2 } } \right)\\ &=- E \left( \frac { \partial ^ { 2 } \log p ( X ; \theta ) } { \partial \theta ^ { 2 } } \right) \end{align*}E(S(θ)2)​=E(∂θ∂​logf(X;θ))2=∫f(X;θ)∂θ2∂2​f(X;θ)​f(X;θ)dθ−E(∂θ2∂2logp(X;θ)​)=−E(∂θ2∂2logp(X;θ)​)​
In(θ)(r,s)=−E(∂2l(θ)∂θr∂θs)I _ { n } ( \theta ) ( r , s ) = - E \left( \frac { \partial ^ { 2 } l ( \theta ) } { \partial \theta _ { r } \partial \theta _ { s } } \right)In​(θ)(r,s)=−E(∂θr​∂θs​∂2l(θ)​)
n(θ^n−θ)→dN(0,1I(θ))\sqrt { n } \left( \widehat { \theta } _ { n } - \theta \right) \stackrel { d } { \rightarrow } N \left( 0 , \frac { 1 } { I ( \theta ) } \right)n​(θn​−θ)→dN(0,I(θ)1​)
θ^n=θ+OP(1n)\widehat { \theta } _ { n } = \theta + O _ { P } \left( \frac { 1 } { \sqrt { n } } \right)θn​=θ+OP​(n​1​)
YnXn→daXYn+Xn→da+X\begin{array} { l } { Y _ { n } X _ { n } \stackrel { d } { \rightarrow } a X } \\ { Y _ { n } + X _ { n } \stackrel { d } { \rightarrow } a + X } \end{array}Yn​Xn​→daXYn​+Xn​→da+X​
n(g(Yn)−g(θ))→dN(0,(∂g(θ)∂θ)TΣ(∂g(θ)∂θ))\sqrt { n } \left( g \left( Y _ { n } \right) - g ( \theta ) \right) \stackrel { d } { \rightarrow } N \left( 0 , \left( \frac { \partial g ( \theta ) } { \partial \theta } \right) ^ { T } \Sigma \left( \frac { \partial g ( \theta ) } { \partial \theta } \right) \right)n​(g(Yn​)−g(θ))→dN(0,(∂θ∂g(θ)​)TΣ(∂θ∂g(θ)​))
0=S(θ^)≈S(θ0)+[∂S(θ)∂θ]θ0(θ^−θ0)0=S(\hat\theta)\approx S(\theta_0)+\left[\frac{\partial S(\theta)}{\partial\theta}\right]_{\theta_0}(\hat\theta-\theta_0)0=S(θ^)≈S(θ0​)+[∂θ∂S(θ)​]θ0​​(θ^−θ0​)
θ^−θ0=−S(θ0)[∂S(θ)∂θ]θ0\hat\theta-\theta_0= -\frac{S(\theta_0)}{\left[\frac{\partial S(\theta)}{\partial\theta}\right]_{\theta_0}}θ^−θ0​=−[∂θ∂S(θ)​]θ0​​S(θ0​)​
Eθ0(S(θ0))=∑Eθ0(∂ln⁡f(xi;θ)∂θ)θ0=∑Eθ0(f(xi;θ)′f(xi;θ))θ0=∑∫(f(xi;θ)′f(xi;θ))θ0f(xi;θ0)dθ0=∑∫f(xi;θ0)′dθ0=ddθ0∫f(xi;θ)dx=0\begin{align*} E_{\theta_0}(S(\theta_0))&=\sum E_{\theta_0}\left(\frac{\partial\ln f(x_i;\theta)}{\partial\theta}\right)_{\theta_0}=\sum E_{\theta_0}\left(\frac{ f(x_i;\theta)'}{f(x_i;\theta)}\right)_{\theta_0}\\ &=\sum\int\left(\frac{ f(x_i;\theta)'}{f(x_i;\theta)}\right)_{\theta_0}f(x_i;\theta_0)\text{d}\theta_0\\ &=\sum\int f(x_i;\theta_0)'\text{d}\theta_0\\ &=\frac{\text{d}}{\text{d}\theta_0}\int f(x_i;\theta)\text{d}x\\ &=0 \end{align*}Eθ0​​(S(θ0​))​=∑Eθ0​​(∂θ∂lnf(xi​;θ)​)θ0​​=∑Eθ0​​(f(xi​;θ)f(xi​;θ)′​)θ0​​=∑∫(f(xi​;θ)f(xi​;θ)′​)θ0​​f(xi​;θ0​)dθ0​=∑∫f(xi​;θ0​)′dθ0​=dθ0​d​∫f(xi​;θ)dx=0​
nI(θ)=Var⁡θ0(S(θ0))=nVar⁡θ0(∂ln⁡f(xi;θ)∂θ)θ0≡nVar⁡θ0(ωi(θ0))\begin{align*} nI(\theta)&=\operatorname { Var }_{\theta_0}(S(\theta_0))=n\operatorname { Var }_{\theta_0}\left(\frac{\partial\ln f(x_i;\theta)}{\partial\theta}\right)_{\theta_0}\\&\equiv {n}\operatorname { Var }_{\theta_0}(\omega_i(\theta_0)) \end{align*}nI(θ)​=Varθ0​​(S(θ0​))=nVarθ0​​(∂θ∂lnf(xi​;θ)​)θ0​​≡nVarθ0​​(ωi​(θ0​))​
n(1nS(θ0))→dN(0,Var⁡θ0(ωi(θ0)))\sqrt { n } \left( \frac{1}{n}S(\theta_0)\right) \stackrel { d } { \rightarrow } N \left( 0 , \operatorname { Var }_{\theta_0}(\omega_i(\theta_0)) \right)n​(n1​S(θ0​))→dN(0,Varθ0​​(ωi​(θ0​)))
θ^−θ0=−S(θ0)[∂S(θ)∂θ]θ0→dN(0,nVar⁡θ0(ωi(θ0))[∂S(θ)∂θ]θ02)=N(0,1nI(θ))\hat\theta-\theta_0= -\frac{S(\theta_0)}{\left[\frac{\partial S(\theta)}{\partial\theta}\right]_{\theta_0}} \stackrel { d } { \rightarrow } N \left( 0 , \frac{n\operatorname { Var }_{\theta_0}(\omega_i(\theta_0))}{\left[\frac{\partial S(\theta)}{\partial\theta}\right]^2_{\theta_0}} \right)=N\left(0,\frac{1}{nI(\theta)}\right)θ^−θ0​=−[∂θ∂S(θ)​]θ0​​S(θ0​)​→dN​0,[∂θ∂S(θ)​]θ0​2​nVarθ0​​(ωi​(θ0​))​​=N(0,nI(θ)1​)
θ^=θ+1n∑i=1nψ∗(Xi)+oP(n−1/2)\widehat { \theta } = \theta + \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \psi ^ { * } \left( X _ { i } \right) + o _ { P } \left( n ^ { - 1 / 2 } \right)θ=θ+n1​i=1∑n​ψ∗(Xi​)+oP​(n−1/2)
θ~=θ+1n∑i=1nψ(Xi)+oP(n−1/2)\tilde { \theta } = \theta + \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \psi \left( X _ { i } \right) + o _ { P } \left( n ^ { - 1 / 2 } \right)θ~=θ+n1​i=1∑n​ψ(Xi​)+oP​(n−1/2)
Var⁡(ψ(X))≥Var⁡(ψ∗(X))\operatorname { Var } ( \psi ( X ) ) \geq \operatorname { Var } \left( \psi ^ { * } ( X ) \right)Var(ψ(X))≥Var(ψ∗(X))
ARE(Vn,Wn)=σW2/σV2A R E \left( V _ { n } , W _ { n } \right) = \sigma _ { W } ^ { 2 } / \sigma _ { V } ^ { 2 }ARE(Vn​,Wn​)=σW2​/σV2​