Notes
  • Notes
  • 恒星结构与演化
    • Chapter 7. Equation of State
    • Chapter 3. Virial Theorem
    • Chapter 11. Main Sequence
    • Chapter 4. Energy Conservation
    • Chapter 12. Post-Main Sequence
    • Chapter 2. Hydrostatic Equilibrium
    • Chapter 6. Convection
    • Chapter 9. Nuclear Reactions
    • Chapter 10 Polytrope
    • Chapter 8. Opacity
    • Chapter 14. Protostar
    • Chapter 13. Star Formation
    • Chapter 5. Energy Transport
  • 天体光谱学
    • Chapter 6 气体星云光谱
    • Chapter 5 磁场中的光谱
    • Chapter 7 X-射线光谱
    • Chapter 3 碱金属原子
    • Chapter 1 光谱基础知识
    • Chapter 9 分子光谱
    • Chapter 4 复杂原子
    • Chapter 2 氢原子光谱
  • 物理宇宙学基础
    • Chapter 2 Newtonian Cosmology
    • Chapter 1 Introduction
    • Chapter 5* Monochromatic Flux, K-correction
    • Chapter 9 Dark Matter
    • Chapter 10 Recombination and CMB
    • Chapter 8 Primordial Nucleosynthesis
    • Chapter 7 Thermal History of the Universe
    • Chapter 6 Supernova cosmology
    • Chapter 5 Redshifts and Distances
    • Chapter 4 World Models
    • Chapter 3 Relativistic Cosmology
  • 数理统计
    • Chapter 6. Confidence Sets (Intervals) 置信区间
    • Chapter 1. Data Reduction 数据压缩
    • Chapter 7. Two Sample Comparisons 两个样本的比较
    • Chapter 3. Decision Theory 统计决策
    • Chapter 4. Asymptotic Theory 渐近理论
    • Chapter 5. Hypothesis Testing 假设检验
    • Chapter 9. Linear Models 线性模型
    • Chapter 10 Model Selection 模型选择
    • Chapter 2. Estimation 估计
    • Chapter 11 Mathematical Foundation in Causal Inference 因果推断中的数理基础
    • Chapter 8. Analysis of Variance 方差分析
  • 天体物理动力学
    • Week8: Orbits
    • Week7: Orbits
    • Week6: Orbits
    • Week5: Orbits
    • Week4: Orbits
    • Week3: Potential Theory
    • Week2
    • Week1
  • 天体物理吸积过程
    • Chapter 4. Spherically Symmetric Flow
    • Chapter 2. Fluid Dynamics
    • Chapter 5. Accretion Disk Theory
    • Chapter 3. Compressible Fluid
  • 天文技术与方法
    • Chapter1-7
  • 理论天体物理
    • Chapter 6 生长曲线的理论和应用
    • Chapter 5 线吸收系数
    • Chapter 4 吸收线内的辐射转移
    • Chapter 3 恒星大气模型和恒星连续光谱
    • Chapter 2 恒星大气的连续不透明度
    • Chapter 1 恒星大气辐射理论基础
  • 常微分方程
    • 线性微分方程组
    • 高阶微分方程
    • 奇解
    • 存在和唯一性定理
    • 初等积分法
    • 基本概念
  • 天体物理观测实验
Powered by GitBook
On this page
  • 三种估计的方法
  • 衡量估计量优劣的方法
  • 参数点估计
  • 矩估计(MOM)
  • 极大似然估计(MLE)
  • 贝叶斯估计
  • 评价估计量的方法
  • 均方误差 (MSE):$E _ { \theta } ( \widehat { \theta } - \theta ) ^ { 2 }$
  • 最好的无偏估计量
  1. 数理统计

Chapter 2. Estimation 估计

三种估计的方法

  • 矩估计(MOM)

  • 极大似然估计(MLE)

  • 贝叶斯估计

衡量估计量优劣的方法

  • 偏差和方差

  • 均方偏差(MSE)

  • Minimax 理论

  • 大样本理论

参数点估计

  • 一个点估计量是样本的一个任意函数,也就是任意一个统计量

  • 估计量和估计值

    • 估计量(Estimator)是样本的函数,是随机向量 $X^n$ 的函数

    • 估计值(Estimate)是在得到样本之后估计量的取值,是样本实际值 $x^n$ 的函数

矩估计(MOM)

  • 定义

    矩估计量 $\widehat { \theta } = \left( \widehat { \theta } { 1 } , \ldots , \widehat { \theta } { k } \right)$ 满足

    即令样本的前 $k$ 阶矩和理论的前 $k$ 阶矩相等

  • 例:正态分布(一阶矩 $\beta$,二阶矩 $\sigma^2+\beta^2$)MOMs:

  • 例:二项分布(一阶矩 $kp$ ,二阶矩 $kp(1-p)+k^2p^2$)MOMs:

    这个估计不是最好的,因为 $\widehat{k}$ 可能是负值

极大似然估计(MLE)

  • 似然函数:

  • 对数似然函数:

  • 目标

    • 找到似然函数的全局最大值

    • 确保估计量对数据微小的改变是稳定的

  • 求MLE:

    • 对于可微的似然函数,考虑一阶导数为0,二阶导数小于0的所有极大值点,加上参数取值的边界点,比较得到全局最大值

    • 直接求最大值——找到上界,找到取这个值的唯一点

      • 例:对于 $X { 1 } , \ldots , X { n } \sim \text { Uniform } ( 0 , \theta )$ ,似然函数满足:

        当且仅当 $\theta\ge X{(n)}$ 时 $L(\theta)> 0$,此时 $L(\theta)$ 关于 $\theta$ 递减,从而 $\widehat { \theta } = X { ( n ) }$

  • 受限MLE:实际情况中参数取值可能有限制,此时求得的MLE和参数自由时求得的MLE不同

  • 对于不能解析求解的情况,可以由计算机求数值解——同样需要考虑局域最大和全局最大

    • 例:二项分布,试验次数 $k$ 位置,单次概率 $p$ 已知,估计 $k$ 的MLE

      • 似然函数:

        $k<x_{(n)}$ 时 $L=0$

      • 由于 $k$ 是整数,又涉及到阶乘,我们不能求导了

      • 考虑 $k \geq x _ { ( n ) }$ 满足:

        而:

        从而不等式化为:

        这里 $z=1/k$

      • 等式右边关于 $z$ 递减,$z=0$ 时取 $1$ ,$z=1/x_{(n)}$ 时取 $0$

      • 从而 $z$ 有唯一解 $\widehat{z}$ (数值求解),当然 $1/\widehat{z}$ 不一定是整数,$\widehat{k}$ 是最接近 $1/\widehat{z}$ 的整数

  • MLE的稳定性

    当似然函数在最大值的领域附近非常平坦,或者不存在有限的最大值的时候,样本数据的轻微改变可能就会造成MLE的巨大变化

  • MLE的等价性

    • $\eta=g(\theta)$ 是 $\theta$ 的函数,如果 $\theta$ 的MLE是 $\widehat\theta$ ,那么 $\eta$ 的MLE是 $g(\widehat\theta)$

贝叶斯估计

  • 贝叶斯派将 $\theta$ 看成随机变量,其先验分布为 $p(\theta)$

  • $X { 1 } , \ldots , X { n } , \theta$ 的联合分布为:

  • 根据贝叶斯公式,我们可以得到相应的后验分布:

    这相当于:

似然函数等于条件分布 $p \left( x { 1 } , \ldots , x { n } | \theta \right)$ 而不是联合分布 $p \left( x { 1 } , \ldots , x { n } , \theta \right)$ 是因为在 贝叶斯估计中,$\theta$ 是一个随机变量,实际的 $x^n$ 的联合分布是在取定 $\theta$ 后得到的,相当于条件分布;而在极大似然估计中,$\theta$ 只是一个参数,本身是固定的,不存在这样的条件分布

贝叶斯估计量

贝叶斯估计量依赖于后验分布

  • 一种贝叶斯估计量是后验分布的均值

  • 例:伯努利分布,$X { 1 } , \ldots , X { n } \sim \text { Bernoulli} ( \theta )$ ,$\theta$ 的先验分布 $\theta \sim \operatorname { Beta } ( \alpha , \beta )$ ,即:

    而似然函数满足:

    这里 $Y = \sum X _ { i }$

    则后验分布

  • 共轭先验:先验分布和后验分布属于同一分布族

    • 例:$X { 1 } , \ldots , X { n } \sim N \left( \mu , \sigma ^ { 2 } \right)$ ,$\sigma^2$ 未知

      $\mu$ 又有一个先验分布:$\mu \sim N \left( m , \tau ^ { 2 } \right)$

      后验分布:

      这说明正态分布族是自己的共轭族,可以得到相应的贝叶斯估计量:

      • 这里得到的是先验和样本平均的线性组合

      • 如果先验的方差趋于无穷,$\widehat{\mu}\to\overline{X}$ ,$\widehat{\sigma}^2\to\sigma^2/n$ ,信息主要来自样本

      • 如果先验的方差趋于很小,先验信息很好,则$\widehat{\mu}\to m$ ,$\widehat{\sigma}^2\to\tau^2 $ ,信息主要来自先验分布

评价估计量的方法

均方误差 (MSE):$E _ { \theta } ( \widehat { \theta } - \theta ) ^ { 2 }$

  • 偏差 $B = E _ { \theta } ( \widehat { \theta } ) - \theta$

  • 方差 $V = \operatorname { Var } _ { \theta } ( \widehat { \theta } )$

  • 均方误差 $\mathrm { MSE } = B ^ { 2 } + V$

  • 如果偏差为 $0$ ,则一个估计量是无偏估计量,MSE=方差,但这时方差可能很大

  • MSE是 $\theta$ 的函数

  • Minimax方法是取MSE在 $\theta$ 上的最大值进行比较的评估估计量的方法

  • 对 $g(\theta)$ 两个估计 $\phi1,\phi_2$,如果 $\forall \theta,\text{MSE}\theta(\phi1)\le\text{MSE}\theta(\phi2)$,则称 $\phi_1$ 不次于 $\phi_2$ ;如果 $\exists\theta_0\in\Theta,\text{MSE}\theta(\phi1)<\text{MSE}\theta(\phi_2)$ ,则称 $\phi_1$ 比 $\phi_2$ 有效

最好的无偏估计量

两个估计不一定能比较,一般来讲,不能找到不次于其他所有估计量的估计量

一致最小方差无偏估计 (UMVUE):

  • $W$ 是 $\tau(\theta)$ 的UMVUE,如果:

    • $E _ { \theta } ( W ) = \tau ( \theta )$ ,任取 $\theta$

    • 如果 $E { \theta } ( W' ) = \tau ( \theta )$ ,那么 $\operatorname { Var } { \theta } ( W ) \leq \operatorname { Var } _ { \theta } \left( W ^ { \prime } \right)$

  • 如果 $T$ 是 $\theta$ 的完备充分统计量,$\widehat {g(T)}$ 是 $g(T)$ 的无偏估计,那么它就是 $g(\theta)$ 的最小方差无偏估计

  • 例:正态分布:Chapter 1 中已经证明了 $T=(\frac{1}{n}\sum X_i^2,\overline X) $ 是完备的充分统计量,而 $(\overline X,S^2)$ 是 $(\mu,\sigma^2)$ 的无偏估计,也是 $T$ 的函数,从而 $(\overline X,S^2)$ 是UMVUE

  • Cramer-Rao 不等式在以下条件下给出了任何无偏估计量 $W$ 方差的下界:

    • $X$ 的支集与 $\theta$ 无关

    • $\tau'$ 和 $\frac { \partial } { \partial \theta } f$ 都存在,且 $\int\frac { \partial } { \partial \theta } f\text{d}x=\frac { \text{d} } {\text{d} \theta } \int f\text{d}x=0​$

    Cramer-Rao 不等式:

    $X { 1 } , \dots , X { n }$ 独立同分布于 $f ( x | \theta )$ ,$T = t \left( X { 1 } , \dots , X { n } \right)$ 是 $\theta$ 的一个无偏估计量,则在光滑性假设下:

    • 若参数是多维的,需要将 $\frac { \left( \tau ^ { \prime } ( \theta ) \right) ^ { 2 } } { I _ { n } ( \theta ) }\left(=\frac { \left( \tau ^ { \prime } ( \theta ) \right) ^ { 2 } } { nI ( \theta ) }\right)$ 改为 $ { \frac{1}{n} \tau ^ { \prime } ( \theta ) ^ T } { I ( \theta ) }^{-1}\tau ^ { \prime } ( \theta )$

  • Rao-Blackwell 定理

    • $W​$ 是 $\tau(\theta)​$ 的一个无偏估计量,$T​$ 是一个充分统计量

    • 定义 $W'=\phi(T)=E(W|T)$ ,那么有 $E(W')=E(E(W|T))=E(W)=\tau(\theta)$ ——无偏估计量

    • 且 $W'$ 方差不大于 $W$ 的方差(证明需要用到 $E(\theta^-\theta)^2\ge[E(\theta^-\theta)]^2$ )

PreviousChapter 10 Model Selection 模型选择NextChapter 11 Mathematical Foundation in Causal Inference 因果推断中的数理基础

Last updated 4 years ago

m1=1n∑i=1nxi,μ1(θ)=E(X)⋮⋮mk=1n∑i=1nxik,μk(θ)=E(Xk)\begin{array} { r l } &{ m _ { 1 }= \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i } , } &{ \mu _ { 1 } ( \theta )}{ = E ( X ) } \\ { } & { \vdots } &{\vdots}\\ &{ m _ { k } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i } ^ { k } },& { \mu _ { k } ( \theta ) = E \left( X ^ { k } \right) } \end{array}​m1​=n1​∑i=1n​xi​,⋮mk​=n1​∑i=1n​xik​,​μ1​(θ)=E(X)⋮μk​(θ)=E(Xk)​
mj=μj(θ^),j=1,…,km _ { j } = \mu _ { j } ( \widehat { \theta } ) , \quad j = 1 , \ldots , kmj​=μj​(θ),j=1,…,k
β^=X‾,σ^2=1n∑i=1n(Xi−X‾)2\widehat { \beta } = \overline { X } , \quad \widehat { \sigma } ^ { 2 } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 }β​=X,σ2=n1​i=1∑n​(Xi​−X)2
p^=X‾k^,k^=X‾2X‾−1n∑i=1n(Xi−X‾)2\widehat { p } = \frac { \overline { X } } { \widehat { k } } , \quad \widehat { k } = \frac { \overline { X } ^ { 2 } } { \overline { X } - \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } }p​=kX​,k=X−n1​∑i=1n​(Xi​−X)2X2​
L(θ∣x)=p(x1,…,xn;θ)⟶( i.i.d )∏i=1np(xi;θ)L ( \theta | x ) = p \left( x _ { 1 } , \ldots , x _ { n } ; \theta \right) \stackrel { ( \text { i.i.d } ) } { \longrightarrow } \prod _ { i = 1 } ^ { n } p \left( x _ { i } ; \theta \right)L(θ∣x)=p(x1​,…,xn​;θ)⟶( i.i.d )​i=1∏n​p(xi​;θ)
l(θ∣x)=log⁡L(θ∣x)l ( \theta | x ) = \log L ( \theta | x )l(θ∣x)=logL(θ∣x)
L(θ)=1θnI(0<X(n)<θ)L ( \theta ) = \frac { 1 } { \theta^n } I \left( 0 < X _ { ( n ) } < \theta \right)L(θ)=θn1​I(0<X(n)​<θ)
L(k∣x,p)=∏i=1n(kxi)pxi(1−p)(k−xi)L ( k | x , p ) = \prod _ { i = 1 } ^ { n } \left( \begin{array} { l } { k } \\ { x _ { i } } \end{array} \right) p ^ { x _ { i } } ( 1 - p ) ^ { \left( k - x _ { i } \right) }L(k∣x,p)=i=1∏n​(kxi​​)pxi​(1−p)(k−xi​)
L(k∣x,p)L(k−1∣x,p)≥1,L(k+1∣x,p)L(k∣x,p)<1\frac { L ( k | x , p ) } { L ( k - 1 | x , p ) } \geq 1 , \frac { L ( k + 1 | x , p ) } { L ( k | x , p ) } < 1L(k−1∣x,p)L(k∣x,p)​≥1,L(k∣x,p)L(k+1∣x,p)​<1
L(k∣x,p)L(k−1∣x,p)=(k(1−p))n∏i=1n(k−xi)\frac { L ( k | x , p ) } { L ( k - 1 | x , p ) } = \frac { ( k ( 1 - p ) ) ^ { n } } { \prod _ { i = 1 } ^ { n } \left( k - x _ { i } \right) }L(k−1∣x,p)L(k∣x,p)​=∏i=1n​(k−xi​)(k(1−p))n​
(k(1−p))n≥∏i=1n(k−xi)((k+1)(1−p))n<∏i=1n(k+1−xi)\begin{align*} ( k ( 1 - p ) ) ^ { n } &\geq \prod _ { i = 1 } ^ { n } \left( k - x _ { i } \right) \\ ( ( k + 1 ) ( 1 - p ) ) ^ { n } &< \prod _ { i = 1 } ^ { n } \left( k + 1 - x _ { i } \right) \end{align*}(k(1−p))n((k+1)(1−p))n​≥i=1∏n​(k−xi​)<i=1∏n​(k+1−xi​)​
⇒(1−p)n=∏i=1n(1−xiz)\Rightarrow (1-p)^n= \prod _ { i = 1 } ^ { n } \left( 1 - x _ { i } z \right)⇒(1−p)n=i=1∏n​(1−xi​z)
p(x1,…,xn,θ)=p(x1,…,xn∣θ)p(θ)p \left( x _ { 1 } , \ldots , x _ { n } , \theta \right) = p \left( x _ { 1 } , \ldots , x _ { n } | \theta \right) p ( \theta )p(x1​,…,xn​,θ)=p(x1​,…,xn​∣θ)p(θ)
p(θ∣x1,…,xn)=p(x1,…,xn∣θ)p(θ)p(x1,…,xn)p ( \theta | x _ { 1 } , \ldots , x _ { n } ) = \frac { p \left( x _ { 1 } , \ldots , x _ { n } | \theta \right) p ( \theta ) } { p \left( x _ { 1 } , \ldots , x _ { n } \right) }p(θ∣x1​,…,xn​)=p(x1​,…,xn​)p(x1​,…,xn​∣θ)p(θ)​
p(x1,…,xn)=∫p(x1,…,xn∣θ)p(θ)dθp \left( x _ { 1 } , \ldots , x _ { n } \right) = \int p \left( x _ { 1 } , \ldots , x _ { n } | \theta \right) p ( \theta ) \text{d} \thetap(x1​,…,xn​)=∫p(x1​,…,xn​∣θ)p(θ)dθ
p(θ∣x1,…,xn)∝L(θ)p(θ)= Likelihood × prior p ( \theta | x _ { 1 } , \ldots , x _ { n } ) \propto L ( \theta ) p ( \theta ) = \text { Likelihood } \times \text { prior }p(θ∣x1​,…,xn​)∝L(θ)p(θ)= Likelihood × prior 
θ^=E(θ∣x1,…,xn)=∫θp(θ∣x1,…,xn)dθ=∫θp(x1,…,xn∣θ)p(θ)dθ∫p(x1,…,xn∣θ)p(θ)dθ\begin{align*} { \widehat { \theta } }&{= E ( \theta | x _ { 1 } , \ldots , x _ { n } ) = \int \theta p ( \theta | x _ { 1 } , \ldots , x _ { n } ) d \theta } \\ &={ \frac { \int \theta p \left( x _ { 1 } , \ldots , x _ { n } | \theta \right) p ( \theta ) d \theta } { \int p \left( x _ { 1 } , \ldots , x _ { n } | \theta \right) p ( \theta ) d \theta } } \end{align*}θ​=E(θ∣x1​,…,xn​)=∫θp(θ∣x1​,…,xn​)dθ=∫p(x1​,…,xn​∣θ)p(θ)dθ∫θp(x1​,…,xn​∣θ)p(θ)dθ​​
p(θ)=θα−1(1−θ)β−1/(Γ(α+β)Γ(α)Γ(β))∝θα−1(1−θ)β−1p ( \theta ) = \theta ^ { \alpha - 1 } ( 1 - \theta ) ^ { \beta - 1 } / \left( \frac { \Gamma ( \alpha + \beta ) } { \Gamma ( \alpha ) \Gamma ( \beta ) } \right)\propto \theta ^ { \alpha - 1 } ( 1 - \theta ) ^ { \beta - 1 }p(θ)=θα−1(1−θ)β−1/(Γ(α)Γ(β)Γ(α+β)​)∝θα−1(1−θ)β−1
L(θ)=p(x1,⋯ ,xn∣θ)=θY(1−θ)n−YL(\theta)=p(x_1,\cdots,x_n|\theta)=\theta ^ { Y } ( 1 - \theta ) ^ { n - Y }L(θ)=p(x1​,⋯,xn​∣θ)=θY(1−θ)n−Y
p(θ∣x1,…,xn)∝θY(1−θ)n−Y⏟ Likelihood ×θα−1(1−θ)β−1⏟ Prior =θY+α−1(1−θ)n−Y+β−1p ( \theta | x _ { 1 } , \ldots , x _ { n } )\propto\underbrace { \theta ^ { Y } ( 1 - \theta ) ^ { n - Y } } _ { \text { Likelihood } } \times \underbrace { \theta ^ { \alpha - 1 } ( 1 - \theta ) ^ { \beta - 1 } } _ { \text { Prior } } = \theta ^ { Y + \alpha - 1 } ( 1 - \theta ) ^ { n - Y + \beta - 1 }p(θ∣x1​,…,xn​)∝ Likelihood θY(1−θ)n−Y​​× Prior θα−1(1−θ)β−1​​=θY+α−1(1−θ)n−Y+β−1
p(μ∣X1,…,Xn)∝exp⁡[−∑(Xi−μ)22σ2]exp⁡[−(μ−m)22τ2]∝exp⁡[−(n2σ2+12τ2)μ2+2(nX‾2σ2+m2τ2)μ2]∝12πσ′exp⁡[(μ−μ′)22σ′2]\begin{align*} p ( \mu | X _ { 1 } , \ldots , X _ { n } )&\propto \exp\left[{-\frac{\sum(X_i-\mu)^2}{2\sigma^2}}\right]\exp\left[{-\frac{(\mu-m)^2}{2\tau^2}}\right]\\ &\propto\exp\left[-\left(\frac{n}{2\sigma^2}+\frac{1}{2\tau^2}\right)\mu^2+2\left(\frac{n\overline{X}}{2\sigma^2}+\frac{m}{2\tau^2}\right)\mu^2\right]\\ &\propto \frac{1}{\sqrt{2\pi}\sigma'}\exp\left[\frac{(\mu-\mu')^2}{2\sigma'^2}\right] \end{align*}p(μ∣X1​,…,Xn​)​∝exp[−2σ2∑(Xi​−μ)2​]exp[−2τ2(μ−m)2​]∝exp[−(2σ2n​+2τ21​)μ2+2(2σ2nX​+2τ2m​)μ2]∝2π​σ′1​exp[2σ′2(μ−μ′)2​]​
μ^=E(μ∣X)=μ′=τ2τ2+σ2/nX‾+σ2/nτ2+σ2/nm\widehat\mu=E ( \mu | X ) =\mu'=\frac { \tau ^ { 2 } } { \tau ^ { 2 } + \sigma ^ { 2 } / n } \overline { X } + \frac { \sigma ^ { 2 } / n } { \tau ^ { 2 } + \sigma ^ { 2 } / n } mμ​=E(μ∣X)=μ′=τ2+σ2/nτ2​X+τ2+σ2/nσ2/n​m
σ^2=Var⁡(μ∣X)=σ′2=σ2τ2/nτ2+σ2/n\widehat\sigma^2=\operatorname { Var } ( \mu | X )=\sigma'^2=\frac { \sigma ^ { 2 } \tau ^ { 2 } / n } { \tau ^ { 2 } + \sigma ^ { 2 } / n }σ2=Var(μ∣X)=σ′2=τ2+σ2/nσ2τ2/n​
∫…∫(θ^(x1,…,xn)−θ)2p(x1;θ)…p(xn;θ)dx1…dxn\int \ldots \int \left( \widehat { \theta } \left( x _ { 1 } , \ldots , x _ { n } \right) - \theta \right) ^ { 2 } p \left( x _ { 1 } ; \theta \right) \ldots p \left( x _ { n } ; \theta \right) \text{d} x _ { 1 } \ldots \text{d} x _ { n }∫…∫(θ(x1​,…,xn​)−θ)2p(x1​;θ)…p(xn​;θ)dx1​…dxn​
Var⁡θ(W)≥(ddθEθW)2Eθ[(∂∂θlog⁡f(X;θ))2]=(τ′(θ))2In(θ)\operatorname { Var } _ { \theta } ( W ) \geq \frac { \left( \frac { d } { d \theta } E _ { \theta } W \right) ^ { 2 } } { E _ { \theta } \left[ \left( \frac { \partial } { \partial \theta } \log f ( X ; \theta ) \right) ^ { 2 } \right] } = \frac { \left( \tau ^ { \prime } ( \theta ) \right) ^ { 2 } } { I _ { n } ( \theta ) }Varθ​(W)≥Eθ​[(∂θ∂​logf(X;θ))2](dθd​Eθ​W)2​=In​(θ)(τ′(θ))2​
Var⁡(T)≥1nI(θ)\operatorname { Var } ( T ) \geq \frac { 1 } { n I ( \theta ) }Var(T)≥nI(θ)1​
I(θ)=Var⁡(∂log⁡f(X∣θ)∂θ)I ( \theta ) = \operatorname { Var } \left( \frac { \partial \log f ( X | \theta ) } { \partial \theta } \right)I(θ)=Var(∂θ∂logf(X∣θ)​)