Chapter 2. Estimation 估计
三种估计的方法
矩估计(MOM)
极大似然估计(MLE)
贝叶斯估计
衡量估计量优劣的方法
偏差和方差
均方偏差(MSE)
Minimax 理论
大样本理论
参数点估计
一个点估计量是样本的一个任意函数,也就是任意一个统计量
估计量和估计值
估计量(Estimator)是样本的函数,是随机向量 $X^n$ 的函数
估计值(Estimate)是在得到样本之后估计量的取值,是样本实际值 $x^n$ 的函数
矩估计(MOM)
定义
矩估计量 $\widehat { \theta } = \left( \widehat { \theta } { 1 } , \ldots , \widehat { \theta } { k } \right)$ 满足
即令样本的前 $k$ 阶矩和理论的前 $k$ 阶矩相等
例:正态分布(一阶矩 $\beta$,二阶矩 $\sigma^2+\beta^2$)MOMs:
例:二项分布(一阶矩 $kp$ ,二阶矩 $kp(1-p)+k^2p^2$)MOMs:
这个估计不是最好的,因为 $\widehat{k}$ 可能是负值
极大似然估计(MLE)
似然函数:
对数似然函数:
目标
找到似然函数的全局最大值
确保估计量对数据微小的改变是稳定的
求MLE:
对于可微的似然函数,考虑一阶导数为0,二阶导数小于0的所有极大值点,加上参数取值的边界点,比较得到全局最大值
直接求最大值——找到上界,找到取这个值的唯一点
例:对于 $X { 1 } , \ldots , X { n } \sim \text { Uniform } ( 0 , \theta )$ ,似然函数满足:
当且仅当 $\theta\ge X{(n)}$ 时 $L(\theta)> 0$,此时 $L(\theta)$ 关于 $\theta$ 递减,从而 $\widehat { \theta } = X { ( n ) }$
受限MLE:实际情况中参数取值可能有限制,此时求得的MLE和参数自由时求得的MLE不同
对于不能解析求解的情况,可以由计算机求数值解——同样需要考虑局域最大和全局最大
例:二项分布,试验次数 $k$ 位置,单次概率 $p$ 已知,估计 $k$ 的MLE
似然函数:
$k<x_{(n)}$ 时 $L=0$
由于 $k$ 是整数,又涉及到阶乘,我们不能求导了
考虑 $k \geq x _ { ( n ) }$ 满足:
而:
从而不等式化为:
这里 $z=1/k$
等式右边关于 $z$ 递减,$z=0$ 时取 $1$ ,$z=1/x_{(n)}$ 时取 $0$
从而 $z$ 有唯一解 $\widehat{z}$ (数值求解),当然 $1/\widehat{z}$ 不一定是整数,$\widehat{k}$ 是最接近 $1/\widehat{z}$ 的整数
MLE的稳定性
当似然函数在最大值的领域附近非常平坦,或者不存在有限的最大值的时候,样本数据的轻微改变可能就会造成MLE的巨大变化
MLE的等价性
$\eta=g(\theta)$ 是 $\theta$ 的函数,如果 $\theta$ 的MLE是 $\widehat\theta$ ,那么 $\eta$ 的MLE是 $g(\widehat\theta)$
贝叶斯估计
贝叶斯派将 $\theta$ 看成随机变量,其先验分布为 $p(\theta)$
$X { 1 } , \ldots , X { n } , \theta$ 的联合分布为:
根据贝叶斯公式,我们可以得到相应的后验分布:
这相当于:
似然函数等于条件分布 $p \left( x { 1 } , \ldots , x { n } | \theta \right)$ 而不是联合分布 $p \left( x { 1 } , \ldots , x { n } , \theta \right)$ 是因为在 贝叶斯估计中,$\theta$ 是一个随机变量,实际的 $x^n$ 的联合分布是在取定 $\theta$ 后得到的,相当于条件分布;而在极大似然估计中,$\theta$ 只是一个参数,本身是固定的,不存在这样的条件分布
贝叶斯估计量
贝叶斯估计量依赖于后验分布
一种贝叶斯估计量是后验分布的均值
例:伯努利分布,$X { 1 } , \ldots , X { n } \sim \text { Bernoulli} ( \theta )$ ,$\theta$ 的先验分布 $\theta \sim \operatorname { Beta } ( \alpha , \beta )$ ,即:
而似然函数满足:
这里 $Y = \sum X _ { i }$
则后验分布
共轭先验:先验分布和后验分布属于同一分布族
例:$X { 1 } , \ldots , X { n } \sim N \left( \mu , \sigma ^ { 2 } \right)$ ,$\sigma^2$ 未知
$\mu$ 又有一个先验分布:$\mu \sim N \left( m , \tau ^ { 2 } \right)$
后验分布:
这说明正态分布族是自己的共轭族,可以得到相应的贝叶斯估计量:
这里得到的是先验和样本平均的线性组合
如果先验的方差趋于无穷,$\widehat{\mu}\to\overline{X}$ ,$\widehat{\sigma}^2\to\sigma^2/n$ ,信息主要来自样本
如果先验的方差趋于很小,先验信息很好,则$\widehat{\mu}\to m$ ,$\widehat{\sigma}^2\to\tau^2 $ ,信息主要来自先验分布
评价估计量的方法
均方误差 (MSE):$E _ { \theta } ( \widehat { \theta } - \theta ) ^ { 2 }$
偏差 $B = E _ { \theta } ( \widehat { \theta } ) - \theta$
方差 $V = \operatorname { Var } _ { \theta } ( \widehat { \theta } )$
均方误差 $\mathrm { MSE } = B ^ { 2 } + V$
如果偏差为 $0$ ,则一个估计量是无偏估计量,MSE=方差,但这时方差可能很大
MSE是 $\theta$ 的函数
Minimax方法是取MSE在 $\theta$ 上的最大值进行比较的评估估计量的方法
对 $g(\theta)$ 两个估计 $\phi1,\phi_2$,如果 $\forall \theta,\text{MSE}\theta(\phi1)\le\text{MSE}\theta(\phi2)$,则称 $\phi_1$ 不次于 $\phi_2$ ;如果 $\exists\theta_0\in\Theta,\text{MSE}\theta(\phi1)<\text{MSE}\theta(\phi_2)$ ,则称 $\phi_1$ 比 $\phi_2$ 有效
最好的无偏估计量
两个估计不一定能比较,一般来讲,不能找到不次于其他所有估计量的估计量
一致最小方差无偏估计 (UMVUE):
$W$ 是 $\tau(\theta)$ 的UMVUE,如果:
$E _ { \theta } ( W ) = \tau ( \theta )$ ,任取 $\theta$
如果 $E { \theta } ( W' ) = \tau ( \theta )$ ,那么 $\operatorname { Var } { \theta } ( W ) \leq \operatorname { Var } _ { \theta } \left( W ^ { \prime } \right)$
如果 $T$ 是 $\theta$ 的完备充分统计量,$\widehat {g(T)}$ 是 $g(T)$ 的无偏估计,那么它就是 $g(\theta)$ 的最小方差无偏估计
例:正态分布:Chapter 1 中已经证明了 $T=(\frac{1}{n}\sum X_i^2,\overline X) $ 是完备的充分统计量,而 $(\overline X,S^2)$ 是 $(\mu,\sigma^2)$ 的无偏估计,也是 $T$ 的函数,从而 $(\overline X,S^2)$ 是UMVUE
Cramer-Rao 不等式在以下条件下给出了任何无偏估计量 $W$ 方差的下界:
$X$ 的支集与 $\theta$ 无关
$\tau'$ 和 $\frac { \partial } { \partial \theta } f$ 都存在,且 $\int\frac { \partial } { \partial \theta } f\text{d}x=\frac { \text{d} } {\text{d} \theta } \int f\text{d}x=0$
Cramer-Rao 不等式:
$X { 1 } , \dots , X { n }$ 独立同分布于 $f ( x | \theta )$ ,$T = t \left( X { 1 } , \dots , X { n } \right)$ 是 $\theta$ 的一个无偏估计量,则在光滑性假设下:
若参数是多维的,需要将 $\frac { \left( \tau ^ { \prime } ( \theta ) \right) ^ { 2 } } { I _ { n } ( \theta ) }\left(=\frac { \left( \tau ^ { \prime } ( \theta ) \right) ^ { 2 } } { nI ( \theta ) }\right)$ 改为 $ { \frac{1}{n} \tau ^ { \prime } ( \theta ) ^ T } { I ( \theta ) }^{-1}\tau ^ { \prime } ( \theta )$
Rao-Blackwell 定理
$W$ 是 $\tau(\theta)$ 的一个无偏估计量,$T$ 是一个充分统计量
定义 $W'=\phi(T)=E(W|T)$ ,那么有 $E(W')=E(E(W|T))=E(W)=\tau(\theta)$ ——无偏估计量
且 $W'$ 方差不大于 $W$ 的方差(证明需要用到 $E(\theta^-\theta)^2\ge[E(\theta^-\theta)]^2$ )
Last updated