Chapter 3. Decision Theory 统计决策
Last updated
Last updated
统计决策:在观察到样本 $X$ 之后,我们采取的一个行为,例如关于总体 $P$ 的结论
行动空间:$A$ 是所有可能采取的行动的集合,$\mathcal { F } _ { A }$ 是一个 $A$ 上的 $\sigma-\text{ field}$,则可测空间 $( A , \mathcal { F } )$ 被称为行动空间
$\sigma-\text{field }\mathcal{F}$:
$\mathcal{F}$ 包含空集
如果 $E \in \mathcal { F } , E ^ { c } \in \mathcal { F }$
如果 $E { 1 } , E { 2 } , \dots , E { i } \in \mathcal { F },\cup { i = 1 } ^ { \infty } E _ { i } \in \mathcal { F }$
决策规则:从样本空间 $\left( \mathcal { X } , \mathcal { F } { X } \right)$ 到行动空间 $\left( A , \mathcal { F } { A } \right)$ 的一个可测函数 $T$ ,如果观测到 $X$ ,则采取行动 $T(X)$
损失函数用来评价决策规则的优劣
单参数:$L ( \theta , \widehat { \theta } )$
平方误差损失:$L ( \theta , \widehat { \theta } ) = ( \theta - \widehat { \theta } ) ^ { 2 }$
$L _ { p }$ 损失:$L ( \theta , \widehat { \theta } )=| \theta - \widehat { \theta } | ^ { p }$
$0-1$ 损失:$L ( \theta , \widehat { \theta } ) = 0 \text { if } \theta = \widehat { \theta } \text { or } 1 \text { if } \theta \neq \widehat { \theta }$
Kullback-Leibler损失:$L ( \theta , \widehat { \theta } ) = \int \log \left( \frac { p ( x ; \theta ) } { p ( x ; \widehat \theta ) } \right) p ( x ; \theta ) \text{d} x$
多参数(常用的):
随机化决策:按一定的概率取用决策空间中的决策
损失函数依赖于样本,而估计量 $ \widehat\theta$ 的风险函数是损失函数的期望,是参数 $\theta$ 的函数
如果损失函数是平方误差的话,风险函数恰为MSE
最优规则
$\widehat{\theta}_1$ 同 $\widehat{\theta}_2$ 一样好:
$\widehat{\theta}_1$ 同 $\widehat{\theta}_2$ 等价:
最优性:$\mathcal T$ 是一系列决策规则的集合,$T^$ 是 $\mathcal T-$最优的,当且仅当 $T^$ 和 $\mathcal T$ 中任意其他规则一样好——因为要对所有 $P$ 成立,实际不一定存在
可容性:$\mathcal T$ 是一系列决策规则(随机化、非随机化)的集合,$T^$ 是 $\mathcal T-$可容的,当且仅当 $\mathcal T$ 中没有任何规则比 $T^$ 更好(任取 $T\in\mathcal{T}$ ,都存在 $P_0$ 使 $T^$ 的风险更小)——或者 $T^$ 是 $\mathcal T-$最优的,或者不存在最优决策
Rao-Blackwell 定理(不可容性):
$T$ 是 $P \in \mathcal{P}$ 的充分统计量,$T0$ 是一个期望有限的非随机化决策规则,$T_1$ 满足 $T { 1 } = E \left( T _ { 0 } ( X ) | T \right)$
那么 $R(P, T_1 ) \le R(P, T_0 )$ ,任取 $P$
如果损失函数 $L$ 严格下凸,$T_0$ 不是 $T$ 的函数,那么它不可容
可以利用上述定理,找出不可容的决策并排除掉,但剩下来的决策可能依然很多——两种选择方法
选择具有我们想要的一些特征(比如无偏性)的决策规则,再在其中选取最佳的
对于一个给定的决策规则,考虑风险函数的一些特征(比如上界)$R(T)$ ,再将 $R(T)$ 最小化:
贝叶斯规则
极小化极大规则
比较不同估计量风险函数取极大值的情况
极小化极大估计量
极小化极大风险
极小化极大估计量:
相当于选择所有决策中最糟糕的情况相对最好的一个
决策理论:
找到极小化极大风险
找到达到这个风险的估计量
有时可以直接找
有时只能找渐近的极小化极大估计量
有时只能找
这表示两者之比有界
比较不同估计量的贝叶斯风险
贝叶斯估计量
将贝叶斯风险最小化的估计量
决策理论:同样需要寻找贝叶斯统计量
后验分布:
$L(\theta)$ 是似然函数
后验分布密度:
$m \left( x ^ { n } \right) = \int p \left( x ^ { n } | \theta \right) \pi ( \theta ) \text{d} \theta$ 是 $x^n$ 的边缘分布
后验风险:
定理:对每一个 $x^n$ ,将后验风险最小化的估计量就是贝叶斯估计量
特定损失函数下的贝叶斯估计量(后验风险对 $\hat\theta$ 求导为 $0$ )
平方误差损失:
$0-1$ 损失:后验分布的众数
定理:$\widehat{\theta}$ 是一定先验下的贝叶斯估计量,如果风险是常数,那么它也是极小化极大估计量
大样本情况下(参数维数不变,样本容量增加),极大似然估计量趋向于极小化极大估计量
大样本下,方差远大于偏差,因而均方偏差近似为方差
MLE的方差近似为 $\operatorname { Var } ( \widehat { \theta } ) \approx \frac { 1 } { n I ( \theta ) }$,从而: