Notes
  • Notes
  • 恒星结构与演化
    • Chapter 7. Equation of State
    • Chapter 3. Virial Theorem
    • Chapter 11. Main Sequence
    • Chapter 4. Energy Conservation
    • Chapter 12. Post-Main Sequence
    • Chapter 2. Hydrostatic Equilibrium
    • Chapter 6. Convection
    • Chapter 9. Nuclear Reactions
    • Chapter 10 Polytrope
    • Chapter 8. Opacity
    • Chapter 14. Protostar
    • Chapter 13. Star Formation
    • Chapter 5. Energy Transport
  • 天体光谱学
    • Chapter 6 气体星云光谱
    • Chapter 5 磁场中的光谱
    • Chapter 7 X-射线光谱
    • Chapter 3 碱金属原子
    • Chapter 1 光谱基础知识
    • Chapter 9 分子光谱
    • Chapter 4 复杂原子
    • Chapter 2 氢原子光谱
  • 物理宇宙学基础
    • Chapter 2 Newtonian Cosmology
    • Chapter 1 Introduction
    • Chapter 5* Monochromatic Flux, K-correction
    • Chapter 9 Dark Matter
    • Chapter 10 Recombination and CMB
    • Chapter 8 Primordial Nucleosynthesis
    • Chapter 7 Thermal History of the Universe
    • Chapter 6 Supernova cosmology
    • Chapter 5 Redshifts and Distances
    • Chapter 4 World Models
    • Chapter 3 Relativistic Cosmology
  • 数理统计
    • Chapter 6. Confidence Sets (Intervals) 置信区间
    • Chapter 1. Data Reduction 数据压缩
    • Chapter 7. Two Sample Comparisons 两个样本的比较
    • Chapter 3. Decision Theory 统计决策
    • Chapter 4. Asymptotic Theory 渐近理论
    • Chapter 5. Hypothesis Testing 假设检验
    • Chapter 9. Linear Models 线性模型
    • Chapter 10 Model Selection 模型选择
    • Chapter 2. Estimation 估计
    • Chapter 11 Mathematical Foundation in Causal Inference 因果推断中的数理基础
    • Chapter 8. Analysis of Variance 方差分析
  • 天体物理动力学
    • Week8: Orbits
    • Week7: Orbits
    • Week6: Orbits
    • Week5: Orbits
    • Week4: Orbits
    • Week3: Potential Theory
    • Week2
    • Week1
  • 天体物理吸积过程
    • Chapter 4. Spherically Symmetric Flow
    • Chapter 2. Fluid Dynamics
    • Chapter 5. Accretion Disk Theory
    • Chapter 3. Compressible Fluid
  • 天文技术与方法
    • Chapter1-7
  • 理论天体物理
    • Chapter 6 生长曲线的理论和应用
    • Chapter 5 线吸收系数
    • Chapter 4 吸收线内的辐射转移
    • Chapter 3 恒星大气模型和恒星连续光谱
    • Chapter 2 恒星大气的连续不透明度
    • Chapter 1 恒星大气辐射理论基础
  • 常微分方程
    • 线性微分方程组
    • 高阶微分方程
    • 奇解
    • 存在和唯一性定理
    • 初等积分法
    • 基本概念
  • 天体物理观测实验
Powered by GitBook
On this page
  • 决策规则
  • 损失函数
  • 风险函数
  • 不同估计量的比较方法:极大风险和贝叶斯风险
  1. 数理统计

Chapter 3. Decision Theory 统计决策

决策规则

  • 统计决策:在观察到样本 $X$ 之后,我们采取的一个行为,例如关于总体 $P$ 的结论

  • 行动空间:$A$ 是所有可能采取的行动的集合,$\mathcal { F } _ { A }$ 是一个 $A$ 上的 $\sigma-\text{ field}$,则可测空间 $( A , \mathcal { F } )$ 被称为行动空间

    $\sigma-\text{field }\mathcal{F}$:

    • $\mathcal{F}$ 包含空集

    • 如果 $E \in \mathcal { F } , E ^ { c } \in \mathcal { F }$

    • 如果 $E { 1 } , E { 2 } , \dots , E { i } \in \mathcal { F },\cup { i = 1 } ^ { \infty } E _ { i } \in \mathcal { F }$

  • 决策规则:从样本空间 $\left( \mathcal { X } , \mathcal { F } { X } \right)$ 到行动空间 $\left( A , \mathcal { F } { A } \right)$ 的一个可测函数 $T$ ,如果观测到 $X$ ,则采取行动 $T(X)$

损失函数

损失函数用来评价决策规则的优劣

  • 单参数:$L ( \theta , \widehat { \theta } )$

    • 平方误差损失:$L ( \theta , \widehat { \theta } ) = ( \theta - \widehat { \theta } ) ^ { 2 }$

    • $L _ { p }$ 损失:$L ( \theta , \widehat { \theta } )=| \theta - \widehat { \theta } | ^ { p }$

    • $0-1$ 损失:$L ( \theta , \widehat { \theta } ) = 0 \text { if } \theta = \widehat { \theta } \text { or } 1 \text { if } \theta \neq \widehat { \theta }$

    • Kullback-Leibler损失:$L ( \theta , \widehat { \theta } ) = \int \log \left( \frac { p ( x ; \theta ) } { p ( x ; \widehat \theta ) } \right) p ( x ; \theta ) \text{d} x$

  • 多参数(常用的):

    L(θ,θ^)=∥θ−θ^∥2=∑j=1K(θ^−θj)2L ( \theta , \widehat { \theta } ) = \| \theta - \widehat { \theta } \| ^ { 2 } = \sum _ { j = 1 } ^ { K } \left( \widehat { \theta } - \theta _ { j } \right) ^ { 2 }L(θ,θ)=∥θ−θ∥2=j=1∑K​(θ−θj​)2
    L(θ,θ^)=∥θ−θ^∥p=(∑j=1K(θ^−θj)p)1/pL ( \theta , \widehat { \theta } ) = \| \theta - \widehat { \theta } \| _ { p } = \left( \sum _ { j = 1 } ^ { K } \left( \widehat { \theta } - \theta _ { j } \right) ^ { p } \right) ^ { 1 / p }L(θ,θ)=∥θ−θ∥p​=(j=1∑K​(θ−θj​)p)1/p
  • 随机化决策:按一定的概率取用决策空间中的决策

风险函数

损失函数依赖于样本,而估计量 $ \widehat\theta$ 的风险函数是损失函数的期望,是参数 $\theta$ 的函数

R(θ,θ^)=Eθ(L(θ,θ^))=∫L(θ,θ^(x1,…,xn))p(x1,…,xn;θ)dxR ( \theta , \widehat { \theta } ) = E _ { \theta } ( L ( \theta , \widehat { \theta } ) )= \int L \left( \theta , \widehat { \theta } \left( x _ { 1 } , \ldots , x _ { n } \right) \right) p \left( x _ { 1 } , \ldots , x _ { n } ; \theta \right) d xR(θ,θ)=Eθ​(L(θ,θ))=∫L(θ,θ(x1​,…,xn​))p(x1​,…,xn​;θ)dx

如果损失函数是平方误差的话,风险函数恰为MSE

  • 最优规则

    • $\widehat{\theta}_1$ 同 $\widehat{\theta}_2$ 一样好:

      R(θ,θ^1)≤R(θ,θ^2) for any P∈PR \left( \theta , \widehat { \theta } _ { 1 } \right) \leq R \left( \theta , \widehat { \theta } _ { 2 } \right) \text { for any } P \in \mathcal { P }R(θ,θ1​)≤R(θ,θ2​) for any P∈P
    • $\widehat{\theta}_1$ 同 $\widehat{\theta}_2$ 等价:

      R(θ,θ^1)=R(θ,θ^2) for any P∈PR \left( \theta , \widehat { \theta } _ { 1 } \right) = R \left( \theta , \widehat { \theta } _ { 2 } \right) \text { for any } P \in \mathcal { P }R(θ,θ1​)=R(θ,θ2​) for any P∈P
    • 最优性:$\mathcal T$ 是一系列决策规则的集合,$T^$ 是 $\mathcal T-$最优的,当且仅当 $T^$ 和 $\mathcal T$ 中任意其他规则一样好——因为要对所有 $P$ 成立,实际不一定存在

    • 可容性:$\mathcal T$ 是一系列决策规则(随机化、非随机化)的集合,$T^$ 是 $\mathcal T-$可容的,当且仅当 $\mathcal T$ 中没有任何规则比 $T^$ 更好(任取 $T\in\mathcal{T}$ ,都存在 $P_0$ 使 $T^$ 的风险更小)——或者 $T^$ 是 $\mathcal T-$最优的,或者不存在最优决策

    • Rao-Blackwell 定理(不可容性):

      • $T$ 是 $P \in \mathcal{P}$ 的充分统计量,$T0$ 是一个期望有限的非随机化决策规则,$T_1$ 满足 $T { 1 } = E \left( T _ { 0 } ( X ) | T \right)$

      • 那么 $R(P, T_1 ) \le R(P, T_0 )$ ,任取 $P$

      • 如果损失函数 $L$ 严格下凸,$T_0$ 不是 $T$ 的函数,那么它不可容

    • 可以利用上述定理,找出不可容的决策并排除掉,但剩下来的决策可能依然很多——两种选择方法

      • 选择具有我们想要的一些特征(比如无偏性)的决策规则,再在其中选取最佳的

      • 对于一个给定的决策规则,考虑风险函数的一些特征(比如上界)$R(T)$ ,再将 $R(T)$ 最小化:

        • 贝叶斯规则

        • 极小化极大规则

不同估计量的比较方法:极大风险和贝叶斯风险

极大风险

R‾(θ^)=sup⁡θ∈ΘR(θ,θ^)\overline { R } ( \widehat { \theta } ) = \sup _ { \theta \in \Theta } R ( \theta , \widehat { \theta } )R(θ)=θ∈Θsup​R(θ,θ)
  • 比较不同估计量风险函数取极大值的情况

极小化极大估计量

  • 极小化极大风险

Rn=inf⁡θ^sup⁡θR(θ,θ^)R _ { n } = \inf _ { \widehat { \theta } } \sup _ { \theta } R ( \theta , \widehat { \theta } )Rn​=θinf​θsup​R(θ,θ)
  • 极小化极大估计量:

    sup⁡θR(θ,θ^)=inf⁡θ^sup⁡θR(θ,θ^)\sup _ { \theta } R ( \theta , \widehat { \theta } ) = \underset { \hat\theta } { \inf } \sup _ { \theta } R ( \theta , \widehat { \theta } )θsup​R(θ,θ)=θ^inf​θsup​R(θ,θ)
  • 相当于选择所有决策中最糟糕的情况相对最好的一个

  • 决策理论:

    • 找到极小化极大风险

    • 找到达到这个风险的估计量

      • 有时可以直接找

      • 有时只能找渐近的极小化极大估计量

        sup⁡θ∈ΘR(θ,θn^)∼inf⁡θ~sup⁡θ∈ΘR(θ,θ~), as n→∞\sup _ { \theta \in \Theta } R \left( \theta , \widehat { \theta _ { n } } \right) \sim \inf _ { \tilde { \theta } } \sup _ { \theta \in \Theta } R ( \theta , \tilde { \theta } ) , \text { as } n \rightarrow \inftyθ∈Θsup​R(θ,θn​​)∼θ~inf​θ∈Θsup​R(θ,θ~), as n→∞
      • 有时只能找

        sup⁡θ∈ΘR(θ,θ^)≬inf⁡θ~sup⁡θ∈ΘR(θ,θ~), as n→∞\sup _ { \theta \in \Theta } R ( \theta , \widehat { \theta } ) \between \inf _ { \tilde { \theta } } \sup _ { \theta \in \Theta } R ( \theta , \tilde { \theta } ) , \text { as } n \rightarrow \inftyθ∈Θsup​R(θ,θ)≬θ~inf​θ∈Θsup​R(θ,θ~), as n→∞

        这表示两者之比有界

先验 $\pi$ 下的贝叶斯风险

Bπ(θ^)=∫R(θ,θ^)π(θ)dθB _ { \pi } ( \widehat { \theta } ) = \int R ( \theta , \widehat { \theta } ) \pi ( \theta ) \text{d} \thetaBπ​(θ)=∫R(θ,θ)π(θ)dθ
  • 比较不同估计量的贝叶斯风险

贝叶斯估计量

  • 将贝叶斯风险最小化的估计量

    Bπ(θ^)=inf⁡θ~Bπ(θ~)B _ { \pi } ( \widehat { \theta } ) = \inf _ { \tilde { \theta } } B _ { \pi } ( \tilde { \theta } )Bπ​(θ)=θ~inf​Bπ​(θ~)
  • 决策理论:同样需要寻找贝叶斯统计量

    • 后验分布:

      P(θ∈A∣xn)=∫Ap(x1,…,xn∣θ)π(θ)dθ∫p(x1,…,xn∣θ)π(θ)dθ=∫AL(θ)π(θ)dθ∫ΘL(θ)π(θ)dθ\begin{aligned} P ( \theta \in A | x ^ { n } ) & = \frac { \int _ { A } p \left( x _ { 1 } , \ldots , x _ { n } | \theta \right) \pi ( \theta ) \text{d} \theta } { \int p \left( x _ { 1 } , \ldots , x _ { n } | \theta \right) \pi ( \theta ) \text{d} \theta } \\ & = \frac { \int _ { A } L ( \theta ) \pi ( \theta ) \text{d} \theta } { \int _ { \Theta } L ( \theta ) \pi ( \theta ) \text{d} \theta } \end{aligned}P(θ∈A∣xn)​=∫p(x1​,…,xn​∣θ)π(θ)dθ∫A​p(x1​,…,xn​∣θ)π(θ)dθ​=∫Θ​L(θ)π(θ)dθ∫A​L(θ)π(θ)dθ​​

      $L(\theta)$ 是似然函数

    • 后验分布密度:

      π(θ∣xn)=p(xn∣θ)π(θ)m(xn)\pi ( \theta | x ^ { n } ) = \frac { p \left( x ^ { n } | \theta \right) \pi ( \theta ) } { m \left( x ^ { n } \right) }π(θ∣xn)=m(xn)p(xn∣θ)π(θ)​

      $m \left( x ^ { n } \right) = \int p \left( x ^ { n } | \theta \right) \pi ( \theta ) \text{d} \theta$ 是 $x^n$ 的边缘分布

    • 后验风险:

      r(θ^∣xn)=∫L(θ,θ^)π(θ∣xn)dθr ( \widehat { \theta } | x ^ { n } ) = \int L ( \theta , \widehat { \theta } ) \pi ( \theta | x ^ { n } ) \text{d} \thetar(θ∣xn)=∫L(θ,θ)π(θ∣xn)dθ
    • 定理:对每一个 $x^n$ ,将后验风险最小化的估计量就是贝叶斯估计量

  • 特定损失函数下的贝叶斯估计量(后验风险对 $\hat\theta$ 求导为 $0$ )

    • 平方误差损失:

      θ^(xn)=∫θπ(θ∣xn)dθ=E(θ∣X=xn)\widehat { \theta } \left( x ^ { n } \right) = \int \theta \pi ( \theta | x ^ { n } ) \text{d} \theta = E ( \theta | X = x ^ { n } )θ(xn)=∫θπ(θ∣xn)dθ=E(θ∣X=xn)
    • $0-1$ 损失:后验分布的众数

极小化极大估计量和贝叶斯估计量的联系

  • 定理:$\widehat{\theta}$ 是一定先验下的贝叶斯估计量,如果风险是常数,那么它也是极小化极大估计量

极大似然估计量

  • 大样本情况下(参数维数不变,样本容量增加),极大似然估计量趋向于极小化极大估计量

  • 大样本下,方差远大于偏差,因而均方偏差近似为方差

  • MLE的方差近似为 $\operatorname { Var } ( \widehat { \theta } ) \approx \frac { 1 } { n I ( \theta ) }$,从而:

    nR(θ,θ^)≈1I(θ)n R ( \theta , \widehat { \theta } ) \approx \frac { 1 } { I ( \theta ) }nR(θ,θ)≈I(θ)1​
PreviousChapter 7. Two Sample Comparisons 两个样本的比较NextChapter 4. Asymptotic Theory 渐近理论

Last updated 4 years ago