Notes
  • Notes
  • 恒星结构与演化
    • Chapter 7. Equation of State
    • Chapter 3. Virial Theorem
    • Chapter 11. Main Sequence
    • Chapter 4. Energy Conservation
    • Chapter 12. Post-Main Sequence
    • Chapter 2. Hydrostatic Equilibrium
    • Chapter 6. Convection
    • Chapter 9. Nuclear Reactions
    • Chapter 10 Polytrope
    • Chapter 8. Opacity
    • Chapter 14. Protostar
    • Chapter 13. Star Formation
    • Chapter 5. Energy Transport
  • 天体光谱学
    • Chapter 6 气体星云光谱
    • Chapter 5 磁场中的光谱
    • Chapter 7 X-射线光谱
    • Chapter 3 碱金属原子
    • Chapter 1 光谱基础知识
    • Chapter 9 分子光谱
    • Chapter 4 复杂原子
    • Chapter 2 氢原子光谱
  • 物理宇宙学基础
    • Chapter 2 Newtonian Cosmology
    • Chapter 1 Introduction
    • Chapter 5* Monochromatic Flux, K-correction
    • Chapter 9 Dark Matter
    • Chapter 10 Recombination and CMB
    • Chapter 8 Primordial Nucleosynthesis
    • Chapter 7 Thermal History of the Universe
    • Chapter 6 Supernova cosmology
    • Chapter 5 Redshifts and Distances
    • Chapter 4 World Models
    • Chapter 3 Relativistic Cosmology
  • 数理统计
    • Chapter 6. Confidence Sets (Intervals) 置信区间
    • Chapter 1. Data Reduction 数据压缩
    • Chapter 7. Two Sample Comparisons 两个样本的比较
    • Chapter 3. Decision Theory 统计决策
    • Chapter 4. Asymptotic Theory 渐近理论
    • Chapter 5. Hypothesis Testing 假设检验
    • Chapter 9. Linear Models 线性模型
    • Chapter 10 Model Selection 模型选择
    • Chapter 2. Estimation 估计
    • Chapter 11 Mathematical Foundation in Causal Inference 因果推断中的数理基础
    • Chapter 8. Analysis of Variance 方差分析
  • 天体物理动力学
    • Week8: Orbits
    • Week7: Orbits
    • Week6: Orbits
    • Week5: Orbits
    • Week4: Orbits
    • Week3: Potential Theory
    • Week2
    • Week1
  • 天体物理吸积过程
    • Chapter 4. Spherically Symmetric Flow
    • Chapter 2. Fluid Dynamics
    • Chapter 5. Accretion Disk Theory
    • Chapter 3. Compressible Fluid
  • 天文技术与方法
    • Chapter1-7
  • 理论天体物理
    • Chapter 6 生长曲线的理论和应用
    • Chapter 5 线吸收系数
    • Chapter 4 吸收线内的辐射转移
    • Chapter 3 恒星大气模型和恒星连续光谱
    • Chapter 2 恒星大气的连续不透明度
    • Chapter 1 恒星大气辐射理论基础
  • 常微分方程
    • 线性微分方程组
    • 高阶微分方程
    • 奇解
    • 存在和唯一性定理
    • 初等积分法
    • 基本概念
  • 天体物理观测实验
Powered by GitBook
On this page
  • Discrepancy Criteria
  • 常用的Discrepancy (统计差异)
  • 模型选择方法
  • AIC——最佳预测
  • Cross-Validation——最佳预测
  • BIC——真实模型
  1. 数理统计

Chapter 10 Model Selection 模型选择

PreviousChapter 9. Linear Models 线性模型NextChapter 2. Estimation 估计

Last updated 4 years ago

Discrepancy Criteria

  • 在比较不同模型的表现时,使用一个measure来代表lack of fit,与真模型比较

  • 拟合不足的衡量——discrepancy

  • $g^{(I)}_\theta$ 是 $I$ 个等宽区间直方图的pdf

  • Discrepancy due to approximation (和真模型的差距,偏差)

    Δ(f,gθ(I))=∫0100(f(x)−gθ(I))2dx\Delta(f,g^{(I)}_\theta)=\int_0^{100}(f(x)-g^{(I)}_\theta)^2\text{d}xΔ(f,gθ(I)​)=∫0100​(f(x)−gθ(I)​)2dx
  • Discrepancy due to estimation (估计精确度决定,方差)

    Δ(f,gθ(I))=∫0100(gθ^(I)−gθ(I))2dx\Delta(f,g^{(I)}_\theta)=\int_0^{100}(g^{(I)}_{\hat \theta}-g^{(I)}_\theta)^2\text{d}xΔ(f,gθ(I)​)=∫0100​(gθ^(I)​−gθ(I)​)2dx

常用的Discrepancy (统计差异)

  • Kullback-Leibler Discrepancy

    Δ=−EF(log⁡gθ(X))=−∫log⁡gθ(x)f(x)dx\Delta=-E_F(\log g_\theta(X))=-\int\log g_\theta(x)f(x) \text{d} xΔ=−EF​(loggθ​(X))=−∫loggθ​(x)f(x)dx
  • Pearson chi-squared discrepancy

    Δ=−∑x(f(x)−gθ)2/gθ\Delta=-\sum_x(f(x)-g_\theta)^2/g_\thetaΔ=−x∑​(f(x)−gθ​)2/gθ​
  • Gauss discrepancy

    Δ=∑x(f(x)−gθ)2\Delta =\sum_x(f(x)-g_\theta)^2Δ=x∑​(f(x)−gθ​)2
  • 差异的期望(参数未知,只能求出期望):差异的期望的估计量被称为模型选择标准——与样本无关

  • 渐近标准

模型选择方法

  • 找到给出最佳预测的模型,不对模型真实性进行假设

  • 假定其中一个模型是真实模型,再找出这个模型

AIC——最佳预测

  • 假定有 $k$ 个模型 $M_i$ ,$n$ 个数据 $Y_i$ 来自 分布函数 $p$ ,$p$ 不一定在这些模型中

  • $\hat\theta_j$ 是模型 $j$ 的 MLE ,$p$ 的估计量 $\hat p(y)=p(y;\hat\theta_j)$

  • Kullback-Leibler Disdance:

    使其最小化相当于使下式最大化(与 $j$ 有关的部分)

  • 均值为:

    但偏差很大,因为数据被用了两次(选模型、作推断)

  • Akaike 证明了偏差大约为 $d_j/n=\dim (\Theta_j)/n$ ,在参数空间维度不太大的时候偏差不大

  • 从而可以使用估计量:

    定义:

    $2n$ 的选择要考虑到历史的进程

Cross-Validation——最佳预测

  • 把数据分为训练集和测试集,通常这样的划分会进行多次并取平均值——每一次推断过程中避免数据的重复使用

  • 简单起见,只划分一次

  • $k$ 个模型,$2n$ 个数据点,随机分为 $D=(Y_1,\cdots,Y_n),T=(Y^_1,\cdots,Y^_n)$

  • 用 $D$ 去找 MLE $\hat\theta_j$

  • 用 $T$ 中的数据定义(不需要消除偏差):

    可以证明:

BIC——真实模型

  • BIC——贝叶斯信息标准

    penalty 更大,倾向于选择更简单的模型

  • $M_1 $ $M_2$ ,先验分布 $p(M_1),P(M_2)$

  • 收集数据之后,计算:

K(p,p^j)=∫p(y)log⁡p(y)p^j(y)dyK(p,\hat p_j)=\int p(y)\log\frac{p(y)}{\hat p_j(y)}\text{d} yK(p,p^​j​)=∫p(y)logp^​j​(y)p(y)​dy
Kj=∫p(y)log⁡p^j(y)dy=E(log⁡p(Yj;θ^j))K_j=\int p(y)\log \hat p_j(y)\text{d} y=E(\log p(Y_j;\hat \theta_j))Kj​=∫p(y)logp^​j​(y)dy=E(logp(Yj​;θ^j​))
K‾j=1n∑log⁡p(Yj;θj)=lj(θ^j)n\overline K_j=\frac{1}{n}\sum\log p(Y_j;\theta_j)=\frac{l_j(\hat \theta_j)}{n}Kj​=n1​∑logp(Yj​;θj​)=nlj​(θ^j​)​
K^j=K‾j−djn\widehat K_j=\overline K_j-\frac{d_j}{n}Kj​=Kj​−ndj​​
AIC(j)=2nK^j=2lj(θ^j)−2djAIC(j)=2n\widehat K_j=2l_j(\hat\theta_j)-2d_jAIC(j)=2nKj​=2lj​(θ^j​)−2dj​
K^j=1n∑log⁡p(Yi∗;θ^j)\widehat K_j=\frac{1}{n}\sum\log p(Y_i^*;\hat\theta_j)Kj​=n1​∑logp(Yi∗​;θ^j​)
E(K^j)=KE(\widehat K_j)=KE(Kj​)=K
BIC(j)=lj(θ^j)−dj2log⁡nBIC(j)=l_j(\hat\theta_j)-\frac{d_j}{2}\log nBIC(j)=lj​(θ^j​)−2dj​​logn
p(M1∣D)p()\frac{p(M_1|D)}{p({})}p()p(M1​∣D)​