Chapter 6. Confidence Sets (Intervals) 置信区间

置信集和置信区间

  • $\mathcal{P}$ 是一个统计模型,$C { n } \equiv C { n } \left( X { 1 } , \ldots , X { n } \right)$ 是一个来自样本的集合

  • 称 $C_n$ 是 $\theta$ 的一个 $( 1 - \alpha ) 100 \%$ 的置信集,如果:

    P(θCn)1α for all PPP \left( \theta \in C _ { n } \right) \geq 1 - \alpha \text { for all } P \in \mathcal { P }
        infPPP(θCn)1α\iff \inf _ { P \in \mathcal { P } } P \left( \theta \in C _ { n } \right) \geq 1 - \alpha
  • 当 $C_n= [ L ( \boldsymbol { X } ) , U ( \boldsymbol { X } ) ]$ ,则它是一个置信区间

    • 对于一个区间估计量 $ [ L ( \boldsymbol { X } ) , U ( \boldsymbol { X } ) ]$ ,覆盖率为:

      Pθ(θ[L(X),U(X)])P _ { \theta } ( \theta \in [ L ( \boldsymbol { X } ) , U ( \boldsymbol { X } ) ] )
    • 置信度为:

      infθPθ(θ[L(X),U(X)])\inf _ { \theta } P _ { \theta } ( \theta \in [ L ( \boldsymbol { X } ) , U ( \mathbf { X } ) ] )
    • 区间估计量和置信度合在一起,称为置信区间

构造置信区间的方法

  • 概率不等式

  • 将假设检验过程倒置

  • 枢轴量

  • 大样本近似

概率不等式

Hoeffding 不等式

对严格有界 ( $[ai,b_i]$ 之内 ) 的独立随机变量 $X { 1 } , \ldots , X _ { n }$ :

P(XE(X)t)2exp(2n2t2i=1n(biai)2)P ( | \overline { X } - E ( \overline { X } ) | \geq t ) \leq 2 \exp \left( - \frac { 2 n ^ { 2 } t ^ { 2 } } { \sum _ { i = 1 } ^ { n } \left( b _ { i } - a _ { i } \right) ^ { 2 } } \right)
  • 例:对于伯努利分布,随机变量的取值有界——只能取 $0,1$,可以利用该不等式:

    • $\hat p=\overline X, E(\overline X)=p$ ,代入不等式得到:

      P(p^p>ϵ)2e2nϵ2P ( | \hat { p } - p | > \epsilon ) \leq 2 e ^ { - 2 n \epsilon ^ { 2 } }
    • 令 $\epsilon { n } = \sqrt { \log ( 2 / \alpha ) / 2 n }$ ,则 $P \left( | \hat { p } - p | > \epsilon { n } \right) \leq \alpha$

    • 从而得到置信度为 $( 1 - \alpha ) 100 \%$ 的置信区间 $C = \left( \hat { p } - \epsilon { n } , \hat { p } + \epsilon { n } \right)$

VC 理论

  • 和统计学习紧密相关,包括至少四个部分

    • 学习过程的相合性:在什么条件下,基于经验风险最小化的学习过程是相合的?

      经验风险最小化(ERM, Empirical risk minimization)

      • 机器学习的目的是根据一些训练样本,寻找一个最优的函数,使函数对输入的估计与实际输出之间的期望风险(损失函数的期望)最小化

      • 但期望风险是无法获得的,只能利用已知的经验数据(训练样本)来代替,也即用经验风险(损失函数的算术平均值)来逼近期望风险

    • 学习过程收敛速率的非渐近理论:学习过程收敛得有多快?

    • 学习过程的控制和泛化能力理论:我们如何控制收敛速度(泛化能力)?

      泛化能力

      • 学习到的模型对未知数据的预测能力——学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出

      • 在实际情况中,我们通常通过测试误差(期望风险)来评价学习方法的泛化能力

    • 构建学习机器的理论:我们如何构建算法来控制泛化能力?

  • 置信带

    • $Fn=F { n } ( x ) = \frac { 1 } { n } \sum { i = 1 } ^ { n } I { \left( X _ { i } \leq t \right) }$ 是样本的经验分布函数( $0-1$ 损失的经验风险)

    • 由 VC 理论:

      P(supxFn(x)F(x)>ϵ)e2nϵ2P \left( \sup _ { x } \left| F _ { n } ( x ) - F ( x ) \right| > \epsilon \right) \leq e ^ { - 2 n \epsilon ^ { 2 } }
    • 令 $\epsilon { n } = \sqrt { \log ( 2 / \alpha ) / 2 n }$ ,则 $P \left( \sup { x } \left| F { n } ( x ) - F ( x ) \right| > \epsilon { n } \right) \leq \alpha$

    • $P { F } ( L ( t ) \leq F ( t ) \leq U ( t ) \text { for all } t ) \geq 1 - \alpha$ ,其中 $L ( t ) = \widehat { F } { n } - \epsilon { n } $,$U ( t ) = \widehat { F } { n } + \epsilon _ { n }$ ——置信带,包含整体未知函数曲线的概率是 $1-\alpha$

将检验倒置

  • 检验的接受域和置信集满足如下定理:

    • 任取参数空间中的 $\theta_0$ ,$A(\theta_0)$ 是一个 level-$\alpha$ 检验的接受域,零假设为 $\theta=\theta_0$ ,则:

      Pθ0(XA(θ0))αPθ0(XA(θ0))1αP _ { \theta _ { 0 } } \left( X \notin A \left( \theta _ { 0 } \right) \right) \leq \alpha\Rightarrow P _ { \theta _ { 0 } } \left( X \in A \left( \theta _ { 0 } \right) \right) \geq 1 - \alpha
    • 定义一个参数空间的子集 $C(X)$ 满足:

      C(X)={θ0:XA(θ0)}C ( X ) = \left\{ \theta _ { 0 } : X \in A \left( \theta _ { 0 } \right) \right\}

      显然有:

      θC(X)    XA(θ)\theta\in C(X)\iff X\in A(\theta)
      P(θC(X))=P(XA(θ))P(\theta\in C(X))=P(X\in A(\theta))
    • 则 $C(X)$ 就是一个 $1-\alpha$ 置信集,任取 $\theta$ :

      Pθ(θC(X))1αP _ { \theta } ( \theta \in C ( { X } ) ) \ge 1 - \alpha
    • 相反的过程也是成立的

    • 从而 level-$\alpha$ 检验的接受域和 $1-\alpha$ 置信集一一对应

  • 单侧置信区间

    • 倒置单侧检验可以得到单侧置信区间

    • 例:正态分布,构造参数 $\mu$ 的 $1-\alpha$ 置信区间:

      C(x)=(,U(x)]C(x)=(-\infty,U(x)]
      • 倒置单侧检验:$H { 0 } : \mu = \mu { 0 } \text { versus } H { 1 } : \mu < \mu { 0 }$

      • size-$\alpha$ 的 LRT 拒绝零假设的条件是:

        Xμ0S/n<tn1,α\frac { \overline { X } - \mu _ { 0 } } { S / \sqrt { n } } < - t _ { n - 1 , \alpha }
      • 接受域:

        A(μ0)={x:xμ0tn1,αsn}A \left( \mu _ { 0 } \right) = \left\{ x : \overline { x } \geq \mu _ { 0 } - t _ { n - 1 , \alpha } \frac { s } { \sqrt { n } } \right\}
      • 单侧置信区间:

        C(x)={μ0:xμ0tn1,αsn}C (x ) = \left\{ \mu _ { 0 } : \overline { x } \geq \mu _ { 0 } - t _ { n - 1 , \alpha } \frac { s } { \sqrt { n } } \right\}
        U(x)=x+tn1,αsnU(x)=\overline x+t _ { n - 1 , \alpha } \frac { s } { \sqrt { n } }

枢轴量

  • 如果函数 $Q \left( X { 1 } , \ldots , X { n } , \theta \right)$ 的分布与 $\theta$ 无关,则它为枢轴量

  • 例如正态分布 $N(\theta,1)$ ,$\overline X-\theta\sim N(0,1/n)$ 为一个枢轴量

  • 如果对于所有 $\theta$ 有:

    Pθ(aQ(X,θ)b)=1αP _ { \theta } ( a \leq Q ( X , \theta ) \leq b ) = 1 - \alpha

    那么可以得到 $1-\alpha$ 置信区间:

    C(x)={θ:aQ(x,θ)b}C ( x) = \{ \theta : a \leq Q ( x , \theta ) \leq b \}
  • 例:均匀分布 $Uniform(0,\theta)$

    • 令 $Q=X_{(n)}/\theta$ ,则:

      P(Qt)=iP(Xitθ)=tnP ( Q \leq t ) = \prod _ { i } P \left( X _ { i } \leq t \theta \right) = t ^ { n }

      即 $Q$ 是一个枢轴量

    • 由于 $P(0\le Q\le c_n)=\alpha,c_n=\alpha^{1/n}$ ,有

      1α=P(cnQ1)=P(cnX(n)θ1)=P(X(n)θX(n)cn)\begin{align*} 1 - \alpha & = P \left( c _ { n } \leq Q \leq 1 \right) \\ & = P \left( c _ { n } \leq \frac { X _ { ( n ) } } { \theta } \leq 1 \right) \\ & = P \left( X _ { ( n ) } \leq \theta \leq \frac { X _ { ( n ) } } { c _ { n } } \right) \end{align*}
    • 从而一个 $1-\alpha$ 置信区间是:

      (X(n),X(n)α1/n)\left( X _ { ( n ) } , \frac { X _ { ( n ) } } { \alpha ^ { 1 / n } } \right)

基于大样本的置信区间

Wald 区间

  • 正则条件下,对于样本容量为 $n$ 的样本,我们有:

    θ^θsedN(0,1)\frac { \widehat { \theta } - \theta } { s e } \stackrel { d } { \rightarrow } N ( 0,1 )

    这里 $\hat\theta$ 是 MLE ,$s e = 1 / \sqrt { I_ { n } ( \widehat { \theta } ) }$ ,从而这是一个渐近的枢轴量

  • 一个渐近的置信区间为:

    (θ^z1α/2se,θ^+z1α/2se)\left( \widehat { \theta } - z _ { 1 - \alpha / 2 } s e , \widehat { \theta } + z _ { 1 - \alpha / 2 } s e \right)
  • 对于 $\theta$ 的函数 $\pi(\theta)$ ,利用 Delta 方法得到:

    π(θ^)π(θ)sedN(0,π(θ^)2)\frac { \pi(\hat { \theta } ) - \pi(\theta) } { s e } \stackrel { d } { \rightarrow } N ( 0,|\pi'(\hat\theta)|^2 )

    一个置信区间为:

    (π(θ^)z1α/2seπ(θ^),π(θ^)+z1α/2seπ(θ^))\left( \pi (\widehat { \theta } ) - z _ { 1 - \alpha / 2 } \operatorname { se } \left| \pi ^ { \prime } ( \widehat { \theta } ) \right| , \pi ( \widehat { \theta } ) + z _ { 1 - \alpha / 2 } \operatorname { se } \left| \pi ^ { \prime } ( \widehat { \theta } ) \right| \right)

基于似然函数的置信集

  • $H { 0 } : \theta = \theta { 0 } \text { versus }H { 1 } : \theta \neq \theta { 0 }$ ,$\theta$ 是 $k\times1$ 向量

  • 第5章中给出:在零假设下,$T { n } = - 2 \log \lambda \left( x { 1 } , \ldots , x { n } \right) \stackrel { d } { \rightarrow } \chi { r } ^ { 2 }$ ,其中 $r = \operatorname { dim } ( \Theta ) - \operatorname { dim } \left( \Theta _ { 0 } \right)$

  • 渐近的接受域:

    Aθ={X:λ(X)>eχk,1α2/2}A _ { \theta } = \left\{ X : \lambda(X) > e ^ { - \chi _ { k , 1 - \alpha } ^ { 2 } / 2 } \right\}

    渐近的置信区间:

    Cn={θ:λ(x)>eχk,1α2/2}C_n = \left\{ \theta : \lambda(x) > e ^ { - \chi _ { k , 1 - \alpha } ^ { 2 } / 2 } \right\}
  • 例:伯努利分布:$X { 1 } , \ldots , X { n } \sim \text { Bernoulli } ( p )$ ,记 MLE 为 $\hat p$

    • 分布函数:

      f(X;p)={p,X=11p,X=0f(X;p)=\left\{ \begin{array}{c} p,\quad X=1\\ 1-p,\quad X=0 \end{array} \right.
      logf(X;p)={logp,X=1log(1p),X=0\log f(X;p)=\left\{ \begin{array}{c} \log p,\quad X=1\\ \log (1-p),\quad X=0 \end{array} \right.
  • 一维的 Wald 检验

    n(p^p)1/I(θ^)N(0,1)\frac{\sqrt{n}(\hat p-p)}{\sqrt{1/\mathcal{I(\hat\theta)}}}\sim N(0,1)
    I(θ)=E[2p2logf(xi;p)]=pp2+1p(1p)2=1p+11p=1p(1p)\begin{align*} \mathcal{I}(\theta)&=-E\left[\frac{\partial^2}{\partial p^2}\log f(x_i;p)\right]\\ &=\frac{p}{p^2}+\frac{1-p}{(1-p)^2}\\ &=\frac{1}{p}+\frac{1}{1-p}=\frac{1}{p(1-p)} \end{align*}

    从而:

    n(p^p)p^(1p^)N(0,1)\frac{\sqrt{n}(\hat p-p)}{\sqrt{\hat p(1-\hat p)}}\sim N(0,1)

    渐近的置信区间:

    (p^z1α/2p^(1p^)/n,p^+z1α/2p^(1p^)/n)\left( \widehat { p } - z _ { 1 - \alpha / 2 } \sqrt{\hat p(1-\hat p)/n} , \widehat { p } + z _ { 1 - \alpha / 2 } \sqrt{\hat p(1-\hat p)/n} \right)
  • LRTs

    记 $\sum X_i=Y$

    λ(x)=p0Y(1p0)nYp^Y(1p^)nY\lambda(x)=\frac{ p_0^Y(1- p_0)^{n-Y}}{\hat p^Y(1-\hat p)^{n-Y}}

    而置信集为:

    Cn={p:2log(pY(1p)nYp^Y(1p^)nY)χ1,1α2}C_n = \left\{ p : - 2 \log \left( \frac { p ^ { Y } ( 1 - p ) ^ { n - Y } } { \hat { p } ^ { Y } ( 1 - \hat { p } ) ^ { n - Y } } \right) \leq \chi _ { 1,1 - \alpha } ^ { 2 } \right\}

    由 $p_0$ 的任意性已经将其记为 $p$

  • 虽然两个置信区间不同,但在大样本下它们几乎是相同的

贝叶斯区间

  • 置信集是频率学派的产物,贝叶斯学派使用可信集

  • 令 $\pi(\theta|x)$ 是 $\theta$ 在给定样本 $X=x$ 后的后验分布,对参数空间的任意一个子集 $A$ ,可信概率是:

    P(θAx)=Aπ(θx)dθP ( \theta \in A | x ) = \int _ { A } \pi ( \theta | x ) \text{d}\theta

    且 $A$ 是参数的一个可信集

正态分布的区间估计补充

  • 已知 $\sigma^2$ 估计 $\mu$

    XN(μ,σ2n)Xμσ2/nN(0,1)μ[Xσ2nz1α/2,X+σ2nz1α/2]\overline{X}\sim N(\mu,\frac{\sigma^2}{n})\\ \Rightarrow\frac{\overline X-\mu}{\sqrt{\sigma^2/n}}\sim N(0,1)\\ \Rightarrow\mu\in\left[\overline X-\sqrt{\frac{\sigma^2}{n}}z_{1-\alpha/2},\overline X+\sqrt{\frac{\sigma^2}{n}}z_{1-\alpha/2}\right]
  • 未知 $\sigma^2$ 估计 $\mu$ ,用无偏估计量 $S^2$ 代替 $\sigma^2$

    T=XμS2/n=n(Xμ)/σS2/σ2T=\frac{\overline X-\mu}{\sqrt{S^2/n}}=\frac{\sqrt{n}(\overline X-\mu)/\sigma}{\sqrt{ S ^ { 2 } / \sigma ^ { 2 }}}

    不服从标准正态分布

    有一组有用的引理:

    • 令 $X { 1 } , \ldots , X { n }$ 是来自正态分布的随机样本,则:

      1. 均值和方差是独立随机样本

      2. $\overline { X } \sim N \left( \mu , \sigma ^ { 2 } / n \right)$

      3. $( n - 1 ) S ^ { 2 } / \sigma ^ { 2 }\sim\chi^2_{n-1}$

    则 $T$ 的分子分母独立,且分子 $\sim N(0,1)$ ,${n-1}$ 倍的分母 $\sim{\chi^2(n-1)}$ ,则这是一个自由度为 $n-1$ 的 t 分布

    μ[Xs2ntn1,α/2,X+s2ntn1,α/2]\Rightarrow\mu\in\left[\overline X-\sqrt{\frac{s^2}{n}}t_{n-1,\alpha/2},\overline X+\sqrt{\frac{s^2}{n}}t_{n-1,\alpha/2}\right]
  • 未知 $\mu $ 估计 $\sigma^2$ ,用无偏估计量 $\overline X$ 代替 $\mu $

    (n1)S2/σ2χn12( n - 1 ) S ^ { 2 } / \sigma ^ { 2 }\sim\chi^2_{n-1}

    查 $\chi^2$ 表找到 $\lambda_1,\lambda_2$ 使得:

    P(Y<λ1)=P(Y>λ2)=α2σ2[(n1)S2λ1,(n1)S2λ2]P(Y<\lambda_1)=P(Y>\lambda_2)=\frac{\alpha}{2}\\ \Rightarrow \sigma^2\in\left[\frac{( n - 1 ) S ^ { 2 }} {\lambda_1},\frac{( n - 1 ) S ^ { 2 }} {\lambda_2}\right]

Last updated