Chapter 6. Confidence Sets (Intervals) 置信区间
置信集和置信区间
$\mathcal{P}$ 是一个统计模型,$C { n } \equiv C { n } \left( X { 1 } , \ldots , X { n } \right)$ 是一个来自样本的集合
称 $C_n$ 是 $\theta$ 的一个 $( 1 - \alpha ) 100 \%$ 的置信集,如果:
当 $C_n= [ L ( \boldsymbol { X } ) , U ( \boldsymbol { X } ) ]$ ,则它是一个置信区间
对于一个区间估计量 $ [ L ( \boldsymbol { X } ) , U ( \boldsymbol { X } ) ]$ ,覆盖率为:
置信度为:
区间估计量和置信度合在一起,称为置信区间
构造置信区间的方法
概率不等式
将假设检验过程倒置
枢轴量
大样本近似
概率不等式
Hoeffding 不等式
对严格有界 ( $[ai,b_i]$ 之内 ) 的独立随机变量 $X { 1 } , \ldots , X _ { n }$ :
例:对于伯努利分布,随机变量的取值有界——只能取 $0,1$,可以利用该不等式:
$\hat p=\overline X, E(\overline X)=p$ ,代入不等式得到:
令 $\epsilon { n } = \sqrt { \log ( 2 / \alpha ) / 2 n }$ ,则 $P \left( | \hat { p } - p | > \epsilon { n } \right) \leq \alpha$
从而得到置信度为 $( 1 - \alpha ) 100 \%$ 的置信区间 $C = \left( \hat { p } - \epsilon { n } , \hat { p } + \epsilon { n } \right)$
VC 理论
和统计学习紧密相关,包括至少四个部分
学习过程的相合性:在什么条件下,基于经验风险最小化的学习过程是相合的?
经验风险最小化(ERM, Empirical risk minimization)
机器学习的目的是根据一些训练样本,寻找一个最优的函数,使函数对输入的估计与实际输出之间的期望风险(损失函数的期望)最小化
但期望风险是无法获得的,只能利用已知的经验数据(训练样本)来代替,也即用经验风险(损失函数的算术平均值)来逼近期望风险
学习过程收敛速率的非渐近理论:学习过程收敛得有多快?
学习过程的控制和泛化能力理论:我们如何控制收敛速度(泛化能力)?
泛化能力
学习到的模型对未知数据的预测能力——学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出
在实际情况中,我们通常通过测试误差(期望风险)来评价学习方法的泛化能力
构建学习机器的理论:我们如何构建算法来控制泛化能力?
置信带
$Fn=F { n } ( x ) = \frac { 1 } { n } \sum { i = 1 } ^ { n } I { \left( X _ { i } \leq t \right) }$ 是样本的经验分布函数( $0-1$ 损失的经验风险)
由 VC 理论:
令 $\epsilon { n } = \sqrt { \log ( 2 / \alpha ) / 2 n }$ ,则 $P \left( \sup { x } \left| F { n } ( x ) - F ( x ) \right| > \epsilon { n } \right) \leq \alpha$
$P { F } ( L ( t ) \leq F ( t ) \leq U ( t ) \text { for all } t ) \geq 1 - \alpha$ ,其中 $L ( t ) = \widehat { F } { n } - \epsilon { n } $,$U ( t ) = \widehat { F } { n } + \epsilon _ { n }$ ——置信带,包含整体未知函数曲线的概率是 $1-\alpha$
将检验倒置
检验的接受域和置信集满足如下定理:
任取参数空间中的 $\theta_0$ ,$A(\theta_0)$ 是一个 level-$\alpha$ 检验的接受域,零假设为 $\theta=\theta_0$ ,则:
定义一个参数空间的子集 $C(X)$ 满足:
显然有:
则 $C(X)$ 就是一个 $1-\alpha$ 置信集,任取 $\theta$ :
相反的过程也是成立的
从而 level-$\alpha$ 检验的接受域和 $1-\alpha$ 置信集一一对应
单侧置信区间
倒置单侧检验可以得到单侧置信区间
例:正态分布,构造参数 $\mu$ 的 $1-\alpha$ 置信区间:
倒置单侧检验:$H { 0 } : \mu = \mu { 0 } \text { versus } H { 1 } : \mu < \mu { 0 }$
size-$\alpha$ 的 LRT 拒绝零假设的条件是:
接受域:
单侧置信区间:
枢轴量
如果函数 $Q \left( X { 1 } , \ldots , X { n } , \theta \right)$ 的分布与 $\theta$ 无关,则它为枢轴量
例如正态分布 $N(\theta,1)$ ,$\overline X-\theta\sim N(0,1/n)$ 为一个枢轴量
如果对于所有 $\theta$ 有:
那么可以得到 $1-\alpha$ 置信区间:
例:均匀分布 $Uniform(0,\theta)$
令 $Q=X_{(n)}/\theta$ ,则:
即 $Q$ 是一个枢轴量
由于 $P(0\le Q\le c_n)=\alpha,c_n=\alpha^{1/n}$ ,有
从而一个 $1-\alpha$ 置信区间是:
基于大样本的置信区间
Wald 区间
正则条件下,对于样本容量为 $n$ 的样本,我们有:
这里 $\hat\theta$ 是 MLE ,$s e = 1 / \sqrt { I_ { n } ( \widehat { \theta } ) }$ ,从而这是一个渐近的枢轴量
一个渐近的置信区间为:
对于 $\theta$ 的函数 $\pi(\theta)$ ,利用 Delta 方法得到:
一个置信区间为:
基于似然函数的置信集
$H { 0 } : \theta = \theta { 0 } \text { versus }H { 1 } : \theta \neq \theta { 0 }$ ,$\theta$ 是 $k\times1$ 向量
第5章中给出:在零假设下,$T { n } = - 2 \log \lambda \left( x { 1 } , \ldots , x { n } \right) \stackrel { d } { \rightarrow } \chi { r } ^ { 2 }$ ,其中 $r = \operatorname { dim } ( \Theta ) - \operatorname { dim } \left( \Theta _ { 0 } \right)$
渐近的接受域:
渐近的置信区间:
例:伯努利分布:$X { 1 } , \ldots , X { n } \sim \text { Bernoulli } ( p )$ ,记 MLE 为 $\hat p$
分布函数:
一维的 Wald 检验
从而:
渐近的置信区间:
LRTs
记 $\sum X_i=Y$
而置信集为:
由 $p_0$ 的任意性已经将其记为 $p$
虽然两个置信区间不同,但在大样本下它们几乎是相同的
贝叶斯区间
置信集是频率学派的产物,贝叶斯学派使用可信集
令 $\pi(\theta|x)$ 是 $\theta$ 在给定样本 $X=x$ 后的后验分布,对参数空间的任意一个子集 $A$ ,可信概率是:
且 $A$ 是参数的一个可信集
正态分布的区间估计补充
已知 $\sigma^2$ 估计 $\mu$
未知 $\sigma^2$ 估计 $\mu$ ,用无偏估计量 $S^2$ 代替 $\sigma^2$
不服从标准正态分布
有一组有用的引理:
令 $X { 1 } , \ldots , X { n }$ 是来自正态分布的随机样本,则:
均值和方差是独立随机样本
$\overline { X } \sim N \left( \mu , \sigma ^ { 2 } / n \right)$
$( n - 1 ) S ^ { 2 } / \sigma ^ { 2 }\sim\chi^2_{n-1}$
则 $T$ 的分子分母独立,且分子 $\sim N(0,1)$ ,${n-1}$ 倍的分母 $\sim{\chi^2(n-1)}$ ,则这是一个自由度为 $n-1$ 的 t 分布
未知 $\mu $ 估计 $\sigma^2$ ,用无偏估计量 $\overline X$ 代替 $\mu $
查 $\chi^2$ 表找到 $\lambda_1,\lambda_2$ 使得:
Last updated