Chapter 6. Confidence Sets (Intervals) 置信区间
置信集和置信区间
$\mathcal{P}$ 是一个统计模型,$C { n } \equiv C { n } \left( X { 1 } , \ldots , X { n } \right)$ 是一个来自样本的集合
称 $C_n$ 是 $\theta$ 的一个 $( 1 - \alpha ) 100 \%$ 的置信集,如果:
P(θ∈Cn)≥1−α for all P∈P⟺P∈PinfP(θ∈Cn)≥1−α当 $C_n= [ L ( \boldsymbol { X } ) , U ( \boldsymbol { X } ) ]$ ,则它是一个置信区间
对于一个区间估计量 $ [ L ( \boldsymbol { X } ) , U ( \boldsymbol { X } ) ]$ ,覆盖率为:
Pθ(θ∈[L(X),U(X)])置信度为:
θinfPθ(θ∈[L(X),U(X)])区间估计量和置信度合在一起,称为置信区间
构造置信区间的方法
概率不等式
将假设检验过程倒置
枢轴量
大样本近似
概率不等式
Hoeffding 不等式
对严格有界 ( $[ai,b_i]$ 之内 ) 的独立随机变量 $X { 1 } , \ldots , X _ { n }$ :
例:对于伯努利分布,随机变量的取值有界——只能取 $0,1$,可以利用该不等式:
$\hat p=\overline X, E(\overline X)=p$ ,代入不等式得到:
P(∣p^−p∣>ϵ)≤2e−2nϵ2令 $\epsilon { n } = \sqrt { \log ( 2 / \alpha ) / 2 n }$ ,则 $P \left( | \hat { p } - p | > \epsilon { n } \right) \leq \alpha$
从而得到置信度为 $( 1 - \alpha ) 100 \%$ 的置信区间 $C = \left( \hat { p } - \epsilon { n } , \hat { p } + \epsilon { n } \right)$
VC 理论
和统计学习紧密相关,包括至少四个部分
学习过程的相合性:在什么条件下,基于经验风险最小化的学习过程是相合的?
经验风险最小化(ERM, Empirical risk minimization)
机器学习的目的是根据一些训练样本,寻找一个最优的函数,使函数对输入的估计与实际输出之间的期望风险(损失函数的期望)最小化
但期望风险是无法获得的,只能利用已知的经验数据(训练样本)来代替,也即用经验风险(损失函数的算术平均值)来逼近期望风险
学习过程收敛速率的非渐近理论:学习过程收敛得有多快?
学习过程的控制和泛化能力理论:我们如何控制收敛速度(泛化能力)?
泛化能力
学习到的模型对未知数据的预测能力——学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出
在实际情况中,我们通常通过测试误差(期望风险)来评价学习方法的泛化能力
构建学习机器的理论:我们如何构建算法来控制泛化能力?
置信带
$Fn=F { n } ( x ) = \frac { 1 } { n } \sum { i = 1 } ^ { n } I { \left( X _ { i } \leq t \right) }$ 是样本的经验分布函数( $0-1$ 损失的经验风险)
由 VC 理论:
P(xsup∣Fn(x)−F(x)∣>ϵ)≤e−2nϵ2令 $\epsilon { n } = \sqrt { \log ( 2 / \alpha ) / 2 n }$ ,则 $P \left( \sup { x } \left| F { n } ( x ) - F ( x ) \right| > \epsilon { n } \right) \leq \alpha$
$P { F } ( L ( t ) \leq F ( t ) \leq U ( t ) \text { for all } t ) \geq 1 - \alpha$ ,其中 $L ( t ) = \widehat { F } { n } - \epsilon { n } $,$U ( t ) = \widehat { F } { n } + \epsilon _ { n }$ ——置信带,包含整体未知函数曲线的概率是 $1-\alpha$
将检验倒置
检验的接受域和置信集满足如下定理:
任取参数空间中的 $\theta_0$ ,$A(\theta_0)$ 是一个 level-$\alpha$ 检验的接受域,零假设为 $\theta=\theta_0$ ,则:
Pθ0(X∈/A(θ0))≤α⇒Pθ0(X∈A(θ0))≥1−α定义一个参数空间的子集 $C(X)$ 满足:
C(X)={θ0:X∈A(θ0)}显然有:
θ∈C(X)⟺X∈A(θ)P(θ∈C(X))=P(X∈A(θ))则 $C(X)$ 就是一个 $1-\alpha$ 置信集,任取 $\theta$ :
Pθ(θ∈C(X))≥1−α相反的过程也是成立的
从而 level-$\alpha$ 检验的接受域和 $1-\alpha$ 置信集一一对应
单侧置信区间
倒置单侧检验可以得到单侧置信区间
例:正态分布,构造参数 $\mu$ 的 $1-\alpha$ 置信区间:
C(x)=(−∞,U(x)]倒置单侧检验:$H { 0 } : \mu = \mu { 0 } \text { versus } H { 1 } : \mu < \mu { 0 }$
size-$\alpha$ 的 LRT 拒绝零假设的条件是:
S/nX−μ0<−tn−1,α接受域:
A(μ0)={x:x≥μ0−tn−1,αns}单侧置信区间:
C(x)={μ0:x≥μ0−tn−1,αns}U(x)=x+tn−1,αns
枢轴量
如果函数 $Q \left( X { 1 } , \ldots , X { n } , \theta \right)$ 的分布与 $\theta$ 无关,则它为枢轴量
例如正态分布 $N(\theta,1)$ ,$\overline X-\theta\sim N(0,1/n)$ 为一个枢轴量
如果对于所有 $\theta$ 有:
Pθ(a≤Q(X,θ)≤b)=1−α那么可以得到 $1-\alpha$ 置信区间:
C(x)={θ:a≤Q(x,θ)≤b}例:均匀分布 $Uniform(0,\theta)$
令 $Q=X_{(n)}/\theta$ ,则:
P(Q≤t)=i∏P(Xi≤tθ)=tn即 $Q$ 是一个枢轴量
由于 $P(0\le Q\le c_n)=\alpha,c_n=\alpha^{1/n}$ ,有
1−α=P(cn≤Q≤1)=P(cn≤θX(n)≤1)=P(X(n)≤θ≤cnX(n))从而一个 $1-\alpha$ 置信区间是:
(X(n),α1/nX(n))
基于大样本的置信区间
Wald 区间
正则条件下,对于样本容量为 $n$ 的样本,我们有:
seθ−θ→dN(0,1)这里 $\hat\theta$ 是 MLE ,$s e = 1 / \sqrt { I_ { n } ( \widehat { \theta } ) }$ ,从而这是一个渐近的枢轴量
一个渐近的置信区间为:
(θ−z1−α/2se,θ+z1−α/2se)对于 $\theta$ 的函数 $\pi(\theta)$ ,利用 Delta 方法得到:
seπ(θ^)−π(θ)→dN(0,∣π′(θ^)∣2)一个置信区间为:
(π(θ)−z1−α/2seπ′(θ),π(θ)+z1−α/2seπ′(θ))
基于似然函数的置信集
$H { 0 } : \theta = \theta { 0 } \text { versus }H { 1 } : \theta \neq \theta { 0 }$ ,$\theta$ 是 $k\times1$ 向量
第5章中给出:在零假设下,$T { n } = - 2 \log \lambda \left( x { 1 } , \ldots , x { n } \right) \stackrel { d } { \rightarrow } \chi { r } ^ { 2 }$ ,其中 $r = \operatorname { dim } ( \Theta ) - \operatorname { dim } \left( \Theta _ { 0 } \right)$
渐近的接受域:
Aθ={X:λ(X)>e−χk,1−α2/2}渐近的置信区间:
Cn={θ:λ(x)>e−χk,1−α2/2}例:伯努利分布:$X { 1 } , \ldots , X { n } \sim \text { Bernoulli } ( p )$ ,记 MLE 为 $\hat p$
分布函数:
f(X;p)={p,X=11−p,X=0logf(X;p)={logp,X=1log(1−p),X=0
一维的 Wald 检验
1/I(θ^)n(p^−p)∼N(0,1)I(θ)=−E[∂p2∂2logf(xi;p)]=p2p+(1−p)21−p=p1+1−p1=p(1−p)1从而:
p^(1−p^)n(p^−p)∼N(0,1)渐近的置信区间:
(p−z1−α/2p^(1−p^)/n,p+z1−α/2p^(1−p^)/n)LRTs
记 $\sum X_i=Y$
λ(x)=p^Y(1−p^)n−Yp0Y(1−p0)n−Y而置信集为:
Cn={p:−2log(p^Y(1−p^)n−YpY(1−p)n−Y)≤χ1,1−α2}由 $p_0$ 的任意性已经将其记为 $p$
虽然两个置信区间不同,但在大样本下它们几乎是相同的
贝叶斯区间
置信集是频率学派的产物,贝叶斯学派使用可信集
令 $\pi(\theta|x)$ 是 $\theta$ 在给定样本 $X=x$ 后的后验分布,对参数空间的任意一个子集 $A$ ,可信概率是:
P(θ∈A∣x)=∫Aπ(θ∣x)dθ且 $A$ 是参数的一个可信集
正态分布的区间估计补充
已知 $\sigma^2$ 估计 $\mu$
X∼N(μ,nσ2)⇒σ2/nX−μ∼N(0,1)⇒μ∈[X−nσ2z1−α/2,X+nσ2z1−α/2]未知 $\sigma^2$ 估计 $\mu$ ,用无偏估计量 $S^2$ 代替 $\sigma^2$
T=S2/nX−μ=S2/σ2n(X−μ)/σ不服从标准正态分布
有一组有用的引理:
令 $X { 1 } , \ldots , X { n }$ 是来自正态分布的随机样本,则:
均值和方差是独立随机样本
$\overline { X } \sim N \left( \mu , \sigma ^ { 2 } / n \right)$
$( n - 1 ) S ^ { 2 } / \sigma ^ { 2 }\sim\chi^2_{n-1}$
则 $T$ 的分子分母独立,且分子 $\sim N(0,1)$ ,${n-1}$ 倍的分母 $\sim{\chi^2(n-1)}$ ,则这是一个自由度为 $n-1$ 的 t 分布
⇒μ∈[X−ns2tn−1,α/2,X+ns2tn−1,α/2]未知 $\mu $ 估计 $\sigma^2$ ,用无偏估计量 $\overline X$ 代替 $\mu $
(n−1)S2/σ2∼χn−12查 $\chi^2$ 表找到 $\lambda_1,\lambda_2$ 使得:
P(Y<λ1)=P(Y>λ2)=2α⇒σ2∈[λ1(n−1)S2,λ2(n−1)S2]
Last updated