第 3 章 假设检验

3.1 女士品茶

R. A. Fisher 的名著《实验设计》讲了一个最简单的实验:女士品茶。这个故事非常有名,以至于Salsburg 的统计学通俗读物就以它命名:《女士品茶:统计学如何变革了科学和生活》。

先回顾一下这个故事。在英国的Rothamsted实验站,Fisher给一位名叫Muriel Bristol的女士倒了一杯茶,但是Bristol 表示,自己更喜欢先将牛奶倒入杯中,再倒入茶(也就是大街小巷常见的奶茶)。这位女士号称能够分辨先倒茶和先倒牛奶的区别。作为实验设计的鼻祖,Fisher 当然想用实验检验一下:这位女士的味觉是否有这么敏锐?检验如下命题是否可以接受:

假设H: 该女士无此种鉴别能力

他准备了10杯调好的奶茶(两种顺序的都有)给该女士鉴别,结果那位女士竟然能够正确地分辨出10杯奶茶中的每一杯的调制顺序。

如何做出你的判断?如果Bristol并没有任何分辨能力,仅凭运气,她也可能全部答对。不过这个事件的概率是2109.77×104. 这是一个小概率事件。所以,若是Bristol全部答对,那么“她无此种鉴别能力”这个假设就和数据不太相容,可以拒绝这个假设。假如该女士只猜对了8杯,又该如何判断?更一般地,若答对k杯, 如何根据k的值做出合理的判断?这时候我们的答案可能就模棱两可了,因此有必要针对这类问题建立严格的分析框架,并给出合理的决策规则。

更多的例子:

  1. 某产品的次品率是否不超过3%

  2. 男生群体平均身高是否大于女生群体平均身高?

  3. 身高是否服从正态分布?

  4. 抽烟与慢性支气管炎是否有关?

从上述例子中不难发现,所关心的问题归纳为“是”与“否”的判断,并非给出一个具体的 数或者区间,这区别与参数估计问题。我们把这类问题称为假设检验问题(Hypothesis Tests)。

3.2 基本概念

对总体的某种规律提出一个假设,通过样本数据来推断,决定是否拒绝这一假设,这样的统计活动成为假设检验。本节考虑参数形式的假设检验,给出相关概念和假设检验的思想。

例 3.1 (Fisher’s iris flower data set) Fisher的鸢尾花数据集是个著名的数据集,是为了量化鸢尾花形态上的区别而收集得到的。它包含了三类鸢尾花——山鸢尾(Setosa)、杂色鸢尾(Versicolour)、 维吉尼亚鸢尾(Virginica)的花萼(sepal)、花瓣(petal)的长度与宽度。

下图展示了花萼长度的核密度估计以及部分数据, 完整数据点击这里

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
51 7.0 3.2 4.7 1.4 versicolor
52 6.4 3.2 4.5 1.5 versicolor
53 6.9 3.1 4.9 1.5 versicolor
101 6.3 3.3 6.0 2.5 virginica
102 5.8 2.7 5.1 1.9 virginica
103 7.1 3.0 5.9 2.1 virginica

考虑以下几个问题:

  1. 假设有个植物学家跟你说,通过基因组分析表明,山鸢尾(Setosa)花萼长度的均值是4.5cm,他这个论断是否可信?

  2. 另一位植物学家说山鸢尾(Setosa)花萼长度的均值是一个不小于4.5cm的数,但具体是多少就不清楚了,那么他这个论断是否又可信?

  3. 山鸢尾(Setosa)和杂色鸢尾(Versicolour)两种花的花萼长度的均值有没有显著差异?

不妨设X,Y分别为山鸢尾(Setosa)和杂色鸢尾(Versicolour)花萼长度的两个总体,μ1,μ2分别为它们的均值。问题1要检验μ1=4.5是否成立,问题2检验μ14.5是否成立,而问题3则检验μ1=μ2是否成立。假设检验需要明确所讨论命题及其对立的命题。比如,对于问题1,我们关心μ1=4.5以及它的对立面μ14.5哪个成立,可表示为

H0:μ1=4.5 vs. H1:μ14.5,

其中H0称为原假设/零假设(Null Hypothesis)H1称为备选假设/对立假设/备择假设(Alternative Hypothesis)。检验的目标是通过样本数据判断H0成立还是H1成立,最终的结论只能有一个。

更一般地,设总体来自某一参数分布族{F(x,θ),θΘ}, 其中Θ为参数空间,包含所有可能的参数。假设检验问题的基本形式为

H0:θΘ0 vs. H1:θΘ1,

其中Θ0,Θ1Θ,Θ0Θ1=. 最常见的情况Θ1=ΘΘ0.

简单原假设(simple null):Θ0只包含一个点,如H0:θ=θ0

复杂原假设(composite null):Θ0只包含多个点,如H0:θθ0

同样地,对于备选假设也有简单和复杂两种分类。如果原假设和备选假设都是简单的,那么称该检验是简单假设检验(simple hypothesis test)。

备选假设通常有三种形式:

  1. 双边(two-sided):H1:θθ0
  2. 单边(one-sided):H1:θ>θ0
  3. 单边(one-sided):H1:θ<θ0

假设检验基于样本数据作出接受或者拒绝H0的判断。这相当于把样本空间划分成两个互不相交的部分WˉW, 当样本属于W时就拒绝H0; 否则接受H0. 我们称W为该检验的拒绝域(rejection region),而ˉW接受域(acceptance region). 由于两者是互为补集的关系,下面只关注于拒绝域。一个拒绝域决定一种检验法则。

为了解决假设检验问题(3.1),不妨假设山鸢尾花萼长度XN(μ,0.12),其中μ未知。 由于μ未知,我们可以用ˉX作为μ的一种估计,当ˉX偏离4.5比较远时,我们就有理由拒绝H0:μ=4.5的假设,故一种可行的拒绝域为

W={x1:n:|ˉx4.5|>c}, 其中c为待定的常数。R中的iris数据集给出了50个山鸢尾花萼长度的数据,样本均值ˉx=5.006 cm。所以,|ˉx4.5|=0.506,如果0.506>c则拒绝原假设,否则接受原假设。我们后面将讨论如何选择合适的常数c

由于样本的随机性,检验不可能100%正确,有可能出现错误。注意到客观事实只有两种可能的结果,要么原假设成立,要么备择假设成立;而检验的结果也只有两种可能,接受或者拒绝原假设。因此有下列四种情况:其中两种检验结果符合实际,另外两种则与实际相悖,对应所谓的两类错误

接受原假设 拒绝原假设
原假设为真 正确 第一类(拒真, Type I)错误
备择假设为真 第二类(纳伪, Type II)错误 正确

假设检验的核心问题是如何控制犯两类错误的概率。值得注意的是,这两个概率为条件概率。犯第一类错误的概率常用α表示,其定义为:

α=P(X1:nW|H0).

犯第二类错误的概率常用β表示,其定义为:

β=P(X1:nW|H1).

对于参数假设检验(3.2),则两类错误发生的概率分别为:

α=Pθ(X1:nW)=ρW(θ), θΘ0,β=Pθ(X1:nW)=1ρW(θ), θΘ1,

其中ρW(θ)=Pθ(X1:nW)表示在XiiidFθ下事件{X1:nW}的概率。我们称ρW(θ)功效函数,其中θΘ。如果原假设是简单的H0:θ=θ0,这时第一类错误发生的概率为α=Pθ0(X1:nW), 只有一种可能;如果原假设是复杂的,则α的取值有很多种可能,取决于真实的参数θ的取值,不管怎样,α=ρW(θ),其中θΘ0. 当真实的θΘ1时,我们称ρW(θ)检验的功效,不难发现β+ρW(θ)=1.

然而,在大多数情况下,这两类错误的概率相背而驰。在样本量不变的情况下,如果其中一个变小则另一个变大。见下面例子。

例 3.2 设山鸢尾花萼长度XN(μ,0.12),其中μ未知。现有样本量n=50。为解决假设检验问题(3.1),我们选择拒绝域W={x1:n:|ˉx4.5|>c}.
  • 该检验的功效函数为:

ρW(μ)=Pμ(|ˉX4.5|>c)=1Φ(50/0.12(4.5μ+c))+Φ(50/0.12(4.5μc)).

  • 犯第一类错误的概率为: α=ρW(4.5).

  • 犯第二类错误的概率为: β=1ρW(μ),其中μ4.5.

由上图可以发现:c增大,第一类错误发生的概率α变小,检验的功效变小,第二类错误发生的概率β变大。一般情况下,在样本量不变的前提下,两类错误不能同时减小。

考虑到两类错误不能够同时被控制,在统计学中, 拒绝域的选取准则为:在保证犯第一类错误的概率不超过一定水平的前提下,选择犯第二类错误的概率尽可能小(等价地,检验的功率尽可能大)的拒绝域W.

前面已提到,如果原假设是复合的,那么犯第一类错误的概率是不确定的,为了控制犯第一类错误的概率,我们对其最坏情况进行控制,使其在水平α(0,1)下,即

sup

该水平\alpha称为拒绝域W检验水平/显著性水平(level of significance)。一般情况下,\alpha为检验之前确定的比较小的数,如0.1,0.05,0.01。 如果给定\alpha,不存在一个W使得式(3.3)成立,则将式(3.3)中的“=”替换成“\le”,这同样保证犯第一类错误控制在\alpha下。

小概率原理:小概率事件在一次试验中是几乎不发生的。若H_0为真,样本落在拒绝域W是小概率事件,不应发生。如发生,则拒绝原假设。

如何选择显著性水平?

人们自然会产生这样的问题:概率小到什么程度才当作“小概率事件”呢?这要据实际情况而定,例如即使下雨的概率为10%,仍有人会因为它太小而不带雨具。但某航空公司的事故率为1%,人们就会因为它太大而不敢乘坐该公司的飞机,通常把概率不超过0.05 (或0.01)的事件当作“小概率事件”。为此在假设检验时,必须先确定小概率即显著性的值\alpha (即不超过\alpha的概率认为是小概率)。

然而,正如前面提到,只是控制犯第一类错误控制在水平\alpha下是远远不够的,而且满足这个条件的检验数不胜数。因为第二类错误不能忽略。因此,如果在保证\sup_{\theta\in\Theta_0} \rho_W(\theta)= \alpha成立的前提下,使得犯第二类错误的概率最小,或者等价地,检验的功效最大化。一般情况下,这个问题不容易解决,不一定存在所谓的“最好”检验。为此下节将引入一致最大功效的概念。

3.3 UMP检验和似然比检验

3.3.1 UMP检验的定义

定义 3.1 W为检验水平\alpha的一致最大功效(uniformly most powerful, UMP)的拒绝域,若W的水平为\alpha且对一切水平不超过\alpha的拒绝域W'均有

\rho_W(\theta)\ge \rho_{W'}(\theta),\ \forall \theta\in \Theta_1.

定义 3.2 W为检验水平\alpha的无偏拒绝域,若\forall \theta\in \Theta_1, 有\rho_W(\theta)\ge \alpha.
定义 3.3 W为检验水平\alpha的一致最大功效无偏(uniformly most powerful unbiased, UMPU)的拒绝域,若W是水平为\alpha的无偏拒绝域且对一切水平不超过\alpha的无偏拒绝域W'均有

\rho_W(\theta)\ge \rho_{W'}(\theta),\ \forall \theta\in \Theta_1.

:UMP意味着在犯第一类错误的概率不超过\alpha的前提下,犯第二类错误的概率最小。无偏性是指如果备选假设成立,拒绝原假设的概率不小于显著性水平\alpha. 注意到此时检验的结果正确,该概率不应小于犯第一类错误的概率。下节将给出如何构造UMP的检验方法。

3.3.2 似然比检验方法

例 3.3 假设有两枚硬币,第一枚硬币正面朝上的概率为0.5,第二枚正面朝上的概率为0.7。现在我选择其中一枚硬币来抛十次,并告诉你多少次正面朝上,但不告诉你选择的是哪枚硬币。你的任务是根据正面朝上的次数判断我抛的是哪枚硬币。 你的决策是怎样?

X为正面朝上的次数,\theta为硬币正面朝上的概率,则X\sim B(10,\theta), \theta\in\{0.5,0.7\}。假设检验为:

H_0: \theta=0.5\ vs.\ H_1:\theta=0.7.

不难计算,两种情况下X的分布列为:

x 0 1 2 3 4 5 6 7 8 9 10
H_0 .0010 .0098 .0439 .1172 .2051 .2461 .2051 .1172 .0439 .0098 .0010
H_1 .0000 .0001 .0014 .0090 .0368 .1029 .2001 .2668 .2335 .1211 .0282

假如观测到两次正面朝上,则有

P(X=2|\theta=0.5)/P(X=2|\theta=0.7)\approx 30. 该比值称为似然比(likelihood ratio , LR),表明相比第二枚硬币,第一枚硬币有大概30倍的可能性产生该结果。这个结果明显支持选择第一枚硬币。反之,如果观测到八次正面朝上,似然比

P(X=8|\theta=0.5)/P(X=8|\theta=0.7)\approx 0.19, 这个结果支持第二枚硬币。似然比在接下来的假设检验中扮演重要的角色。

定义 3.4 L(x_{1{:}n};\theta)为似然函数,\theta_1,\theta_2\in\Theta。两个参数\theta_1,\theta_2下似然函数的比值称为似然比,即

LR=\frac{L(x_{1{:}n};\theta_2)}{L(x_{1{:}n};\theta_1)}.

考虑最简单的假设检验(\theta_1\neq \theta_2)

\begin{equation} H_0: \theta=\theta_1\ vs.\ \theta=\theta_2. \tag{3.4} \end{equation}

似然比检验的拒绝域为:

\begin{equation} W=\{x_{1{:}n}:\frac{L(x_{1{:}n};\theta_2)}{L(x_{1{:}n};\theta_1)}> \lambda\}=\{x_{1{:}n}:LR>\lambda\}, \tag{3.5} \end{equation}

其中\lambda\ge 0满足

P_{\theta_1}(X_{1{:}n}\in W)=\alpha.

定理 3.1 (Neyman-Pearson引理) 对于简单假设检验(3.4),似然比检验得到的拒绝域(3.5)是UMP.

证明. 只证明连续总体的情况,离散总体类似。此时,P_{\theta}(X_{1{:}n}\in W)=\int_W L(x_{1{:}n};\theta) d x_{1{:}n}. 对任意拒绝域W'满足P_{\theta_1}(X_{1{:}n}\in W')\le\alpha

\begin{align*} P_{\theta_2}(X_{1{:}n}\in W)-P_{\theta_2}(X_{1{:}n}\in W') &= \int_W L(x_{1{:}n};\theta_2) d x_{1{:}n}-\int_{W'} L(x_{1{:}n};\theta_2) d x_{1{:}n}\\& =\int_{W-W'} L(x_{1{:}n};\theta_2) d x_{1{:}n}-\int_{W'-W} L(x_{1{:}n};\theta_2) d x_{1{:}n}\\ &\ge \lambda \left(\int_{W-W'} L(x_{1{:}n};\theta_1) d x_{1{:}n}-\int_{W'-W} L(x_{1{:}n};\theta_1) d x_{1{:}n}\right)\\ &=\lambda \left(\int_{W} L(x_{1{:}n};\theta_1) d x_{1{:}n}-\int_{W'} L(x_{1{:}n};\theta_1) d x_{1{:}n}\right)\\ &=\lambda(\alpha-P_{\theta_1}(X_{1{:}n}\in W'))\ge 0. \end{align*}

这表明W的功效不小于W'的功效,根据UMP的定义,得证。

该定理为著名的Neyman-Pearson引理,是假设检验中非常重要的结果,而且该UMP拒绝域在概率意义下是唯一的。但注意到,该结论只适用简单假设,且\lambda必须满足P_{\theta_1}(X_{1{:}n} \in W)=\alpha.

定理 3.2 似然比检验得到的拒绝域(3.5)是无偏的,即\rho_{W}(\theta_2)\ge \alpha.

证明见陈家鼎等编著的教材P71页。

3.3.3 正态分布均值的UMP检验

例 3.4 假设总体为N(\mu,\sigma^2), 其中\sigma^2已知, 样本为X_{1{:}n}. 考虑检验水平为\alpha的检验问题(\mu_2>\mu_1),

H_0:\mu=\mu_1\ vs. \ H_1:\mu=\mu_2.

解. 似然比检验的拒绝域为:W=\{x_{1{:}n}:\frac{L(x_{1{:}n};\mu_2)}{L(x_{1{:}n};\mu_1)}> \lambda\}. 似然比为

LR=\frac{L(x_{1{:}n};\mu_2)}{L(x_{1{:}n};\mu_1)}=\prod_{i=1}^n\frac{f(x_i;\mu_2,\sigma^2)}{f(x_i;\mu_1,\sigma^2)}=e^{\frac{n(\mu_2-\mu_1)(2\bar x-\mu_1-\mu_2)}{2\sigma^2}}.

LR>\lambda等价于\bar x>C, 其中P_{\mu_1}(\bar X> C)=\alpha。注意到\bar X \stackrel{H_0}\sim N(\mu_1,\sigma^2/n), 于是有 C=\mu_1+u_{1-\alpha}\sigma/\sqrt{n}, 所以似然比检验的拒绝域为

W=\{x_{1{:}n}:\bar x> \mu_1+u_{1-\alpha}\sigma/\sqrt{n}\}.

思考:与双侧拒绝域比较:W'=\{x_{1{:}n}:|\bar x-\mu_1|> u_{1-\alpha/2}\sigma/\sqrt{n}\}, 哪个功效大?

单侧与双侧功效比较:红色虚线为单侧临界值,绿色虚线为双侧临界值

图 3.1: 单侧与双侧功效比较:红色虚线为单侧临界值,绿色虚线为双侧临界值

从上图中容易分析出,W的功效比W'的功效大,与N-P引理的结论吻合。

例 3.5 假设总体为N(\mu,\sigma^2), 其中\sigma^2已知。考虑检验水平为\alpha的检验问题(\mu_2<\mu_1),

H_0:\mu=\mu_1\ vs. \ H_1:\mu=\mu_2.

解. 似然比检验的拒绝域为:W=\{x_{1{:}n}:\frac{L(x_{1{:}n};\mu_2)}{L(x_{1{:}n};\mu_1)}> \lambda\}. 似然比与上个例子一样,

LR=e^{\frac{n(\mu_2-\mu_1)(2\bar X-\mu_1-\mu_2)}{2\sigma^2}}

区别在于UMP拒绝域为W=\{x_{1{:}n}:\bar x<C\}, C满足P_{\mu_1}(\bar X< C)=\alpha, 则有C=\mu_1+u_{\alpha}\sigma/\sqrt{n}, 所以似然比检验的拒绝域为W=\{x_{1{:}n}:\bar x< \mu_1+u_{\alpha}\sigma/\sqrt{n}\}.

例 3.6 假设总体为N(\mu,\sigma^2), 其中\sigma^2已知, 样本为X_{1{:}n}. 分别求以下假设检验的一致最大功效拒绝域:

H_0:\mu=\mu_1\ vs. \ H_1:\mu>\mu_1,

H_0:\mu\le\mu_1\ vs. \ H_1:\mu>\mu_1,

H_0:\mu=\mu_1\ vs. \ H_1:\mu<\mu_1,

H_0:\mu\ge\mu_1\ vs. \ H_1:\mu<\mu_1.

解. 先考虑第一种情况H_0:\mu=\mu_1\ vs. \ H_1:\mu>\mu_1. 取\mu_2为大于\mu_1的任意常数,构造例3.5中的简单检验

H_0:\mu=\mu_1\ vs. \ H_1:\mu=\mu_2.W'为满足P_{\mu_1}(X_{1{:}n}\in W')\le\alpha的任意拒绝域。注意到例3.5中的UMP拒绝域W=\{x_{1{:}n}:\bar x> \mu_1+u_{1-\alpha}\sigma/\sqrt{n}\}不依赖\mu_2的值。对于任意\mu_2>\mu_1, 由于W是上述简单假设的UMP拒绝域,所以P_{\mu_2}(X_{1{:}n}\in W)\ge P_{\mu_2}(X_{1{:}n}\in W'). 根据UMP的定义,该拒绝域W用于复合的备选假设H_1:\mu>\mu_1同样是UMP的。

现在证明W用于第二种情况H_0:\mu\le\mu_1\ vs. \ H_1:\mu>\mu_1同样是UMP。注意到功效函数

\rho_W(\mu)=P_\mu(X_{1{:}n}\in W)= P_\mu(\bar X> \mu_1+u_{1-\alpha}\sigma/\sqrt{n})\mu\le \mu_1上是单调递增的。所以,\sup_{\mu\le\mu_1}\rho_W(\mu)=\rho_W(\mu_1)=\alpha. 设W'为满足\sup_{\mu\le\mu_1}P(X_{1{:}n}\in W')\le \alpha的任意拒绝域。所以P_{\mu_1}(X_{1{:}n}\in W')\le \alpha. 注意到W为上述简单假设检验的UMP拒绝域,所以它比W'更有效。对于任意\mu_2>\mu_1, 同样有P_{\mu_2}(X_{1{:}n}\in W)\ge P_{\mu_2}(X_{1{:}n}\in W'). 根据UMP的定义,该拒绝域W用于第二种情况是UMP。

同样地,后面两种情况的UMP拒绝域和例3.6一样,即

W=\{x_{1{:}n}:\bar x< \mu_1+u_{\alpha}\sigma/\sqrt{n}\}.

3.4 单参数指数型分布族

为了得到一般UMP拒绝域的一般形式,本节考虑一大类分布族——单参数指数型分布族。

定义 3.5 X的可能的集合为\mathcal{X}. 称X服从单参数指数型分布(single-parameter exponential family),若X的密度函数(或者分布列)有下列表达式

\begin{equation} f(x;\theta) = S(\theta)h(x)\exp\{Q(\theta)V(x)\}, \tag{3.6} \end{equation}

其中\theta\in\Theta=(a,b),-\infty\le a<b\le \infty,S(\theta)>0,x\in \mathcal{X},h(x)>0,Q(\theta)\theta严格增函数

常见的分布都是指数型分布,比如:

  • 指数分布:f(x;\lambda)=\lambda e^{-\lambda x}, Q(\lambda)=\lambda, V(x)=-x

  • Poisson分布:f(x;\lambda)=\frac{e^{-\lambda}\lambda^x}{x!}=\frac{e^{-\lambda}e^{\log(\lambda) x}}{x!}, Q(\lambda)=\log(\lambda), V(x)=x

  • 正态分布(\sigma^2已知):f(x;\mu) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, Q(\mu)=\mu/\sigma^2, V(x)=x

  • 正态分布(\mu已知):Q(\sigma^2)=-\frac{1}{2\sigma^2}, V(x)=(x-\mu)^2

我们将在单参数分布族总体下考虑以下五种常见的检验类型并给出UMP/UMPU拒绝域的一般形式。涉及的证明将省略,详情可参考陈家鼎等编著的教材P72-P87.

H_0:\theta\le \theta_1\ vs.\ H_1:\theta>\theta_1,

H_0:\theta\ge \theta_1\ vs.\ H_1:\theta<\theta_1,

H_0:\theta\notin (\theta_1,\theta_2)\ vs.\ H_1:\theta\in (\theta_1,\theta_2),

H_0:\theta\in [\theta_1,\theta_2]\ vs.\ H_1:\theta\notin [\theta_1,\theta_2].

H_0:\theta=\theta_0\ vs.\ H_1:\theta\neq\theta_0

定理 3.3 考虑单参数指数型分布(3.6),给定检验问题

H_0:\theta\le \theta_1\ vs.\ H_1:\theta>\theta_1.

\alpha\in(0,1), 若存在C满足

P_{\theta_1}\left(\sum_{i=1}^n V(X_i)>C\right)=\alpha,

则检验水平为\alpha的UMP拒绝域为:W=\{x_{1{:}n}:\sum_{i=1}^n V(x_i)>C\}.

定理 3.4 考虑单参数指数型分布(3.6),给定检验问题

H_0:\theta\ge \theta_1\ vs.\ H_1:\theta<\theta_1.

\alpha\in(0,1), 若存在C满足

P_{\theta_1}\left(\sum_{i=1}^n V(X_i)<C\right)=\alpha,

则检验水平为\alpha的UMP拒绝域为:

W=\{x_{1{:}n}:\sum_{i=1}^n V(x_i)<C\}.

例 3.7 假设总体为N(\mu,\sigma^2), 其中\sigma^2已知, 样本为X_{1{:}n}. 求下列检验的UMP

H_0:\mu\le\mu_1\ vs. \ H_1:\mu>\mu_1.

解. 因为在指数分布族形式中V(x)=x, UMP拒绝域为

W=\{x_{1{:}n}:\sum_{i=1}^nx_i>C\}=\{x_{1{:}n}:\bar x>C'\},

其中C'满足 P_{\mu_1}(\bar X>C')=\alpha, C'=\mu_1+u_{1-\alpha}\sigma/\sqrt{n}.

例 3.8 假设总体为N(\mu,\sigma^2), 其中\mu已知,样本为X_{1{:}n}. 求下列检验的UMP

H_0:\sigma^2\le\sigma^2_1\ vs. \ H_1:\sigma^2>\sigma^2_1.

解. 因为在指数分布族形式中V(x)=(x-\mu)^2, UMP拒绝域为

W=\{x_{1{:}n}:\sum_{i=1}^n(x_i-\mu)^2>C\}=\{x_{1{:}n}:\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^2_1}>C'\},

其中C'满足P_{\sigma^2_1}(\sum_{i=1}^n\frac{(X_i-\mu)^2}{\sigma^2_1}>C')=\alpha, 所以C'=\chi^2_{1-\alpha}(n).

定理 3.5 考虑单参数指数型分布(3.6),给定检验问题

H_0:\theta\notin (\theta_1,\theta_2)\ vs.\ H_1:\theta\in (\theta_1,\theta_2).

W=\{x_{1{:}n}:C_1<\sum_{i=1}^n V(x_i)<C_2\}.

若存在C_1,C_2满足

P_{\theta_1}(X_{1{:}n}\in W)=P_{\theta_2}(X_{1{:}n}\in W)=\alpha,

则检验水平为\alpha的一致最大功效的拒绝域为W.

定理 3.6 考虑单参数指数型分布(3.6),给定检验问题

H_0:\theta\in [\theta_1,\theta_2]\ vs.\ H_1:\theta\notin [\theta_1,\theta_2].

W=\{x_{1{:}n}:\sum_{i=1}^n V(x_i)\notin[C_1,C_2]\}.

若存在C_1,C_2满足

P_{\theta_1}(X_{1{:}n}\in W)=P_{\theta_2}(X_{1{:}n}\in W)=\alpha

则检验水平为\alpha的一致最大功效无偏(UMPU)的拒绝域为W.

定理 3.7 考虑上述单参数指数型分布,给定检验问题

H_0:\theta=\theta_0\ vs.\ H_1:\theta\neq\theta_0.

W=\{x_{1{:}n}:\sum_{i=1}^n V(x_i)\notin[C_1,C_2]\}.

若存在C_1,C_2满足

P_{\theta_0}(X_{1{:}n}\in W)=\alpha

E_{\theta_0}\left[1\{X_{1{:}n}\in W\}\sum_{i=1}^n V(X_i)\right]=\alpha E_{\theta_0}\left[\sum_{i=1}^n V(X_i)\right],

则检验水平为\alpha的一致最大功效无偏(UMPU)的拒绝域为W.

推论 3.1 考虑上述单参数指数型分布,给定检验问题

H_0:\theta=\theta_0\ vs.\ H_1:\theta\neq\theta_0.

如果在\theta=\theta_0下,T(x_{1{:}n}) = \sum_{i=1}^n V(X_i)的分布关于某数r_0对称,取

W=\{x_{1{:}n}:|T(x_{1{:}n})-r_0|>C\}.

若存在C满足

P_{\theta_0}(X_{1{:}n}\in W)=\alpha,

则检验水平为\alpha的一致最大功效无偏(UMPU)的拒绝域为W.

例 3.9 假设总体为N(\mu,\sigma^2), 其中\sigma^2已知。求下列检验的UMPU拒绝域

H_0:\mu=\mu_0\ vs. \ H_1:\mu\neq\mu_0.

解. 因为在指数分布族形式中V(x)=x, 此时T(x_{1{:}n})=\sum_{i=1}^nX_i. 在\mu=\mu_0下,T(X_{1{:}n})\sim N(n\mu_0,n\sigma^2), 故其分布关于r_0=n\mu_0对称,

UMPU拒绝域为

W=\{x_{1{:}n}:|T(x_{1{:}n})-n\mu_0|>C\}=\{x_{1{:}n}:|\bar x-\mu_0|>C'\},

其中C'满足P_{\mu_0}(|\bar X-\mu_0|>C')=\alpha, 所以C'=u_{1-\alpha/2}\sigma/\sqrt{n}.

例 3.10 假设总体为N(\mu,\sigma^2), 其中\mu已知。求下列检验的UMPU拒绝域

H_0:\sigma^2=\sigma_0^2\ vs. \ H_1:\sigma^2\neq\sigma_0^2.

解. 为方便起见,令T(x_{1{:}n})=\sum_{i=1}^n(X_i-\mu)^2/\sigma_0^2. 这样, 在\sigma^2=\sigma_0^2下,T(X_{1{:}n})\sim \chi^2(n). UMPU拒绝域表示为 W=\{x_{1{:}n}:T(x_{1{:}n})\notin [C_1,C_2]\},其中C_1,C_2满足

P_{\sigma^2_0}(T(X_{1{:}n})\notin W)=\int_{C_1}^{C_2} f(x;n) dx=1-\alpha,

E_{\sigma^2_0}[1\{X_{1{:}n}\notin W\}T(X_{1{:}n})]=\int_{C_1}^{C_2} x f(x;n)dx=(1-\alpha)E_{\sigma_0^2}[T(X_{1{:}n})]=n(1-\alpha).

其中,f(x;n)\chi^2(n)的密度函数,即

f(x;n)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2}1\{x>0\}. 所以, \begin{align*} \int_{C_1}^{C_2} \frac{x}{n} f(x;n)dx&=\int_{C_1}^{C_2} \frac{x}{n} \frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2}dx\\ &=\int_{C_1}^{C_2} f(x;n+2)dx=\int_{C_1}^{C_2} f(x;n) dx=1-\alpha. \end{align*}

实际上,求解C_1,C_2比较困难,为方便起见,不妨用平均法取C_1=\chi_{\alpha/2}^2(n), C_2=\chi_{1-\alpha/2}^2(n).

3.4.1 小结

我们已经在单参数指数型分布总体下给出常见的假设检验的UMP/UMPU, 具体步骤可以归纳如下:

  • 根据指数型分布写出检验统计量(test statistic): T(X_{1{:}n})=\sum_{i=1}^nV(X_i),或者它的常数倍

  • 根据假设检验的类型写出拒绝域W的形式,一般有

T(x_{1{:}n})>C,T(x_{1{:}n})<C,Tx_{1{:}n} \in (C_1,C_2),T(x_{1{:}n})\notin [C_1,C_2]

  • 如果是只有一个待定参数C时,可以检验水平\alpha来得到C的值,即

P_{\theta_0}(T(X_{1{:}n}) \in W)=\alpha, 其中\theta_0\Theta_0的边界点。

  • 如果有两个待定参数C_1,C_2时, 可能还需另外一个等式来求解(比如双边假设检验)。

正态总体的期望的检验统计量为n\bar X或者\bar X, 称为U检验;方差的检验统计量为\sum_{i=1}^n(X_i-\mu)^2, 称为卡方检验

3.5 广义似然比检验

似然比检验只适合简单假设检验,为了适用于复合假设检验情形,我们需要将似然比检验进行推广。 考虑一般的参数假设检验问题

H_0:\theta\in \Theta_0\ vs.\ H_1:\theta \notin \Theta_0.

定义广义似然比为:

\lambda(x_{1{:}n}):=\frac{\sup_{\theta\in \Theta}L(x_{1{:}n};\theta)}{\sup_{\theta\in \Theta_0}L(x_{1{:}n};\theta)}=\frac{L(x_{1{:}n};\hat\theta)}{L(x_{1{:}n};\hat\theta_0)},

其中\hat\theta\theta的最大似然估计,\hat\theta_0\theta限制在\Theta_0上的最大似然估计。

广义似然比拒绝域为:

W=\{x_{1{:}n}:\lambda(x_{1{:}n})>\lambda_0\},

其中\lambda_0\ge 1满足\sup_{\theta\in\Theta_0}P_{\theta}(X_{1{:}n}\in W)=\alpha, \alpha为给定的显著性水平。

广义似然比检验的思想:如果H_0成立,则似然函数在\theta\in\Theta_0的最大值应当与全局最大值接近,如果两者相差很大,则有理由拒绝原假设。

注1:如果退化成简单检验问题,\Theta_0=\{\theta_1\},\ \Theta_1=\{\theta_2\},则广义似然比简化为

\lambda(x_{1{:}n}):=\frac{\max(L(x_{1{:}n};\theta_1),L(x_{1{:}n};\theta_2))}{L(x_{1{:}n};\theta_1)}.

\lambda(x_{1{:}n})>\lambda_0等价于L(x_{1{:}n};\theta_2)/L(x_{1{:}n};\theta_1)>\lambda_0',该形式与简单似然比拒绝域相同,故称之为“广义”似然比方法。

注2:广义似然比检验适用范围非常广,虽然它不一定是UMP的,但在多数情况下可以证明随着样本量n\to\infty,检验的功效收敛到1,也就是犯第二类错误的概率收敛到0.

注3:设充分统计量为\psi(x_{1{:}n}), 由因子分解定理知,L(x_{1{:}n};\theta)=g(\psi(x_{1{:}n}),\theta)h(x_{1{:}n}).

\begin{align*} \lambda(x_{1{:}n}):&=\frac{\sup_{\theta\in\Theta} g(\psi(x_{1{:}n}),\theta)h(x_{1{:}n})}{\sup_{\theta\in\Theta_0} g(\psi(x_{1{:}n}),\theta)h(x_{1{:}n})}\\&=\frac{\sup_{\theta\in\Theta} g(\psi(x_{1{:}n}),\theta)}{\sup_{\theta\in\Theta_0} g(\psi(x_{1{:}n}),\theta)}=:\ell(\psi(x_{1{:}n})). \end{align*}

可以看出,广义似然比是充分统计量的函数,所以拒绝域可以写成

W=\{x_{1{:}n}:\lambda(x_{1{:}n})>\lambda_0\}=\{x_{1{:}n}:\psi(x_{1{:}n}) \in B\}.

问题转化成求解集合B使得检验水平为\alpha. 如果充分统计量在给定\theta=\theta_0下容易得到,这个问题则比较容易处理。 下面只针对正态总体来分析。

3.5.1 正态总体的假设检验

设总体X\sim N(\mu,\sigma^2)。前面我们已经分析了正态总体下参数的简单假设检验问题,现在利用广义似然比来分析复合假设检验。只考虑下面三种情况:

\theta=\theta_0\ vs.\ \theta\neq \theta_0

\theta\le \theta_0\ vs.\ \theta>\theta_0

\theta\ge \theta_0\ vs.\ \theta<\theta_0

其中\theta=\mu 或者 \sigma^2, 另外一个参数已知或者未知(分情况讨论)。

似然函数为:

L(\mu,\sigma^2)=(2\pi \sigma^2)^{-n/2}\exp\left(-\frac 1{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\right).

期望的假设检验(方差已知): 考虑双边假设检验

H_0:\mu=\mu_0\ vs.\ H_1:\mu\neq \mu_0.

因为方差\sigma^2已知,\theta=\mu的最大似然估计为\bar X。此时的广义似然比为

\begin{align*} \lambda(x_{1{:}n})&=\frac{L(\bar x,\sigma^2)}{L(\mu_0,\sigma^2)}\\ &=\exp\left(\frac{\sum_{i=1}^n[(x_i-\mu_0)^2-(x_i-\bar x)^2]}{2\sigma^2}\right)\\ &=\exp\left(\frac{n(\bar x-\mu_0)^2}{2\sigma^2}\right). \end{align*}

则拒绝域为W=\{x_{1{:}n}:|\bar x-\mu_0|>c\},其中c满足P_{\mu_0}(|\bar X-\mu_0|>c)=\alpha。所以,c=u_{1-\alpha/2}\sigma/\sqrt{n}. 令

U:=\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}.

|U|>u_{1-\alpha/2}时,拒绝H_0. 它称为该检验的检验统计量,U\stackrel{H_0}\sim N(0,1)。这个检验也称U检验(或者Z检验)。

接下来考虑单边假设检验

H_0:\mu\le \mu_0\ vs.\ H_1:\mu> \mu_0.

\mu\le \mu_0下,\mu的最大似然估计为\hat\mu_0=\min(\bar X,\mu_0). 此时广义似然比为

\begin{align*} \lambda(x_{1{:}n})=\frac{L(\bar x,\sigma^2)}{L(\min(\bar X,\mu_0),\sigma^2)}=\begin{cases} e^\frac {n(\bar x-\mu_0)^2}{2\sigma^2},&\ \bar x> \mu_0\\ 1,&\ \bar x\le\mu_0. \end{cases} \end{align*}

注意到\lambda(x_{1{:}n})应当严格大于1,否则拒绝域为样本全空间,故\bar x>\mu_0\lambda(x_{1{:}n})>\lambda_0\ge 1. 这等价于拒绝域为W=\{x_{1{:}n}:\bar x-\mu_0>c\},其中c\ge 0满足

\sup_{\mu\le\mu_0}P_{\mu}(\bar X-\mu_0>c)=P_{\mu_0}(\bar X-\mu_0>c)=\alpha.

所以,c=u_{1-\alpha}\sigma/\sqrt{n}(注意到\alpha是接近于0的正数,所以c>0)。 当U>u_{1-\alpha}时,拒绝H_0.

类似地,对于另一种单边假设检验

H_0:\mu\ge \mu_0\ vs.\ H_1:\mu< \mu_0,

U<u_{\alpha}时,拒绝H_0.

这三种情况汇总如下:

H_1 \mu\neq \mu_0 \mu> \mu_0 \mu< \mu_0
拒绝域 |u|>u_{1-\alpha/2} u>u_{1-\alpha} u<u_{\alpha}

期望的假设检验(方差未知):在方差未知的情况下考虑期望的检验问题,相应的检验统计量为

T=\frac{\bar X-\mu_0}{S_n/\sqrt{n-1}}=\frac{\bar X-\mu_0}{S_n^*/\sqrt{n}}.

\mu=\mu_0时,T\sim t(n-1). 该检验称为t检验。拒绝域W形式如下:

H_1 \mu\neq \mu_0 \mu> \mu_0 \mu< \mu_0
拒绝域 |t|>t_{1-\alpha/2}(n-1) t>t_{1-\alpha}(n-1) t<t_{\alpha}(n-1)
均值的假设检验

图 3.2: 均值的假设检验

方差的假设检验(期望已知): 检验统计量为

V_1 = \frac{1}{\sigma^2_0}\sum_{i=1}^n(X_i-\mu)^2.

\sigma^2=\sigma^2_0时,V_1\sim \chi^2(n)。该检验称为卡方检验。拒绝域W形式如下:

H_1 \sigma^2\neq \sigma^2_0 \sigma^2> \sigma^2_0 \sigma^2< \sigma^2_0
拒绝域 v_1>\chi^2_{1-\alpha/2}(n)v_1<\chi^2_{\alpha/2}(n) v_1>\chi^2_{1-\alpha}(n) v_1<\chi^2_{\alpha}(n)

方差的假设检验(期望未知): 检验统计量为

V_2 = \frac{1}{\sigma^2_0}\sum_{i=1}^n(X_i-\bar X)^2=nS_n^2/\sigma_0^2.

\sigma^2=\sigma^2_0时,V_2\sim \chi^2(n-1)。该检验同样为卡方检验。拒绝域W形式如下:

H_1 \sigma^2\neq \sigma^2_0 \sigma^2> \sigma^2_0 \sigma^2< \sigma^2_0
拒绝域 v_2>\chi^2_{1-\alpha/2}(n-1)v_2<\chi^2_{\alpha/2}(n-1) v_2>\chi^2_{1-\alpha}(n-1) v_2<\chi^2_{\alpha}(n-1)

例 3.11 (血液酒精浓度测试) 下面是一台已使用三年的仪器测出某人血液酒精浓度的30个数据(百分比)。已知精准的机器给出读数为12.6%。请根据这些数据检验这台仪器是否精准,是否需要校准。

12.3 12.7 13.6 12.7 12.9 12.6
12.6 13.1 12.6 13.1 12.7 12.5
13.2 12.8 12.4 12.6 12.4 12.4
13.1 12.9 13.3 12.6 12.6 12.7
13.1 12.4 12.4 13.1 12.4 12.9
如果这台老仪器的方差\sigma=0.4. 在置信水平\alpha=0.05下,你是否建议对该仪器进行校准?如果置信水平减小到\alpha=0.01,你的结论会不会发生改变?

解. 假设这台仪器读数服从正态分布N(\mu,\sigma^2). 题中问题可描述成

H_0:\mu=12.6\ vs.\ H_1:\mu\neq 12.6.

由数据知,\bar x=12.757. 拒绝域为

W=\{|\bar x-12.6|>u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\}. 如果\alpha=0.05, W=\{|\bar x-12.6|>0.143\}. 此时,样本落在拒绝域里面,故建议机器进行校准。 如果\alpha减小到0.01, 拒绝域为W=\{|\bar x-12.6|>0.188\}. 此时,样本落在拒绝域外,故不建议机器进行校准。

如果上题方差未知,我们需要用到t检验,R的命令为:

t.test(x, alternative = c(“two.sided”, “less”, “greater”), mu = 0, conf.level = 0.95, …)

x = c(12.3, 12.7, 13.6, 12.7, 12.9, 12.6, 
      12.6, 13.1, 12.6, 13.1, 12.7, 12.5, 
      13.2, 12.8, 12.4, 12.6, 12.4, 12.4,  
      13.1, 12.9, 13.3, 12.6, 12.6, 12.7,  
      13.1, 12.4, 12.4, 13.1, 12.4, 12.9)
t.test(x,mu=12.6)
## 
##  One Sample t-test
## 
## data:  x
## t = 2.6444, df = 29, p-value = 0.01307
## alternative hypothesis: true mean is not equal to 12.6
## 95 percent confidence interval:
##  12.63550 12.87784
## sample estimates:
## mean of x 
##  12.75667

因为|t|=2.6444>t_{0.975}(29)=2.04523,所以在显著性水平\alpha=0.05下拒绝H_0。但|t|=2.6444<t_{0.995}(29)=2.756386,所以在显著性水平\alpha=0.01下接受H_0。结论与之前一致。

例 3.12 1. 假设有个植物学家跟你说,通过基因组分析表明,山鸢尾(Setosa)花萼长度的均值是4.5cm,他这个论断是否可信?

  1. 另一位植物学家说山鸢尾(Setosa)花萼长度的均值是一个不小于4.5cm的数,但具体是多少就不清楚了,那么他这个论断是否又可信?
x = iris[iris$Species=="setosa",1] 
t.test(x,mu=4.5)
## 
##  One Sample t-test
## 
## data:  x
## t = 10.151, df = 49, p-value = 1.223e-13
## alternative hypothesis: true mean is not equal to 4.5
## 95 percent confidence interval:
##  4.905824 5.106176
## sample estimates:
## mean of x 
##     5.006
t.test(x,mu=4.5, alternative = "less")
## 
##  One Sample t-test
## 
## data:  x
## t = 10.151, df = 49, p-value = 1
## alternative hypothesis: true mean is less than 4.5
## 95 percent confidence interval:
##      -Inf 5.089575
## sample estimates:
## mean of x 
##     5.006

3.5.2 两个独立正态总体的检验

有时候,我们需要比较两个总体的差异性。例如,男生群体平均身高是否大于女生群体平均身高?山鸢尾和杂色鸢尾两种花的花萼有没有显著差异?大部分问题归结为比较两个总体均值或者方差的差异性。

前提条件:设总体X\sim N(\mu_1,\sigma_1^2), 另有与X独立的总体Y\sim N(\mu_2,\sigma_2^2). 两个总体的样本分别为X_1,\dots,X_m; Y_1,\dots,Y_n,修正样本方差分别为S_X^{*2},\ S_Y^{*2}.

  1. 考虑检验问题:

H_0: \mu_1-\mu_2=\delta\ vs.\ H_1: \mu_1-\mu_2\neq \delta.

大部分应用场景取\delta=0.

  • 如果\sigma_1^2,\sigma_2^2已知, 选择U检验统计量

U=\frac{\bar X-\bar Y-\delta}{\sqrt{\sigma_1^2/m+\sigma_2^2/n}}\stackrel{H_0}\sim N(0,1).

|U|> u_{1-\alpha/2}拒绝H_0,否则接受H_0.

  • 如果\sigma_1^2,\sigma_2^2未知,已知\sigma_1^2=\sigma_2^2,选择t检验统计量

T=\frac{\bar X-\bar Y-\delta}{S_w\sqrt{1/m+1/n}}\stackrel{H_0}\sim t(m+n-2),

其中S_w^2=[(m-1)S_X^{2*}+(n-1)S_Y^{*2}]/(m+n-2)为合并的样本方差。

|T|> t_{1-\alpha/2}(n+m-2)拒绝H_0,否则接受H_0.

  • 如果\sigma_1^2,\sigma_2^2未知,但\sigma_1^2\neq\sigma_2^2, 选择检验统计量

T=\frac{(\bar X-\bar Y)-\delta}{\sqrt{S_X^{*2}/m+S_Y^{*2}/n}}.

\mu_1-\mu_2=\delta下,T近似服从自由度为kt分布,其中k为接近k^*的整数,

k^*=\frac{(S_{X}^{*2}/m+S_{Y}^{*2}/n)^2}{(S_{X}^{*2}/m)^2/(m-1)+(S_Y^{*2}/n)^2/(n-1)}

这就是著名的Behrens-Fisher问题,该检验为Welch’s t-test

配对检验:假设两个总体的样本量都一样,即m=n。此时,令Z=X-Y\sim N(\mu_1-\mu_2,\sigma_1^2+\sigma^2_2),

Z的样本为Z_i=X_i-Y_i, i=1,\dots,n. 原问题可以转化成关于Z的均值的检验,故可构造t检验统计量

T=\frac{\bar Z-\delta}{S_Z^*/\sqrt{n}}\sim t(n-1), 其中S_Z^{*2}Z_i的修正样本方差。这种检验方法称配对检验(paired test), 优点是对两个总体的方差没有要求,甚至不要求两个总体独立。但只适用于m=n的情况。如果m\neq n, 这种配对检验就不太适合,尤其是两个样本量相差很大时,做配对检验就不得不舍弃大量的样本,造成一定的信息丢失。

  1. 考虑方差比值的检验问题

H_0: \sigma_1^2=\sigma_2^2,\ H_1: \sigma_1^2\neq \sigma_2^2

  • 如果\mu_1,\mu_2已知,选择F检验统计量

F_1=\frac{\frac 1 m\sum_{i=1}^m(X_i-\mu_1)^2}{\frac 1 n\sum_{i=1}^n(Y_i-\mu_2)^2}\stackrel{H_0}\sim F(m,n).

F_1> F_{1-\alpha/2}(m,n)或者F_1<F_{\alpha/2}(m,n)拒绝H_0,否则接受H_0.

  • 如果\mu_1,\mu_2未知,选择F检验统计量

F_2=\frac{\frac 1 {m-1}\sum_{i=1}^m(X_i-\bar X)^2}{\frac 1 {n-1}\sum_{i=1}^n(Y_i-\bar Y)^2}=\frac{S_X^{*2}}{S_Y^{*2}}\stackrel{H_0}\sim F(m-1,n-1)\quad.

F_2> F_{1-\alpha/2}(m-1,n-1)或者F_2<F_{\alpha/2}(m-1,n-1)拒绝H_0,否则接受H_0.

3.5.3 案例分析:山鸢尾和杂色鸢尾花差异性比较

均值差的假设检验R命令

t.test(x, y = NULL, alternative = c(“two.sided”, “less”, “greater”), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, …)

方差比的假设检验R命令

var.test(x, y, ratio = 1, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95, …)

  1. 假设山鸢尾和杂色鸢尾两种花的花萼长度方差相等时,花萼长度均值的双边假设检验
x = iris[iris$Species=="setosa",1]
y = iris[iris$Species=="versicolor",1]
t.test(x,y,var.equal = TRUE)
## 
##  Two Sample t-test
## 
## data:  x and y
## t = -10.521, df = 98, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.1054165 -0.7545835
## sample estimates:
## mean of x mean of y 
##     5.006     5.936

因为|t|=10.521>t_{0.975}(98)=1.984467,所以在显著性水平\alpha=0.05下拒绝H_0,即认为两种花的花萼长度均值相等不显著。

  1. 方差不相等时双边假设检验,即Welch的t检验。
t.test(x,y)
## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = -10.521, df = 86.538, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.1057074 -0.7542926
## sample estimates:
## mean of x mean of y 
##     5.006     5.936

因为|t|=10.521>t_{0.975}(87)=1.987608,在显著性水平\alpha=0.05下同样拒绝H_0,即认为两种花的花萼长度均值相等不显著。

  1. 方差不相等时单边假设检验
t.test(x,y,alternative = "less")
## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = -10.521, df = 86.538, p-value < 2.2e-16
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##        -Inf -0.7830302
## sample estimates:
## mean of x mean of y 
##     5.006     5.936

因为t=-10.521<t_{0.05}(87)=-1.662557,在显著性水平\alpha=0.05下拒绝H_0,即认为山鸢尾花萼平均长度小于杂色鸢尾花萼平均长度。

  1. 山鸢尾和杂色鸢尾两种花的花萼长度方差比的检验
var.test(x,y)
## 
##  F test to compare two variances
## 
## data:  x and y
## F = 0.46634, num df = 49, denom df = 49, p-value = 0.008657
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2646385 0.8217841
## sample estimates:
## ratio of variances 
##          0.4663429

因为F=0.46634< F_{0.025}(49,49)=0.5674762,在显著性水平\alpha=0.05下拒绝H_0,即认为两种花的花萼长度方差相等是不显著的。 所以一开始认为两者方差相等对均值差进行检验是不合适的。

  1. 通过配对检验山鸢尾和杂色鸢尾两种花的花萼长度平均水平的差异
t.test(x,y,paired = TRUE)
## 
##  Paired t-test
## 
## data:  x and y
## t = -10.146, df = 49, p-value = 1.242e-13
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.114203 -0.745797
## sample estimates:
## mean of the differences 
##                   -0.93

因为|t|=10.146>t_{0.975}(49)=.009575,所以在显著性水平\alpha=0.05下拒绝H_0,即认为两种花的花萼长度均值相等不显著(与Welch的t检验结果一致)。

3.6 置信区间与假设检验的联系

假设\theta的100(1-\alpha)\% 置信区间为 [L(X_{1{:}n}),U(X_{1{:}n})]. 这表明

P_{\theta}(\theta\in [L,U])=1-\alpha,\ \forall\theta\in\Theta.

考虑假设检验:

H_0:\theta=\theta_0\ vs.\ H_1:\theta\neq\theta_0.

检验法则: 如果\theta_0\notin [L,U], 拒绝原假设;否则接受原假设。于是得到一个拒绝域:W=\{x_{1{:}n}:\theta_0\notin [L(x_{1{:}n}),U(x_{1{:}n})]\}, 显著性水平为

P_{\theta_0}(\theta_0\notin [L,U])=\alpha

有置信区间诱导的拒绝域可以控制犯第一类错误的概率在水平\alpha,但这样得到的拒绝域不一定是UMP或者UMPU! 对于正态总体,这种方式得到的拒绝域与之前通过似然比或者广义似然比方法得到一样。

反过来,假如我们有以下检验的一个拒绝域W(\theta_0)

H_0:\theta=\theta_0\ vs.\ H_1:\theta\neq\theta_0,

其中P_{\theta_0}(X_{1{:}n} \in W(\theta_0))=\alpha, \forall \theta_0\in\Theta. 可以得到一个置信集(confidence set):

S(X_{1{:}n})=\{\theta:X_{1{:}n}\notin W(\theta)\}

P_\theta(\theta\in S) = P_{\theta}(X_{1{:}n}\notin W(\theta)) = 1-\alpha,\ \forall\theta\in\Theta.

  • 该置信集是由所有“接受”的\theta的值组成的

  • 若该置信集为区间形式,则可以得到一个置信区间。

例 3.13 考虑总体X\sim N(\mu,\sigma^2),其中\mu未知,方差\sigma^2已知。则有

P(\bar X-u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\le \mu\le \bar X+u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}})=1-\alpha

于是得到一个置信区间:[\bar X-u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}},\bar X+u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}]

由此可以构造拒绝域:

W=\{\mu_0\notin [\bar x-u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}},\bar x+u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}]\}

W=\{x_{1{:}n}:|\bar x-\mu_0|>u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\}

此拒绝域和我们之前得到的一样的。

3.7 p值

由例3.11可以看出,当\alpha变化时,我们需要重新计算拒绝域再进行判断接受或者拒绝。不同的显著性水平得到结论可能不一样。不难看出,对一个固定的样本,\alpha越大越容易拒绝该样本,越小越容易接受。于是便存在一个临界状态,如果我们能够获得这个临界值,那么检验问题就可以等价转化成显著性水平与该临界值比较大小问题。这就避免了拒绝域的频繁计算。这个临界值称为p值(p-value).

假设拒绝域具备如下形式(似然比和广义似然比检验经常出现这种形式)

W=\{x_{1{:}n}:T(x_{1{:}n})>\lambda_\alpha\},

  • T为检验统计量

  • \lambda_\alpha满足\sup_{\theta\in\Theta_0}P_{\theta}(T(X_{1{:}n})>\lambda_\alpha)=\alpha

由此可得:

  • 对于固定的样本,显著性水平\alpha越大,\lambda越小,这样越容易拒绝原假设

  • 对于固定的样本,是否存在一个临界值p, 使得当p<\alpha时拒绝原假设,当p\ge \alpha时接受原假设?这个临界值称为p

p=p(x_{1{:}n})=\sup_{\theta\in\Theta_0}P_\theta(T(X_{1{:}n})> T(x_{1{:}n})).

定理 3.8 f(\lambda) = \sup_{\theta\in\Theta_0}P_{\theta}(T(X_{1{:}n})>\lambda). 如果对任意的\alpha\in(0,1), f^{-1}(\alpha)存在,那么T(x_{1{:}n})>\lambda_\alpha当且仅当p(x_{1{:}n})<\alpha.
证明. 由定理条件知,f(\lambda)为严格单调递减函数。注意到f(\lambda_\alpha)=\alphaf(T(x_{1{:}n}))=p. 所以,T(x_{1{:}n})>\lambda_\alpha当且仅当p(x_{1{:}n})<\alpha.

如果原假设是简单的, 即H_0:\theta=\theta_0,则

p = P_{\theta_0}(T(X_{1{:}n})> T(x_{1{:}n})).

对于一些复合的原假设,\sup_{\theta\in\Theta_0}P_{\theta}(T(X_{1{:}n})>\lambda)=P_{\theta_0}(T(X_{1{:}n})> \lambda),其中\theta_0\Theta_0的边界点。

类似地, 如果拒绝域另一种单边情况,W=\{x_{1{:}n}:T(x_{1{:}n})<\lambda\}, 则p值为

p=p(x_{1{:}n})=\sup_{\theta\in\Theta_0}P_\theta(T(X_{1{:}n})< T(x_{1{:}n})).

如果对检验问题H_0:\theta=\theta_0\ vs.\ H_1:\theta\neq\theta_0选择双边拒绝域,W=\{T(x_{1{:}n})<\lambda_1\}\cup\{T(x_{1{:}n})>\lambda_2\},其中

P_{\theta_0}(T(X_{1{:}n})<\lambda_1)=P_{\theta_0}(T(X_{1{:}n})>\lambda_2)=\alpha/2, 假设\lambda^*满足P_{\theta_0}(T(X_{1{:}n})\le\lambda^*)=0.5,则\lambda_1\leq\lambda^*\leq\lambda_2。则p值为

p= \begin{cases} 2P_{\theta_0}(T(X_{1{:}n})<T(x_{1{:}n})),\ & T(x_{1{:}n})<\lambda^*\\ 2P_{\theta_0}(T(X_{1{:}n})>T(x_{1{:}n})),\ & T(x_{1{:}n})\ge \lambda^*. \end{cases}

例 3.14 总体X\sim N(\mu,\sigma^2),其中\mu未知,方差\sigma^2已知,考虑检验

H_0:\mu\le\mu_0\ vs.\ H_1:\mu>\mu_0. 检验统计量为U = \sqrt{n}(\bar X-\mu_0)/\sigma. 拒绝域为W=\{u>c\}. 故p值为

p = \sup_{\mu\le\mu_0}P_{\mu}(U> u)=P_{\mu_0}(U> u)=1-\Phi\left(\frac{\bar x-\mu_0}{\sigma/\sqrt{n}}\right).

例 3.15 总体X\sim N(\mu,\sigma^2),其中\mu未知,方差\sigma^2已知,考虑检验

H_0:\mu=\mu_0\ vs.\ H_1:\mu\neq\mu_0. 拒绝域为W=\{x_{1{:}n}:\sqrt{n}|\bar x-\mu_0|/\sigma>u_{1-\alpha/2}\}, 其中检验统计量为T = \sqrt{n}|\bar X-\mu_0|/\sigma. 故p值为

p = P_{\mu_0}(T(X_{1{:}n})> T(x_{1{:}n}))=2-2\Phi(T(x_{1{:}n}))=2-2\Phi\left(\frac{|\bar x-\mu_0|}{\sigma/\sqrt{n}}\right).

对应到例3.11

p = 2-2\Phi\left(\frac{|12.757-12.6|}{0.4/\sqrt{30}}\right)=0.032. 因此, 如果\alpha> 0.032, 拒绝H_0(建议校正);否则, 接受H_0(不建议校正)。

例 3.16 总体X\sim N(\mu,\sigma^2),其中\mu已知,考虑检验

H_0:\sigma^2=\sigma^2_0\ vs.\ H_1:\sigma^2\neq\sigma^2_0. 检验统计量为V = \frac{1}{\sigma^2_0}\sum_{i=1}^n(X_i-\mu)^2\stackrel{H_0}{\sim}\chi^2(n). 拒绝域为W=\{v<c_1\}\cup\{v>c_2\},不难发现c_1\le \chi^2_{0.5}(n)\le c_2. 故p值为

p = \begin{cases} 2F(v),\ & v<\chi^2_{0.5}(n)\\ 2(1-F(v)),\ & v\ge \chi^2_{0.5}(n), \end{cases} 其中vV的观测值,F(x)\chi^2(n)的CDF.

注:

  • p值可以看作样本与原假设相容程度的度量。p值越大相容度越高;反之,p值越小相容度越低。当p值小于\alpha时认为两者不相容,拒绝原假设。

  • 做检验时不需要事先确定显著性水平\alpha(它具有一定的主观性),如果p值非常小,则毫不犹豫地拒绝原假设;同样地,如果p值比较大,则接受原假设,这样就不用争论\alpha=0.1,0.05或者其他。

  • p值提供更多的信息,可以用于保护隐私数据

  • 统计软件提供的是p值。

3.8 多重检验

  • 如果独立检验同一个假设k次,我们可以得到k个p值: p_1,\dots,p_k, 可否由这k个p值汇总成一个p值来检验该假设?元分析(meta-analysis)

  • 假如我们有k个不同的原假设H_{0j},j=1,\dots,k,这种问题称为多重假设(multiple tests)问题。可否利用k个不同假设的p值: p_1,\dots,p_k来进一步控制错误发生率?

例子:吃果冻与长青春痘的联系:https://xkcd.com/882/

How to annoy a statistician: https://xkcd.com/2118/

3.9 伯努利分布的检验

X服从两点分布B(1,p), 下面考虑以下三种常见的假设检验

  • H_0:p\le p_0\ vs.\ H_1:p>p_0

  • H_0:p\ge p_0\ vs.\ H_1:p<p_0

  • H_0:p= p_0\ vs.\ H_1:p\neq p_0

对于该总体,我们选S=\sum_{i=1}^nX_i\sim B(n,p)为检验统计量。相应的拒绝域形式为

  • W=\{s\ge c\}

  • W=\{s\le c\}

  • W=\{s\ge c_2\}\cup\{s\le c_1\}

注意到S为离散型随机变量,所以满足\sup_{p\in\Theta_0}P_p(X_{1{:}n}\in W)=\alpha的分界点不一定存在。因此,我们考虑\sup_{p\in\Theta_0}P_p(X_{1{:}n}\in W)\le \alpha下分界点的选取。

3.9.1 单侧检验I

考虑单边假设H_0:p\le p_0\ vs.\ H_1:p>p_0, 为了使得检验功效最大化,临界值c为满足下式最小的整数

\sup_{p\le p_0}P_p(S\ge c)\le \alpha.

引理 3.1 F_{\beta}(x;a,b)Beta(a,b)分布的累积分布函数,则

P_p(S\ge c)=\sum_{i=c}^nC_n^ip^i(1-p)^{n-i}=F_{\beta}(p;c,n-c+1),

其中F_{\beta}(p;c,n-c+1)表示Beta(c,n-c+1)分布的CDF在p点处的取值。

由于P_p(S\ge c)关于p单调递增,所以

\sup_{p\le p_0}P_p(S\ge c)=P_{p_0}(S\ge c)=\sum_{i=c}^nC_n^ip_0^i(1-p_0)^{n-i}\le \alpha.

计算c比较复杂,为了避免此,我们将拒绝域\{s\ge c\}等价转化为

W=\{\sum_{i=s}^nC_n^ip_0^i(1-p_0)^{n-i}\le \alpha\}.

更进一步,假设p_\alpha(s)为方程\sum_{i=s}^nC_n^ip^i(1-p)^{n-i}=\alpha的根,则拒绝域等价转化为

W=\{p_0\le p_\alpha(s)\},

其中p_\alpha(s)=F_{\beta}^{-1}(\alpha;s,n-s+1), 或者可以表示成F分布分位数的函数

p_\alpha(s)=\left(1+\frac{n-s+1}{s}F_{1-\alpha}(2(n-s+1),2s)\right)^{-1}. 详细的转化见陈家鼎等编著的教材P105引理4.2.

3.9.2 女士品茶问题求解

考虑女士品茶问题,设该女士鉴别的成功率为p. 设X_i表示第i次鉴别结果,即X_i=1表示成功,X_i=0表示失败。如果p>p_0我们认为该女士具备这种辨别能力,其中p_0\ge 1/2为给定的数。故考虑检验

H_0: p\le p_0\ vs.\ H_1:p>p_0.

二项分布检验的R代码

binom.test(x, n, p = 0.5, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)

n=10的检验结果:

alpha = 0.1
n = 10
s = 1:n
pr = qbeta(alpha,s,n-s+1)
par(mfrow = c(1,2),mar=c(4,4,2,0.5))
plot(s,pr,type="b",ylab=expression(p[alpha](s)),
     main=expression(alpha==0.1))
abline(h=0.5,col="red")
lb = expression(p[0]==0.5)
text(3,0.55,lb)
alpha = 0.05
pr = qbeta(alpha,s,n-s+1)
plot(s,pr,type="b",ylab=expression(p[alpha](s)),
     main=expression(alpha==0.05))
abline(h=0.5,col="red")
text(3,0.55,lb)

binom.test(8,10,0.5,alternative = "greater")
## 
##  Exact binomial test
## 
## data:  8 and 10
## number of successes = 8, number of trials = 10, p-value = 0.05469
## alternative hypothesis: true probability of success is greater than 0.5
## 95 percent confidence interval:
##  0.4930987 1.0000000
## sample estimates:
## probability of success 
##                    0.8

3.9.3 单侧检验II

考虑单边假设H_0:p\ge p_0\ vs.\ H_1:p<p_0, 临界值c为满足下式最大的整数

\sup_{p\ge p_0}P_p(S\le c)\le \alpha.

由于P_p(S\le c)=\sum_{i=0}^cC_n^ip^i(1-p)^{n-i}关于p单调递减,所以只需考虑

P_{p_0}(S\le c)=\sum_{i=0}^cC_n^ip_0^i(1-p_0)^{n-i}\le \alpha.

计算c比较复杂,为了避免此,我们将拒绝域\{s\ge c\}等价转化为

W=\{\sum_{i=s+1}^nC_n^ip_0^i(1-p_0)^{n-i}\ge 1-\alpha\}.

更进一步,假设\tilde p_\alpha(s)为方程\sum_{i=s+1}^nC_n^ip^i(1-p)^{n-i}=1-\alpha的根,则拒绝域等价转化为

W=\{p_0\ge \tilde p_\alpha(s)\}

其中\tilde p_\alpha(s)=F_{\beta}^{-1}(1-\alpha;s+1,n-s), 或者可以表示成

\tilde p_\alpha(s)=\left(1+\frac{n-s}{(s+1)F_{1-\alpha}(2s+2,2n-2s)}\right)^{-1}

3.9.4 双侧检验

考虑双边假设H_0:p= p_0\ vs.\ H_1:p\neq p_0 拒绝域为\{s\le c_1\}\cup\{s\ge c_2\},其中临界值c_1为满足P_{p_0}(S\le c_1)=\alpha/2最大的整数,临界值c_1为满足P_{p_0}(S\ge c_2)=\alpha/2最小的整数。由前面分析,该拒绝域等价于

\{p_0\le p_{\alpha/2}(s)\}\cup\{p_0\ge \tilde{p}_{\alpha/2}(s)\}.

3.10 拟合优度检验

3.10.1 Mendel的数据

In one of his famous experiments, Mendel crossed 556 smooth, yellow male peas with wrinkled, green female peas. The counts that Mendel recorded are

smooth yellow smooth green wrinkled yellow wrinkled green
315 108 102 31

According to now established genetic theory, the relative frequencies of the progeny should be as given below.

P(\text{smooth yellow}) = 9/16, P(\text{smooth green}) = 3/16

P(\text{wrinkled yellow}) = 3/16, P(\text{wrinkled green}) = 1/16

Would you conclude that Mendal’s experiment is correct at the level of significance \alpha=0.05?

3.10.2 卡方检验

考虑离散型分布的假设检验,X\in \{t_1,\dots,t_m\}.

H_0: P(X=t_i)=p^0_i,\ i=1,\dots,m,\ vs.\ H_1: P(X=t_i)\neq p^0_i,

其中p^0_i\in(0,1)为给定的数且\sum_{i=1}^m p^0_i=1.

皮尔逊卡方检验法(Pearson, 1900)选择检验统计量:

V=\sum_{i=1}^{m} \frac{(v_i-np^0_i)^2}{np^0_i},

其中v_i表示x_{1{:}n}中包含t_i的个数,即v_i=\sum_{j=1}^n 1\{X_j=t_i\}. 注意到,v_inp_i的无偏估计。如果H_0成立,求和里面的\frac{(v_i-np^0_i)^2}{np^0_i}可以看作v_i的相对平方误差。

拒绝域W=\{V>\lambda\}. 可以证明在H_0下,V\stackrel{\cdot}{\sim} \chi^2(m-1);参见专著E. L. Lehmann and J. R. Romano. Testing Statistical Hypothesis (3rd Edition). P591页定理14.3.1. 故取\lambda=\chi^2_{1-\alpha}(m-1).

对Mendel的数据,我们有

  • 卡方检验统计量V=0.604, \chi^2_{1-0.05}(3)=7.81, 所以接受原假设。p值为0.90

  • R代码关键命令为:

chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000)

x = c(315, 108, 102, 31)
p = c(9/16,3/16,3/16,1/16)
chisq.test(x,p=p)
## 
##  Chi-squared test for given probabilities
## 
## data:  x
## X-squared = 0.60432, df = 3, p-value = 0.8954

:上述检验同样可以通过广义似然比检验得到。令V_iX_1,\dots,X_n中包含t_i的个数,v_i为其观测值,i=1,\dots,m. 注意到,(V_1,\dots,V_m)服从多项式分布,数据(v_1,\dots,v_m)的似然函数为

L(p_1,\dots,p_m) = \frac{n!}{\prod_{i=1}^m v_i!}\prod_{i=1}^m p_i^{v_i}.

其中,参数空间为\Theta=\{(p_1,\dots,p_m)\in(0,1)^m|\sum_{i=1}^mp_i=1\}. 由拉格朗日乘子法,不难发现p_1,\dots,p_m的MLE为\hat p_i=v_i/n.

广义似然比为

\begin{align*} \lambda(v_1,\dots,v_m)&=\frac{\sup_{(p_1,\dots,p_m)\in\Theta}L(p_1,\dots,p_m)}{L(p_1^0,\dots,p_m^0)}\\ &=\frac{L(\hat p_1,\dots,\hat p_m)}{L(p_1^0,\dots,p_m^0)}\\ &=\prod_{i=1}^m(\hat p_i/p_i^0)^{v_i}=\prod_{i=1}^m\left(\frac{v_i}{n p_i^0}\right)^{v_i}. \end{align*}

于是,

2\log \lambda(v_1,\dots,v_m) = 2n\sum_{i=1}^m \frac{v_i}{n} [\log\left (\frac{v_i}{n }\right)-\log(p_i^0)].

如果H_0成立,当n充分大时,v_i/n\approx p_i^0. 对函数f(x) = x[\log(x)-\log (x_0)]x=x_0处进行二阶泰勒展开,有

f(x)\approx (x-x_0)+\frac{(x-x_0)^2}{2x_0}.

所以,

2\log \lambda(v_1,\dots,v_m)\approx 2n\sum_{i=1}^m \left(\frac{v_i}{n }-p_i^0\right)+n\sum_{i=1}^m\left(\frac{v_i}{n }-p_i^0\right)^2/p_i^0=\sum_{i=1}^m\frac{\left(v_i-np_i^0\right)^2}{np_i^0}=V,

其中用到\sum_{i=1}^m v_i/n=1,\ \sum_{i=1}^m p_i^0=1. 这表明,广义似然比检验的拒绝域与卡方检验法的拒绝域接近,但是卡方检验法的统计量较为简单。

推广:考虑连续型分布

H_0:F(x)=F_0(x)\ vs.\ H_1:\ F(x)\neq F_0(x), 其中F_0为给定的分布,比如N(0,1). 为了使用卡方检验法,我们需要把连续分布离散化得到一个离散分布进行检验。 把整个实轴分成m份,(-\infty,t_1],\ (t_1,t_2],\dots,(t_{m-2},t_{m-1}],\ (t_{m-1},\infty), 分别计算这m个区间的概率p_i,i=1,\dots,m, v_i表示x_{1{:}n}落到第i个区间的个数, 类似离散的分布的检验。 借鉴直方图法的选取t_{i}m.

3.11 小结

其他检验:

  • 独立性检验

  • 正态性检验

  • 柯尔莫哥洛夫检验法

3.12 本章习题

习题 3.1 Let X_1,\dots,X_{100} be a sample from N(\mu,1). Given a significance level \alpha=0.05, derive a UMP rejection region W of

H_0:\mu=0\ vs.\ H_1:\mu>0.

Let W'=\{x_{1{:}n}:|\bar x| > u_{0.975}/10\} be another rejection region. Show that the significance level for W' is 0.05, and graph the power functions for W and W'. Try to explain that you observed.

习题 3.2 Let X_{1{:}n} be a sample from an exponential distribution Exp(\lambda). Given a significance level \alpha, derive a likelihood ratio test of

H_0:\lambda=\lambda_1\ vs.\ H_1:\lambda=\lambda_2,

where \lambda_1\neq\lambda_2.

习题 3.3 Let X_{1{:}n} be a sample from an exponential distribution Exp(\lambda). Given a significance level \alpha, derive a UMPU test of

H_0:\lambda=\lambda_0\ vs.\ H_1:\lambda\neq\lambda_0.

习题 3.4 Let X_{1{:}n} be a sample from U[0,\theta]. Given a significance level \alpha, derive a UMP test of

H_0:\theta=\theta_0\ vs.\ H_1:\theta>\theta_0.

习题 3.5 Let X_1,X_2,X_3,X_4 be a sample from N(\theta,1). Given a significance level \alpha=0.1, derive a UMP test of

H_0:\theta\ge 10\ vs.\ H_1:\theta<10.

Calculate the power of the test when \theta=9.
习题 3.6 True or false, and state why:
  1. The generalized likelihood ratio statistic \lambda(x_{1{:}n}) (see P.87 of our textbook) is always greater than or equal to 1.

  2. If the p-value is 0.03, the corresponding test will reject at the significance level 0.02.

  3. If a test rejects at significance level 0.06, then the p-value is less than or equal to 0.06.

  4. The p-value of a test is the probability that the null hypothesis is correct.

  5. In testing a simple versus simple hypothesis via the likelihood ratio test, the p-value equals the inverse of the likelihood ratio.

习题 3.7 Case study 1: Mutual funds are investment vehicles consisting of a portfolio of various types of investments. If such an investment is to meet annual spending needs, the owner of shares in the fund is interested in the average of the annual returns of the fund. Investors are also concerned with the volatility of the annual returns, measured by the variance or standard deviation. One common method of evaluating a mutual fund is to compare it to a benchmark, the Lipper Average being one of these. This index number is the average of returns from a universe of mutual funds. The Global Rock Fund is a typical mutual fund, with heavy investments in international funds. It claimed to best the Lipper Average in terms of volatility over the period from 1989 through 2007. Its returns are given in the table below.
Year Investment Return % Year Investment Return %
1989 15.32 1999 27.43
1990 1.62 2000 8.57
1991 28.43 2001 1.88
1992 11.91 2002 −7.96
1993 20.71 2003 35.98
1994 −2.15 2004 14.27
1995 23.29 2005 10.33
1996 15.96 2006 15.94
1997 11.12 2007 16.71
1998 0.37

The standard deviation for the Lipper Average is 11.67\%. Let \sigma^2 denote the variance of the population represented by the return percentages shown in the table above. Consider the test

H_0: \sigma^2=(11.67)^2\ vs.\ H_1:\sigma^2<(11.67)^2.

  • If the significance level \alpha=0.05, what’s your decision?

  • Show up the p-value of your test.

习题 3.8 Case study 2: Forensic scientists sometimes have difficulty identifying the sex of a murder victim whose body is discovered badly decomposed. Often, dental structure can provide useful clues because female teeth and male teeth have different physical and chemical characteristics. The extent to which X-rays can penetrate tooth enamel, for instance, is not the same for the two sexes.

Table below lists the enamel spectropenetration gradients for eight male teeth and eight female teeth. These measurements have all the characteristics of the two-sample format: the data are quantitative, the units are similar, two factor levels (male and female) are involved, and the observations are independent.

Male Female
4.9 4.8
5.4 5.3
5.0 3.7
5.5 4.1
5.4 5.6
6.6 4.0
6.3 3.6
4.3 5.0
Assume that the enamel spectropenetration gradients for male teeth and female teeth are normally distributed. Based on the data above, conduct a test (the significance level \alpha=0.05) to judge whether female teeth and male teeth have different physical and chemical characteristics.
  • Assume that their variances are the same, what’s your decision?

  • If you were not able to have the prior information that their variances are the same, what would you do? This is the case of Behrens-Fisher Problem.

  • The data are paired. Is it possible to do a paired test, without judging whether their variances are the same?

习题 3.9 Case study 3: The National Center for Health Statistics (1970) gives the following data on distribution of suicides in the United States by month in 1970. Is there any evidence that the suicide rate varies seasonally, or are the data consistent with the hypothesis that the rate is constant (the significance level \alpha=0.05)? (Hint: Under the latter hypothesis, model the number of suicides in each month as a multinomial random variable with the appropriate probabilities and conduct a goodness-of-fit test.)

Month Number of Suicides Days/Month
Jan. 1867 31
Feb. 1789 28
Mar. 1944 31
Apr. 2094 30
May 2097 31
June 1981 30
July 1887 31
Aug. 2024 31
Sept. 1928 30
Oct. 2032 31
Nov. 1978 30
Dec. 1859 31
习题 3.10 Case study 4: Under (the assumption of) simple Mendelian inheritance, a cross between plants of two particular genotypes produces progeny 1/4 of which are “dwarf” and 3/4 of which are “giant”, respectively. In an experiment to determine if this assumption is reasonable, a cross results in progeny having 243 dwarf and 682 giant plants. If “giant” is taken as success, the null hypothesis is that p =3/4 and the alternative that p \neq 3/4.
  • Let X_i,i=1,\dots,n be the sample of the population B(1,p). By central limit theorem (CLT), the distribution of \bar X can be approximated by a normal distribution N(p,p(1-p)/n). Please use this approximation to do the binominal test above.

  • Actually, we can do the exact binominal test according to the formula given in P.114 of our textbook. Compare the results in the exact test and the approximate test for significance levels \alpha=0.05,0.01,0.001.