第 2 章 估计
2.1 参数估计
在实际问题中,对于一个总体X往往是仅知其分布的类型Fθ,而参数θ=(θ1,…,θm)∈Θ⊂Rm是未知的。对任给的实值函数
g: Rm→R,
如何根据X的样本x1,…,xn估计g(θ)的值呢?这就是统计推断中的“参数估计”问题。
点估计:寻找一个统计量ˆθ=T(X1,…,Xn)作为θ的点估计
区间估计:寻找两个统计量ˆθ1=T1(X1,…,Xn), ˆθ2=T2(X1,…,Xn),所构成的区间[ˆθ1,ˆθ2]作为 θ的区间估计
例 2.1 设X∼N(μ1+μ2,σ2), 则不难发现θ=(μ1,μ2,σ2)是不可识别的。估计参数θ是没有统计意义的。
考虑一个测量问题(如温度、血压、距离等),记测量对象真实值为θ,n次测量数据为x1,x2,…,xn。相信大部分人都会用样本均值
ˉx=x1+⋯+xnn 来估计θ。但是,为什么用样本均值估计是合理的呢?这是最好的估计方式吗?这些是本章重点讨论的问题。
2.1.1 矩估计法
矩估计的想法来源于大数定理。如果总体X存在k阶矩,对任意ϵ>0,
lim
这说明,当样本容量n较大时,样本k阶矩与总体k阶矩差别很小。矩法估计就是用样本k阶矩代替总体的k阶矩。通常用\hat{\theta}_M表示。一般步骤如下:
列出估计式E[X^k]=g_k(\theta_1,\dots,\theta_m),\ k=1,\dots,m.
求解关于估计量的方程组\theta_k = \theta_k(E[X^1],\dots,E[X^m])
用M_k=\frac 1 n\sum_{i=1}^n X_i^k替代E[X^k]得到矩估计\hat\theta_k = \theta_k(M_1,\dots,M_m)
解. (1)列出估计式
\begin{cases} E[X] &= \mu\\ E[X^2] &= \mu^2+\sigma^2 \end{cases}
(2)求解关于估计量的方程组
\begin{cases} \mu &= E[X]\\ \sigma^2 &= E[X^2]-(E[X])^2 \end{cases}
所以,\hat{\mu}_M = \bar X, \hat{\sigma}^2_M = \frac{1}{n}\sum_{i=1}^n X_i^2-(\bar X)^2 = S_n^2.注:不难证明,总体的各阶中心矩的矩估计就是样本各阶中心矩。
解. 易知,E[X]=(a+b)/2,\ Var[X]= (b-a)^2/12.
所以,
\begin{cases} a &= E[X]-\sqrt{3Var[X]}\\ b &= E[X]+\sqrt{3Var[X]} \end{cases}
\begin{cases} \hat a_M &= \bar{X}-\sqrt{3}S_n\\ \hat b_M &= \bar{X}+\sqrt{3}S_n \end{cases}例 2.4 设总体X的分布密度为
f(x)=\frac{\theta}{2}e^{-\theta|x|},\ x\in\mathbb{R}, \theta>0.
求\theta的矩估计。解. E[X]= 0,\ E[X^2]=\int_{-\infty}^{\infty}x^2\frac{\theta}{2}e^{-\theta|x|}d x=\theta\int_{0}^{\infty}x^2e^{-\theta x}d x=\frac{2}{\theta^2}
\hat{\theta}_M=\sqrt{\frac{2n}{\sum_{i=1}^n X_i^2}}.
除外,还可以由E[|X|]=1/\theta得到另一种矩估计。2.1.2 最大似然估计法
最大似然估计法最早由高斯(C.F.Gauss)提出,后来被 Fisher完善。最大似然估计这一名称也是Fisher给的。这是一个目前仍得到广泛应用的方法。它是建立在最大似然原理基础上的一个统计方法。
最大似然原理:最先出现的是概率最大的
定义 2.2 假设总体X为离散随机变量,其分布函数记为P(X=x)=f(x;\theta),与参数\theta相关。设X_1,\dots,X_n为其样本,x_1,\dots,x_n为该样本的观测值。样本的似然函数(likelihood function)定义为观测到样本x_1,\dots,x_n的概率
L(x_1,\dots,x_n;\theta)=P(X_1=x_1,\dots,X_n=x_n)=\prod_{i=1}^{n}f(x_i;\theta).固定参数\theta,似然函数L(x_1,\dots,x_n;\theta)为样本的概率质量函数(Probability Mass Function, PMF)。另一方面,给定样本观测值x_1,\dots,x_n,似然函数L(x_1,\dots,x_n;\theta)是一个关于\theta的函数,其中\theta\in\Theta,有时简记为L(\theta)。
例 2.6 设总体X\sim B(1,p), 从中抽取样本的观测值为1,1,0,0,1. 不难计算似然函数为
L(p)=p^3(1-p)^2,\ p\in (0,1).图像如下
对于该数据,不同p的值得到不同的概率。现在要估计p的值,一种合理的方式是找出使得该概率最大对应p的值作为估计值。这就是最大似然估计的核心思想。通过简单的计算,可以发现L(p)的最大值点发生在p=0.6. 因此,0.6可以作为p的估计值。
更一般地,给定样本观测值(x_1,\dots,x_n), 记L(x_1,\dots,x_n;\theta)的最大值点为\theta=T(x_1,\dots,x_n). 则\theta的最大似然估计量(MLE, maximum likelihood estimator)为 \hat{\theta}_L=T(X_1,\dots,X_n).
对于上述例子,如果观测数据是x_1,\dots,x_n,似然函数则为
L(x_1,\dots,x_n;p)=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}.
令y=\sum_{i=1}^nx_i。为了便于计算,对似然函数取对数变换,得到对数似然函数为:
\ln L = y \ln p + (n-y)\ln (1-p). 对数似然函数的极大值点与似然函数的极大值点一致。故求其求导可得,对数似然方程为:
\frac{d \ln L}{d p} = y/p - (n-y)/(1-p)=0. 解得p= y/n=\frac{1}{n}\sum_{i=1}^nx_i. 因为\frac{d^2\ln L}{d p^2}<0, 所以p= y/n是极大值。最大似然估计量为\hat{p}_L = \bar X.
如果X是连续的总体,似然函数该如何定义?此时,若沿用上述定义,由于连续型随机变量在某点发生的概率为零,则有P(X_1=x_1,\dots,X_n=x_n)=0. 然而,在该点一个领域的概率不为零。不妨考虑样本落在观测值点一个小邻域的概率。记O(x,\delta) = (x-\delta,x+\delta)为x的\delta邻域,则当\delta比较小时,
P(X\in O(x,\delta)) = F(x+\delta;\theta)-F(x-\delta;\theta) \approx f(x;\theta)\delta, 其中F和f分别为X的分布函数和密度函数。现考虑样本落在x_1,\dots,x_n的附近的概率,
P(X_1\in O(x_1,\delta_1),\dots,X_n\in O(x_n,\delta_n))\approx (\prod_{i=1}^n\delta_i)\prod_{i=1}^n f(x_i;\theta), 其中\delta_i为比较小的常数。从中可以看出,该概率的大小与\prod_{i=1}^n f(x_i;\theta)相关。我们把它定义成连续总体下样本的似然函数,即
L(x_1,\dots,x_n;\theta)=\prod_{i=1}^n f(x_i;\theta). 此时,样本的似然函数为样本的联合密度函数。
更一般的情形,样本不一定是独立同分布,此时似然函数同样可以定义为该样本的联合密度函数。本质上,似然函数是刻画样本在给定观测值处的“可能性”。PMF/PDF用来衡量这种“可能性”。
最大似然估计的一般步骤归纳如下:
第一步:写出似然函数L(x_1,\dots,x_n;\theta)
第二步:若似然函数L是\theta的可微函数,则最大值必然满足似然方程
\frac{d L}{d \theta}=0
解出\theta, 并验证其是否是极大值:\frac{d^2 L}{d \theta^2}<0.
注1:为方便求导,一般求对数似然函数\ln L(x_1,\dots,x_n;\theta)求极大值点
注2:若有多个参数\theta_1,\dots,\theta_m,对每个变量求偏导,联立m个方程求解
注3:(对数)似然方程的解称为“驻点”(stationary point),可能为(局部)极大或者极小值点,也可能为鞍点(saddle point),为了进一步区分需要求 Hessian矩阵并分析其正定性。

图 2.1: 三种类型的驻点
解. 似然函数为
L(x_1,\dots,x_n;\mu,\sigma^2)=\prod_{i=1}^{n}f(x_i)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x_i-\mu)^2/(2\sigma^2)}
令\theta_1=\mu,\theta_2=\sigma^2, 对数似然函数为:
\ln L = -(n/2)\ln (2\pi)-(n/2)\ln\theta_2-\frac{\sum_{i=1}^n(x_i-\theta_1)^2}{2\theta_2}
对数似然方程组为:
\begin{cases} \frac{\partial \ln L}{\partial \theta_1} &=\frac{\sum_{i=1}^n(x_i-\theta_1)}{\theta_2}=0\\ \frac{\partial \ln L}{\partial \theta_2} &=-\frac{n}{2\theta_2}+\frac{\sum_{i=1}^n(x_i-\theta_1)^2}{2\theta_2^2}=0 \end{cases}
解得\hat{\mu}_L=\bar X,\ \hat{\sigma}^2_L = S_n^2. (可以验证二阶导函数非正定,即取得极大值。)L(x_1,\dots,x_n;a,b)=\frac{1}{(b-a)^n}\prod_{i=1}^{n} 1\{a\le x_i\le b\}
注意到L关于a,b不可微。容易观察到,当a=\min_{i=1,\dots,n}\{x_i\},\ b=\max_{i=1,\dots,n}\{x_i\}时L取得最大值。故
\hat{a}_L = X_{(1)},\ \hat{b}_L = X_{(n)}.
关于最大似然估计的一些说明:
最大似然估计的不变性:如果\hat{\theta}是\theta的最大似然估计,则对任一函数g(\theta), 其最大似然估计为g(\hat{\theta}).
当分布中有多余的参数或者数据为截尾或缺失时,似然函数的求极大值比较困难。针对这种问题,文献
Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. (cited by 54539, 2018/8/18)
提出了一种有效的Expectation–Maximization (EM)算法。
2.1.3 矩估计与最大似然估计的对比
- 矩估计法(也称数字特征法)
- 直观意义比较明显,但要求总体k阶矩存在。
- 缺点是不唯一,此时尽量使用样本低阶矩。
- 观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。
- 估计值可能不落在参数空间
- 极大似然估计法
- 具有一些理论上的优点(不变性、渐近正态性)
- 缺点是如果似然函数不可微,没有一般的求解法则。
分布名称 | 记号 | 期望 | 方差 | 矩估计 | 极大似然估计 |
0-1分布 | B(1,p) | p | pq | \hat p_M=\bar{X} | \hat p_L=\bar{X} |
泊松分布 | Pois(\lambda) | \lambda | \lambda | \hat{\lambda}_M=\bar{X} | \hat{\lambda}_L=\bar{X} |
几何分布 | Geo(p) | 1/p | q/p^2 | \hat p_M=1/\bar{X} | \hat p_L=1/\bar{X} |
均匀分布 | \mathbb{U}[a,b] | (a+b)/2 | (b-a)^2/12 | \hat{a}_M=\bar X-\sqrt{3}S_n | \hat{a}_L=X_{(1)} |
\hat{b}_M=\bar X+\sqrt{3}S_n | \hat{b}_L=X_{(n)} | ||||
指数分布 | Exp(\lambda) | 1/\lambda | 1/\lambda^2 | \hat{\lambda}_M=1/\bar{X} | \hat{\lambda}_L=1/\bar{X} |
正态分布 | N(\mu,\sigma^2) | \mu | \sigma^2 | \hat{\mu}_M=\bar X | \hat{\mu}_L=\bar X |
\hat{\sigma}^2_M = S_n^2 | \hat{\sigma}^2_L = S_n^2 |
2.1.4 混合正态分布的参数估计
假设总体X的分布为:以概率\lambda服从N(\mu_1,\sigma_1^2), 以概率1-\lambda服从N(\mu_2,\sigma_2^2)。该混合分布的密度函数为
f(x;\lambda,\mu_1,\sigma_1^2,\mu_2,\sigma_2^2)=\frac{\lambda}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}+\frac{1-\lambda}{\sqrt{2\pi}\sigma_2}e^{-\frac{(x-\mu_2)^2}{2\sigma_2^2}}.
样本似然函数为:
L(\lambda,\mu_1,\sigma_1^2,\mu_2,\sigma_2^2) = \prod_{i=1}^n \left[\frac{\lambda}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x_i-\mu_1)^2}{2\sigma_1^2}}+\frac{1-\lambda}{\sqrt{2\pi}\sigma_2}e^{-\frac{(x_i-\mu_2)^2}{2\sigma_2^2}}\right].
不难发现,似然函数是无界的(见习题),所以最大似然估计不存在。然而,如果我们有先验的信息:\sigma_1=k\sigma_2,其中k是已知的数(比如1)。似然函数则可表示为:
L(\lambda,\mu_1,\mu_2,\sigma_2^2) =\prod_{i=1}^n\left[ \frac{\lambda}{\sqrt{2\pi}k\sigma_2}e^{-\frac{(x_i-\mu_1)^2}{2k^2\sigma_2^2}}+\frac{1-\lambda}{\sqrt{2\pi}\sigma_2}e^{-\frac{(x_i-\mu_2)^2}{2\sigma_2^2}}\right].
此时,似然函数是有界的,所以最大似然估计存在。
设Y_i=1表示X_i来自N(\mu_1,\sigma_1^2)分布,Y_i=2表示X_i来自N(\mu_2,\sigma_2^2)分布。假设我们可以观测Y_i的值,基于样本(X_i,Y_i),i=1,\dots,n,我们可以得到\lambda,\mu_1,\sigma_1^2,\mu_2,\sigma_2^2的最大似然估计。
令I = \{i=1,\dots,n|y_i=1\}, 则似然函数为
\begin{align*} L(\lambda,\mu_1,\sigma_1^2,\mu_2,\sigma_2^2)&=\prod_{i\in I} \frac{\lambda}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x_i-\mu_1)^2}{2\sigma_1^2}} \prod_{i\notin I}\frac{1-\lambda}{\sqrt{2\pi}\sigma_2}e^{-\frac{(x_i-\mu_2)^2}{2\sigma_2^2}}\\ &=\lambda^{|I|}(1-\lambda)^{n-|I|}\prod_{i\in I} \frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x_i-\mu_1)^2}{2\sigma_1^2}} \prod_{i\notin I}\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{(x_i-\mu_2)^2}{2\sigma_2^2}}. \end{align*}
则只需分别求出上式中三部分的最大值点即可。对于第一部分,不难发现\hat\lambda = \frac 1 n\sum_{i=1}^n1\{Y_i=1\}. 后两部分等价于求样本为\{X_i,i\in I\}和\{X_i,i\notin I\}时,对应正态总体的最大似然估计,所以最大似然估计分别为
\hat{\mu}_1=\frac{1}{|I|}\sum_{i\in I} X_i=\frac{\sum_{i=1}^nX_i\cdot1\{Y_i=1\}}{\sum_{i=1}^n1\{Y_i=1\}},
\hat{\sigma_1^2} = \frac{1}{|I|} \sum_{i\in I}(X_i-\hat{\mu}_1)^2=\frac{\sum_{i=1}^n(X_i-\hat\mu_1)^2\cdot1\{Y_i=1\}}{\sum_{i=1}^n1\{Y_i=1\}},
\hat{\mu}_2=\frac{\sum_{i=1}^nX_i\cdot1\{Y_i=2\}}{\sum_{i=1}^n1\{Y_i=2\}},\ \hat{\sigma_2^2} =\frac{\sum_{i=1}^n(X_i-\hat\mu_2)^2\cdot1\{Y_i=2\}}{\sum_{i=1}^n1\{Y_i=2\}}. 上述三式要求分母,否则相应部分的估计量可以为任意常数。
上述问题不难推广到K\ge 3个不同正态分布的混合的情形。然而,大部分问题,Y_i是不可观测的(即无标签)。Kiefer (1978) 证明了样本X_i的似然方程的某个解(对应局部极大值)也是有效的估计量,同样会收敛到真值。这说明了,似然方程的极大值点也可以作为一个有效的估计量。如何找到似然方程的极大值点?我们可以利用EM算法找出似然函数局部极大值点。参考:
另一方面,对于混合正态分布,我们可以通过矩法得到五个参数的估计量。Cohen (1967)给出了矩法估计的一般公式,转化成求一个9次多项式方程的负根。
2.1.5 EM算法
Expectation-Maximization (EM) 算法是由Dempster et al. (1977)提出。该算法的推导用到Jensen不等式。
定理 2.1 (Jensen不等式) 设A为\mathbb{R}^k中凸集,f(x)为A上凸函数,即对任意\lambda\in[0,1], x,y\in A,恒有
f(\lambda x+(1-\lambda)y)\le \lambda f(x)+(1-\lambda)f(y). 如果k维随机向量X满足P(X\in A)=1,则有
f(E[X])\le E[f(X)].
进而,如果f为严格凸函数,f(E[X])=E[f(X)]当且仅当P(X=E[X])=1,即X为常数向量。 换言之,如果f为严格凸函数且X不为常数向量,则f(E[X])<E[f(X)].
如果f是凹函数,则定理中的不等式变号。注意到\ln x是(0,\infty)上的严格凹函数,应用Jensen不等式得到下面一个结果。
例 2.9 如果X为一个取值为正的非常数随机变量,则有E[\ln X]<\ln (E[X]).
EM算法用于求解不完备数据的极大似然估计。 设完备数据为x=(y,z),其中y为观测数据(向量),z不可观测,称为潜变量。直接对观测数据求最大似然估计比较困难。 注意到观测数据的似然函数为
\begin{align*} L(\theta|y) &= \int p(y,z|\theta)dz=\int q(z|\eta)\frac{p(y,z|\theta)}{q(z|\eta)}dz\\ &=E_{q(z|\eta)}\left[\frac{p(y,z|\theta)}{q(z|\eta)}\right], \end{align*}
其中p(y,z|\theta)为完全数据的密度函数, q(z|\eta)为密度函数且满足:如果q(z|\eta)=0,则p(y,z|\theta)=0。对数似然函数
\ell(\theta|y)= \ln \left(E_{q(z|\eta)}\left[\frac{p(y,z|\theta)}{q(z|\eta)}\right]\right)\ge E_{q(z|\eta)}\left[\ln \left(\frac{p(y,z|\theta)}{q(z|\eta)}\right)\right]=:Q(q(z|\eta),\theta).
上式用到Jensen不等式
,当且仅当p(y,z|\theta)/q(z|\eta)为常数(即不依赖z)时,上式等号成立,由于\int q(z|\eta)dz =1,不难得到
q(z|\eta)=\frac{p(y,z|\theta)}{p(y|\theta)}=p(z|y,\theta)=:q^*(z|\theta). 此时,\ell(\theta|y) = Q(q^*(z|\theta),\theta). 否则\ell(\theta|y)>Q(q(z|\eta),\theta). 假设第t步的估计值为\theta_t,构造如下迭代算法
\theta_{t+1} = \arg\max_{\theta\in\Theta} Q(q^*(z|\theta_t),\theta).
注意到,\ell(\theta_{t+1}|y)\ge Q(q^*(z|\theta_t),\theta_{t+1})\ge Q(q^*(z|\theta_t),\theta_{t})=\ell(\theta_t|y). 如果p(y,z|\theta_{t+1})/p(y,z|\theta_t)与z相关(即不为常数向量),则有\ell(\theta_{t+1}|y)>\ell(\theta_t|y). 所以,该迭代算法使得似然函数单调递增。如果\theta_t收敛到\theta^*,那么在满足一定条件下,\theta^*为似然函数的驻点。
注意到
Q(q^*(z|\theta_t),\theta)=E_{p(z|y,\theta_t)}\left[\ln \left(p(y,z|\theta)\right)\right]-E_{p(z|y,\theta_t)}\left[\ln \left(p(z|y,\theta_t)\right)\right]. 上式等式最后一项与\theta无关,所以优化问题等价于
\theta_{t+1} = \arg\max_{\theta\in\Theta} E_{p(z|y,\theta_t)}\left[\ln \left(p(y,z|\theta)\right)\right].
EM算法包含两步:
第一步求期望E_{p(z|y,\theta_t)}\left[\ln \left(p(y,z|\theta)\right)\right], 该期望称为预期的对数似然函数。
第二步则求预期的对数似然函数最大值。
以下定理保证该迭代算法收敛到似然函数的驻点。
例 2.10 假设完备数据(y,z)服从指数型分布族
p(y,z|\theta) = c(\theta)\exp\left(\sum_{i=1}^k T_i(y,z)c_i(\theta)\right)h(y,z).
则对数似然函数为: \ln p(y,z|\theta) = \ln c(\theta)+\sum_{i=1}^k T_i(y,z)c_i(\theta)+\ln h(y,z).
则
\begin{align*} \theta_{t+1} &= \arg\max_{\theta\in\Theta} E_{p(z|y,\theta_t)}\left[\ln c(\theta)+\sum_{i=1}^k T_i(y,z)c_i(\theta)+\ln h(y,z)\right]\\ &=\arg\max_{\theta\in\Theta} \left\lbrace\ln c(\theta)+\sum_{i=1}^k c_i(\theta)E_{p(z|y,\theta_t)}[T_i(y,z)]\right\rbrace. \end{align*}
要求解该优化问题,只须求E_{p(z|y,\theta_t)}[T_i(y,z)]=E_{\theta_t}[T_i(y,z)|y]的表达式即可。
例 2.11 再次考虑混合正态分布。设完全数据x=((y_i,z_i),i=1,\dots,n)=(y,z),其中z_i=1或者2, 当z_i=1是表示Y_i\sim N(\mu_1,\sigma_1^2),当z_i=2是表示Y_i\sim N(\mu_2,\sigma_2^2). 这里分类变量z_i是不可以观测。注意到直接对观测数据y构建似然函数,然后求极大值是非常困难的。下面我们通过EM算法求解。记\theta=(\mu_1,\sigma_1^2,\mu_2,\sigma_2^2,\lambda). 完全数据的对数似然函数为
\ln p(y,z|\theta)=\sum_{i=1}^n \ln p(y_i,z_i|\theta) = \sum_{i=1}^n \ln p(y_i|z_i,\theta)+\ln p(z_i|\theta).
首先计算
\begin{align*} &E_{p(z|y,\theta_t)}[\ln p(y,z|\theta)]=E_{p(z|y,\theta_t)}\left[\sum_{i=1}^n \ln p(y_i|z_i,\theta)+\ln p(z_i|\theta)\right]\\ &=\sum_{i=1}^n \sum_{j=1}^2 P(z_i=j|y_i,\theta_t)[-\frac 1 2\ln (2\pi)-\ln\sigma_j-\frac{(x_i-\mu_j)^2}{2\sigma_j^2}+\ln p(z_i=j|\theta)]\\ &=-\frac 12\sum_{i=1}^n \sum_{j=1}^2 w_{ij}[\ln \sigma_j^2+(y_i-\mu_j)^2/\sigma_j^2]+\sum_{i=1}^n [w_{i1}\ln\lambda+w_{i2}\ln(1-\lambda)]\\ &=s_1(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)+s_2(\lambda). \end{align*}
其中,
\begin{align*} w_{ij}&= P(z_i=j|y_i,\theta_t)=\frac{p(y_i|z_i=j,\theta_t)p(z_i=j|\theta_t)}{\sum_{j=1}^2p(y_i|z_i=j,\theta_t)p(z_i=j|\theta_t)}\\ &=\frac{\phi(y_i;\mu_{j,t},\sigma_{j,t}^2)(\lambda_{t}1\{j=1\}+(1-\lambda_{t})1\{j=2\})}{\lambda_{t}\phi(y_i;\mu_{1,t},\sigma_{1,t}^2)+(1-\lambda_{t})\phi(y_i;\mu_{2,t},\sigma_{2,t}^2)}, \end{align*}
s_1(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)=-\frac 12\sum_{i=1}^n \sum_{j=1}^2 w_{ij}[\ln \sigma_j^2+(y_i-\mu_j)^2/\sigma_j^2],
s_2(\lambda)=\sum_{i=1}^n [w_{i1}\ln\lambda+w_{i2}\ln(1-\lambda)],
\phi(x;\mu,\sigma^2)为N(\mu,\sigma^2)的密度函数。 注意到w_{ij}与\theta无关,可视为常数。对E_{p(z|y,\theta_t)}[\ln p(y,z|\theta)]求最大值,等价于分别对s_1,s_2两部分求最大值。先考虑对第一部分s_1(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)求最大值. 对\mu_j求偏导得到
\frac{\partial s_1(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)}{\partial \mu_j}=\sum_{i=1}^n w_{ij}[(y_i-\mu_j)/\sigma_j^2]=0. 于是有
\mu_{j,t+1}=\frac{\sum_{i=1}^nw_{ij}y_{i}}{\sum_{i=1}^nw_{ij}}, j=1,2.
对求\sigma^2_j偏导得到
\frac{\partial s_1(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)}{\partial \sigma^2_j}=-\frac 12\sum_{i=1}^n w_{ij}\left[\frac 1{\sigma_j^2}-\frac{(y_i-\mu_j)^2}{\sigma_j^4}\right]=0.
于是有
\sigma_{j,t+1}^2=\frac{\sum_{i=1}^nw_{ij}(y_i-\mu_{j,t+1})^2}{\sum_{i=1}^nw_{ij}}.
考虑第二部分s_2(\lambda)求最大值. 对\lambda求导得,
s_2'(\lambda)=\sum_{i=1}^n\left(\frac{w_{i1}}{\lambda}-\frac{w_{i2}}{1-\lambda}\right)=0.
于是有
\lambda_{t+1}=\frac{\sum_{i=1}^nw_{i1}}{\sum_{i=1}^n\sum_{j=1}^2w_{ij}}=\frac{1}{n}\sum_{i=1}^nw_{i1}.

图 2.2: EM算法求解混合正态分布,红色为真实值,n=10000
2.2 估计的优良性标准
前面介绍了点估计中两种经典的方法,对于同一个问题,两种方法得到的估计量可能不一样。自然要问,哪种最好? 本节讨论估计量的优良性质。
2.2.1 无偏性
定义 2.3 设总体X\sim F(x;\theta),\theta\in \Theta, T(X_1,\dots,X_n)为g(\theta)的估计量。
- 无偏估计量:
E[T(X_1,\dots,X_n)]=g(\theta), \forall \theta\in \Theta
- 渐近无偏估计量:
无偏性意味着:虽然估计量T由于随机可能偏离真值g(\theta), 但取其平均值(期望)却等于g(\theta). 即没有系统偏差。
样本均值是总体的均值的无偏估计,即E[\bar X]=E[X]
样本方差是总体方差的渐近无偏估计,即\lim_{n\to \infty}E[S_n^{2}]=Var[X]
修正样本方差是总体方差的无偏估计,即E[S_n^{*2}]=Var[X]
如果g(\theta)存在无偏估计量,则称g(\theta)是可估的。但注意不是所有的参数估计都存在一个无偏估计量。
证明. 假设T(X_1,\dots,X_n)为1/\theta无偏估计量。不妨考虑n=1情形,
E[T] = \sum_{i=0}^k C_k^i \theta^i(1-\theta)^{k-i} T(i)=:h(\theta). 显然当\theta\to 0, h(\theta)\to T(0), 但\frac{1}{\theta}\to \infty. 所以,E[T]\neq 1/\theta.此外,还应当注意一点是:无偏估计量不一定比有偏的估计量好(如下图所示)。下节给出一个评判标准,并通过一个具体的例子说明有时候有偏估计量更好。

图 2.3: 无偏VS有偏
2.2.2 均方误差
定义 2.4 设T(X_1,\dots,X_n)为g(\theta)的估计量,其均方误差 (mean squared error, MSE)为
M_{\theta}(T):=E_\theta[(T(X_1,\dots,X_n)-g(\theta))^2].
均方根误差 (root mean squared error, RMSE)为
R_{\theta}(T):=\sqrt{E_\theta[(T(X_1,\dots,X_n)-g(\theta))^2]}.注意到:
M_{\theta}(T)=(E[T]-g(\theta))^2+Var(T)=\text{偏差}^2+\text{方差}.
注:如果T是g(\theta)的无偏估计,则M_{\theta}(T)=Var(T)
比较两个估计量的优劣
定义 2.5 若T_1(X_1,\dots,X_n)和T_2(X_1,\dots,X_n)都为g(\theta)的估计量,
- 如果M_{\theta}(T_1)\le M_{\theta}(T_2),\forall \theta\in \Theta, 则称T_1不次于T_2。
- 在此基础上,如果存在一个\theta_0\in\Theta使得M_{\theta_0}(T_1)< M_{\theta_0}(T_2), 则称T_1比T_2有效。
解. E[\hat{\mu}]=\mu\Leftrightarrow \sum_{i=1}^nC_i = 1
Var[\hat{\mu}]=\sigma^2\sum_{i=1}^nC_i^2\ge \sigma^2\frac{(C_1+\dots+C_n)^2}{n}=\frac{\sigma^2}{n}.
而且唯一的最小值在C_i=1/n,i=1,\dots,n处取得。例 2.14 设X_1,\dots,X_n为N(\mu,\sigma^2)分布的样本,参数\mu,\sigma^2未知。样本方差S_n^2与修正样本方差S_n^{*2}作为\sigma^2的两种估计量,哪个更有效?
解. 由于S_n^{*2}是无偏的,所以均方误差
M(S_n^{*2}) = Var[S_n^{*2}]=\frac{2\sigma^4}{n-1}.
对S_n^{2}, 其均方误差为
\begin{align*} M(S_n) &= Var[S_n^{2}]+(E[S_n^2]-\sigma^2)^2\\ &=\frac{2(n-1)\sigma^4}{n^2}+(\frac{(n-1)\sigma^2}{n}-\sigma^2)^2 \\&=\frac{(2n-1)\sigma^4}{n^2}. \end{align*}
又
\frac{M(S_n^{*2})}{M(S_n^{2})}=\frac{2n^2}{(n-1)(2n-1)}>1
所以,S_n^{2}比S_n^{*2}有效。
启发:无偏估计量不一定是最有效的。
思考:对于上题,考虑估计量T_k=k\sum_{i=1}^n(X_i-\bar X)^2,其中k为给定常数。特别地,当k=1/n时,T_k=S_n^2;当k=1/(n-1)时,T_k=S_n^{*2}。样本方差S_n^{2}是不是比其它的T_k更有效?如果不是,那么最优的k是多少?
2.2.3 一致最小方差无偏估计
定义 2.6 如果T_0(X_1,\dots,X_n)为g(\theta)的无偏估计,如果对于g(\theta)的任意无偏估计量T(X_1,\dots,X_n)都有
Var[T_0]\le Var[T],\ \forall\theta\in\Theta,
则称T_0为g(\theta)的一致最小方差无偏估计量 (uniformly minimum-variance unbiased estimator, UMVUE)。 如果Var[T_0]\le Var[T]在\theta=\theta_0处成立,则称T_0为g(\theta)的局部最小方差无偏估计量 (locally minimum-variance unbiased estimator, LMVUE)。例 2.15 令X为取值-1,0,1,\dots的离散型随机变量,分布为
P(X=-1)=p,\ P(X=k)=q^2p^k,\ k=0,1,\dots, 其中0<p<1,\ q=1-p。现考虑用X来估计p和q^2. 对于估计p,一个简单的无偏估计为
T_1 = 1\{X=-1\}. 对于估计q^2,一个简单的无偏估计为 T_2 = 1\{X=0\}. 为求解最小方差估计量,现介绍以下引理。对于上例,考虑“零”的无偏估计U=U(X)。注意到,
\begin{align*} E[U]&=\sum_{i=-1}^\infty U(i)P(X=i)\\ &=pU(-1)+q^2\sum_{i=0}^\infty U(i)p^i=0,\ \forall p\in(0,1). \end{align*}
令p\to 0, 可得U(0)=0. 于是,
\sum_{k=1}^\infty U(k)p^{k-1} + \frac{U(-1)}{(1-p)^2}=0. 注意到1/(1-p)^2=\sum_{k=1}^\infty kp^{k-1}. 则有
\sum_{k=1}^\infty [U(k)+kU(-1)]p^{k-1} =0. 由于上式对于任意p\in (0,1),则所有系数应该为零,即U(k)=-kU(-1),k=1,\dots,\infty. 这意味着,U为“零”的无偏估计量当且仅当U(k)=ak对于所有的k=-1,0,1,\dots和某个a。要使方差最小等价于最小化二阶矩:
E[(T_i-U)^2]=\sum_{k=-1}^\infty P(X=k)[T_i(k)-ak]^2,\ i=1,2.
两种情况下,最小值点分别为
a_1^* = -\frac{p}{p+q^2\sum_{k=1}^\infty k^2p^k},\ a_2^*=0. 由于a_2^*不依赖p,所以T_2^*=T_2-a_2^*X=T_2是UMUVE. 但a_1^*依赖p,所以T_1^*=T_1-a_1^*X是LMUVE,对于估计p,不存在一致最小方差无偏估计量。
通过这个例子,我们发现对于同一总体,有些参数估计问题存在UMVUE,有些则不存在。那么自然要问,什么情况下所有可估的参数一定存在UMVUE?Blackwell, Rao, Lehmann, Scheffe等统计学家获得了一系列寻求UMVUE的理论和方法。为解决这个问题,下面先引入完全统计量的概念。
如何理解统计量的完全性?假设非常数统计量T的分布与参数\theta无关,则对于所有的函数u(x), E[u(T)]的值为常数c,与\theta无关。这表明E[u(T)-c]=0对任意的\theta成立,但由于u的任意性,u(T)-c可以不为零(比如取u(T)=T),故T不可能为完全统计量。如果统计量T的分布与参数\theta无关,我们称此类统计量为辅助统计量。这类统计量不包含参数信息,故认为是“辅助的”。完全性排除了非常数辅助统计量。
证明. 注意到T\sim B(n,p)。假设对一切p\in(0,1)都有E[u(T)]=0,则
E[u(T)]=\sum_{i=0}^{n}u(i)C_n^ip^i(1-p)^{n-i}= 0. 令y=p/1-p,则对任意y\in \mathbb{R}都有\sum_{i=0}^n C_n^iu(i)y^i=0。等式左边为y的多项式,所以该多项式的所有系数均为0,即u(i)=0,\ i=0,\dots,n. 这意味着u(T)=0. 这就说明T为完全统计量。定理 2.3 考虑指数型分布族\mathcal{F}=\{f_\theta(x);\theta\in\Theta\}中的分布f_\theta(x)(分布列或者密度函数)都可以表示成如下形式:
f_\theta(x)=c(\theta)\exp\{\sum_{j=1}^kc_j(\theta)T_j(x)\}h(x). 如果\Theta有内点,则该分布族的充分统计量
\left(\sum_{i=1}^nT_1(x_i),\dots,\sum_{i=1}^nT_k(x_i)\right) 是完全的。证明. 设T_1为g(\theta)的任意无偏估计量,记\psi_1(t) = E[T_1|T=t]. 由于T是充分统计量,所以\psi_1(t)与参数\theta无关,即\psi_1(T)=E[T_1|T]为一统计量。由全期望公式知,E[\psi_1(T)]=E[E[T_1|T]]=E[T_1]=g(\theta). 所以\psi_1(T)为g(\theta)的无偏估计量。 由全方差公式知,
Var[T_1] = E[Var[T_1|T]]+Var[E[T_1|T]]\ge Var[\psi_1(T)].
同理,设T_2为g(\theta)的另一无偏估计量,\psi_2(T)=E[T_2|T]同样是无偏的,且Var[\psi_2(T)]\le Var[T_2]. 令u(x) = \psi_2(x)-\psi_1(x). 则E[u(T)]=E[\psi_2(T)]-E[\psi_1(T)]=0. 由于T是完全统计量,所以P(\psi_2(T)=\psi_1(T))=1, 这表明\psi_2(T)和\psi_1(T)在概率意义上是相等的,为UMVUE.该定理表明如果存在完全充分统计量T,UMVU估计量必然可以表示为该统计量的函数\psi(T)。根据这个性质可以求解UMVU估计量,即求解方程
E[\psi(T)]=g(\theta), \forall \theta\in\Theta.
解. 由定理2.3知,T=\sum_{i=1}^n X_i为完全充分统计量。所以,对任意的p\in(0,1)恒有
E[\psi(T)]=\sum_{i=0}^n \psi(i)C_n^i p^i(1-p)^{n-i} = p(1-p).
令\rho = p/(1-p), 则p = \rho/(1+\rho). 上式等价于
\sum_{i=0}^n \psi(i)C_n^i \rho^i = \rho(1+\rho)^{n-2}=\sum_{i=1}^{n-1}C_{n-2}^{i-1}\rho^i.
比较系数可得
\psi(x)=\frac{(n-x)x}{n(n-1)}.
所以,p(1-p)的UMUV估计量为n(1-\bar X)\bar X/(n-1).
注意到X_i取值为0,1, 所以X_i=X_i^2. 于是,
S_n^2=\frac 1n\sum_{i=1}^n X_i^2-(\bar X)^2=\frac 1n\sum_{i=1}^n X_i-(\bar X)^2=\bar X(1-\bar X).
因此,S_n^{*2}=nS_n^2/(n-1)=n(1-\bar X)\bar X/(n-1)为上述推导的UMUVE.
另外还可以通过求条件期望的方式得到UMVU估计量。假设T_1是g(\theta)的任意无偏估计量,T为完全充分统计量。则E[T_1|T]为UMVU估计量。这种方法的难点在于计算条件期望。
对于正态分布总体X\sim N(\mu,\sigma^2),我们知道(\bar X,S_n^2)为完全充分统计量。则\bar X为\mu的UMVUE, S_n^{*2}为\sigma^2的UMVUE. 下面考虑其它参数的UMVUE.
例 2.19 设总体X\sim N(\mu,\sigma^2),其CDF记为F(x)。
给定\alpha\in (0,1),求分位数F^{-1}(\alpha)的UMVUE.
- 假设\sigma=1, 给定u\in \mathbb{R},求F(u)和F'(u)的UMVUE.
解. (1)注意到F^{-1}(\alpha)=\mu+u_\alpha \sigma. 又\bar X是\mu的无偏估计。现在先求\sigma的无偏估计。由抽样分布定理知,
Y:=\frac{nS_n^2}{\sigma^2}\sim \chi^2(n-1).
对任意的r>1-n, 有
\begin{align*} E[(S_n/\sigma)^r]&=E[n^{-r/2}Y^{r/2}]=n^{-r/2}\int_0^\infty x^{r/2}\frac{x^{\frac {n-1}2-1}e^{-\frac x2}}{2^{\frac {n-1}2}\Gamma((n-1)/2)}dx\\ &=\frac{2^{\frac {r+n-1}2}\Gamma((r+n-1)/2)}{n^{r/2}2^{\frac {n-1}2}\Gamma((n-1)/2)}\int_0^\infty \frac{x^{(r+n-1)/2-1}e^{-x/2}}{2^{\frac {r+n-1}2}\Gamma((r+n-1)/2)}dx\\ &=\frac{2^{\frac {r+n-1}2}\Gamma((r+n-1)/2)}{n^{r/2}2^{\frac {n-1}2}\Gamma((n-1)/2)}\\ &=\frac{2^{r/2}\Gamma((r+n-1)/2)}{n^{r/2}\Gamma((n-1)/2)}=:K_{n,r}. \end{align*}
所以,
E[S_n^r]=\left(\frac 2n\right)^{r/2}\frac{\Gamma((r+n-1)/2)}{\Gamma((n-1)/2)}\sigma^r=K_{n,r}\sigma^r.
特别地,取r=1,则E[S_n]=K_{n,1}\sigma. 所以S_n/K_{n,1}是\sigma的无偏估计。由此可得,F^{-1}(\alpha)的一个无偏估计量为
\bar X+u_\alpha S_n/K_{n,1}.
该统计量为完全充分统计量(\bar X,S_n^2)的函数,所以是UMVUE.
(2)当\sigma已知时,\bar X是\mu的完全充分统计量。令T_1=1\{X_1\le u\},则有E(T_1)=P(X_1\le u)=F(u)。所以,T_1为F(u)的无偏估计。考虑
\begin{align*} E[T_1|\bar X=\bar x]&=P(X_1\le u|\bar X=\bar x)=P(X_1-\bar X\le u-\bar x|\bar X=\bar x)\\ &=P(X_1-\bar X\le u-\bar x)=\Phi\left[\sqrt{\frac{n}{n-1}}(u-\bar x)\right]. \end{align*}
其中用到\bar X与X_1-\bar X独立,且X_1-\bar X\sim N(0,(n-1)/n). 因此,\Phi\left[\sqrt{\frac{n}{n-1}}(u-\bar X)\right]为F(u)的UMVUE. 不难发现,
\frac{\partial }{\partial u}\Phi\left[\sqrt{\frac{n}{n-1}}(u-\bar X)\right]=\sqrt{\frac{n}{n-1}}\phi\left[\sqrt{\frac{n}{n-1}}(u-\bar X)\right]
是F'(u)的无偏估计量,从而为UMVUE. 这里\Phi和\phi分别为标准正态分布的CDF和PDF.
上题第二问中,如果\sigma未知,经过柯尔莫哥洛夫(1950)研究,UMVUE同样存在,但推导过程比较繁琐,这里省略。结果见陈家鼎等教材P26-27.
UMVUE考虑无偏估计中最好的一种。注意到在正态总体下,总体方差的UMVUE为修正样本方差,修正样本方差的均方误差却大于样本方差的均方误差。这表明如果考虑所有类型的估计量,UMVUE不一定是最好的。那为什么不在所有的估计量中研究所谓最好的估计量呢?是否可以相应地定义“一致最小均方误差估计量”?然而,这样的估计量是不存在的。不妨g(\theta)不恒为一个常数。假设存在它的估计量T_0,对于所有的估计量T满足M_\theta (T_0)\le M_\theta(T),\forall\theta\in\Theta,即T_0为一致最小均方误差估计量。那么,对任意\theta_0\in\Theta,取T=g(\theta_0),则M_{\theta_0} (T_0)\le M_{\theta_0}(T)=0, 从而有P(T_0=g(\theta_0))=1. 由于\theta_0的任意性以及g(\theta)不恒为一个常数,这样的T_0是不存在的。这也就是为什么我们在无偏估计量中考虑最优性的原因。
定理 2.5 (Cramer-Rao不等式) 设总体X的密度为f(x;\theta), 参数\theta\in (a,b). X_1,\dots,X_n为X的样本,\psi(X_1,\dots,X_n)是g(\theta)的一个无偏估计,且满足下列正则性条件:
- X的支撑与\theta无关;
- g'(\theta)和\frac{df(x;\theta)}{d\theta}都存在且对一切\theta有
\begin{align*} \int_{-\infty}^\infty \frac{df(x;\theta)}{d\theta} d x &= 0,\\ \int_{-\infty}^\infty\frac d{d\theta} L(\vec x;\theta) d \vec x&=0,\\ \frac d{d\theta}\int_{-\infty}^\infty \psi(\vec x) L(\vec x;\theta) d \vec x&=\int_{-\infty}^\infty \psi(\vec x) \frac d{d\theta}L(\vec x;\theta) d \vec x, \end{align*}
- I(\theta):=E[(\frac {d\ln f(X;\theta)}{d\theta})^2]>0,
证明. \begin{align*} g'(\theta) &= dE[\psi(X_1,\dots,X_n)]/d\theta \\ &=\frac{d}{d\theta}\int \psi(\vec x)L(\vec x;\theta)d \vec x\\ &=\int \psi(\vec x)\frac{d}{d\theta}L(\vec x;\theta)d \vec x\\ &=\int [\psi(\vec x)-g(\theta)]\frac{d}{d\theta}L(\vec x;\theta)d \vec x\\ &=\int [\psi(\vec x)-g(\theta)]\frac{d \ln L(\vec x;\theta)}{d\theta} L(\vec x;\theta)d \vec x\\ &=E\left[[\psi(\vec X)-g(\theta)]\frac{d \ln L(\vec X;\theta)}{d\theta}\right]. \end{align*}
\begin{align*} [g'(\theta)]^2 &\le E[[\psi(\vec X)-g(\theta)]^2] E[(\frac{d}{d\theta}\ln L(\vec X;\theta))^2]\\ &=Var[\psi(\vec X)]E[(\sum_{i=1}^n \frac{d\ln f(X_i;\theta)}{d\theta})^2]\\ &=Var[\psi(\vec X)] n I(\theta). \end{align*}
其中用到
\begin{align*} E\left[\frac{d\ln f(X_i;\theta)}{d\theta}\right]&=\int \frac{\frac{df(x;\theta)}{d\theta}}{f(x;\theta)}f(x;\theta)dx\\&=\int \frac{df(x;\theta)}{d\theta}dx=0. \end{align*}C-R不等式给出无偏估计量方差的下界,如果某个无偏估计量达到这个下界且定理2.5中的条件对所有的无偏估计成立,则可以说明是该无偏估计量是一致最小方差无偏的。然而,有些情况下,C-R不等式的下界不一定达到,见陈家鼎等编著的教材例2.9, p30. I(\theta)叫做Fisher信息量。离散情形有类似的结论。
有时候定理2.5中的条件并不满足,但C-R不等式的下界还是可以用来刻画模型参数的“可估能力”。该下界越小越容易得到精度更高的估计。
例 2.20 设X\sim N(\mu,\sigma^2), 其中\mu未知,\sigma已知。 Fisher信息量为
I(\mu) = E\left[(\frac {d\ln f(X;\mu)}{d\mu})^2\right]=\frac 1{\sigma^4}E[(X-\mu)^2]=\frac 1{\sigma^2}.
Var[\bar X] = \frac{\sigma^2}{n}=\frac{1}{nI(\mu)}
样本均值\bar X的方差达到了C-R不等式的下界。
试证明:若\mu已知,则\sigma^2的估计量\frac 1n\sum_{i=1}^n(X_i-\mu)^2的方差达到了C-R不等式的下界。
2.2.4 统计量的大样本性质
- 统计量的相合性(consistency)
(弱)相合估计:称T_n(X_1,\dots,X_n)是g(\theta)的相合估计,如果对任何
\epsilon>0, 有\lim_{n\to\infty}P(|T_n-g(\theta)|\ge \epsilon)=0.
也称T_n依概率收敛到g(\theta),记为T_n\stackrel p\to g(\theta).
强相合估计:称T_n(X_1,\dots,X_n)是g(\theta)的强相合估计,如果
P(\lim_{n\to\infty}T_n=g(\theta))=1. 也称T_n以概率1收到g(\theta),记为敛T_n\stackrel {w.p.1}\to g(\theta).
说明
- 由强大数定理知,矩估计一般是强估计的
- 最大似然估计在十分广泛的条件下也是有相合性(见下一节)
引理 2.2 如果T_n\stackrel p\to a,且函数f(x)在x=a处连续,则f(T_n)\stackrel p\to f(a).
证明. 因为f(x)在x=a处连续,所有对任意\epsilon>0存在\delta>0使得任意x满足|x-a|<\delta,均有|f(x)-f(a)|<\epsilon. 注意到\{|f(T_n)-f(a)|\ge \epsilon\}\subset \{|T_n-a|\ge \delta\}. 所以
0\le \lim_{n\to \infty} P(|f(T_n)-f(a)|\ge \epsilon)\le \lim_{n\to \infty} P(|T_n-a|\ge \delta)=0.
这表明f(T_n)\stackrel p\to f(a).
该引理容易推广到多元连续的情形。
引理 2.3 如果T_n^{(i)}\stackrel p\to a_i, i=1,\dots,k,且f(x_1,\dots,x_k)在(a_1,\dots,a_k)点连续,则f(T_n^{(1)},\dots,T_n^{(k)})\stackrel p\to f(a_1,\dots,a_k).
- 样本均值\bar X是\mu的相合估计量;
- 样本k阶原点矩M_k是总体k阶原点矩E[X^k]的相合估计量;
- 样本方差S_n^2和修正样本方差S_n^{2*}都是\sigma^2的相合估计量。
证明. 由辛钦大数定律知,\bar X\stackrel p\to \mu, M_k\stackrel p\to E[X^k]. 由引理2.3得
S_n^2 = \frac{1}{n}\sum_{i=1}^nX_i^2-\bar X^2\stackrel p\to E[X^2]-E[X]^2=\sigma^2.
同理,S_n^{2*}=\frac{n-1}{n}S_n^2\stackrel p\to \sigma^2.下面给出判断相合估计的一个常用的充分条件。
定理 2.6 设T(X_1,\dots,X_n)为g(\theta)的估计量。如果
\lim_{n\to \infty}E[T(X_1,\dots,X_n)] = g(\theta),\ \lim_{n\to \infty}Var[T(X_1,\dots,X_n)] =0,
则T(X_1,\dots,X_n)为g(\theta)的相合估计量。
证明. 令T_n=T(X_1,\dots,X_n). 注意到
\{|T_n-g(\theta)|\ge \epsilon\}\subset \{|T_n-E[T_n]|\ge \epsilon/2\}\cup \{|E[T_n]-g(\theta)|\ge \epsilon/2\}.
对任意\epsilon>0, 存在N, 当n\ge N时,|E[T_n]-g(\theta)|< \epsilon/2. 此时
\{|T_n-g(\theta)|\ge \epsilon \}\subset \{|T_n-E[T_n]|\ge \epsilon/2\}.
所以,
P(|T_n-g(\theta)|\ge \epsilon)\le P(|T_n-E[T_n]|\ge \epsilon/2)\le \frac{4 Var[T_n]}{\epsilon^2}\to 0.
此外还可以用Markov不等式(如果X为非负随机变量且a>0,则P(X\ge a)\le E[X]/a)证明。
所以,
\begin{align*} P(|T_n-g(\theta)|\ge \epsilon)&=P((T_n-g(\theta))^2\ge \epsilon^2)\le \frac{E[(T_n-g(\theta))^2]}{\epsilon^2}\\ &=\frac{Var[T_n]+(E[T_n]-g(\theta))^2}{\epsilon^2}\to 0. \end{align*}
- 统计量的渐近正态性(asymptotic normality)
定义 2.8 设T(X_1,\dots,X_n)为\theta的估计量。如果存在一个趋于零的正数列\sigma_n(\theta), 使得(T-\theta)/\sigma_n(\theta)的分布收敛到标准正态分布,则称T(X_1,\dots,X_n)为\theta的渐近正态估计,或称T具备渐近正态性,记为
T\stackrel{\cdot}{\sim} N(\theta, \sigma_n(\theta)^2).渐近正态性在构建参数的渐近置信区间中扮演着非常重要的角色。下面定理给出最大似然估计的渐近正态性。
定理 2.7 设X的密度为f(x;\theta), 其参数空间\Theta是非退化区间,且满足下列正则性条件:
对一切\theta\in\Theta, \frac{\partial \ln f}{\partial\theta}, \frac{\partial^2 \ln f}{\partial\theta^2}, \frac{\partial^3 \ln f}{\partial\theta^3} 都存在
对一切\theta\in\Theta, 有|\frac{\partial \ln f}{\partial\theta}|<F_1(x),\ |\frac{\partial^2 \ln f}{\partial\theta^2}|<F_2(x),\ |\frac{\partial^3 \ln f}{\partial\theta^3}|<H(x), 其中F_1(x),F_2(x)在实数轴上可积,且\int_{-\infty}^\infty H(x)f(x;\theta)dx<M, M与\theta无关。
对一切\theta\in\Theta, 有0<I(\theta)=E[(\frac{\partial \ln f}{\partial\theta})^2]<\infty.
则在参数真值\theta为\Theta内点的情况下,其似然方程有一个解\hat{\theta}_L存在,且
\hat{\theta}_L\stackrel{p}{\to}\theta,\ \hat{\theta}_L\stackrel{\cdot}{\sim} N(\theta,[nI(\theta)]^{-1}).值得注意的是,最大似然估计的渐近方差为C-R不等式的下界,从这个角度可以说明最大似然估计具有良好性质。证明参考:陈希孺. 概率论与数理统计. 中国科技大学出版社, 1992
2.3 区间估计
2.3.1 区间估计的定义
定义 2.9 设总体X\sim F(x;\theta),\ \theta\in \Theta. 如果统计量T_1(X_1,\dots,X_n), T_2(X_1,\dots,X_n)使得对给定的\alpha\in(0,1)有
P(T_1\le g(\theta)\le T_2)=1-\alpha,\ \forall \theta\in\Theta,
则称随机区间[T_1,T_2]为参数g(\theta)的置信度(置信概率)为1-\alpha的置信区间(Confidence Interval),T_1,T_2分别称为置信下界和置信上界。说明:
- 在一些情况下,定义中的“等式”无解,此时考虑的置信区间[T_1,T_2]应满足
P(T_1\le g(\theta)\le T_2)\ge 1-\alpha,\ \forall \theta\in\Theta.
- 这里允许T_1=-\infty或者T_2=\infty,这两种情况为单侧置信区间,否则称为双侧置信区间。

图 2.4: 置信区间示意图
2.3.2 枢轴量法
目标:找到g(\theta)的区间估计,置信度为1-\alpha.
Step 1: 选择恰当的枢轴量(Pivot quantity)G(X_1,\dots,X_n;g(\theta)),其满足以下性质
- G不含有其他未知参数
- G的分布确定,即不含未知参数\theta
- 一般地,G是关于参数g(\theta)的单调函数
Step 2: 求a,b使得P(a\le G\le b)=1-\alpha
Step 3: 转化不等式a\le G\le b为如下形式: T_1 \le g(\theta) \le T_2.
Step 1: 选择枢轴量
G(X_1,\dots,X_n;\lambda) = 2\lambda n\bar X\sim Ga(n,1/2)=\chi^2(2n)
Step 2: 求a,b使得P(a\le G\le b)=1-\alpha,即
P(a\le 2\lambda n\bar X\le b)=1-\alpha
Step 3: \lambda的置信区间为[a/(2n\bar X),b/(2n\bar X)].
如何选择a,b?
平分法:a=\chi^2_{\alpha/2}(2n), b=\chi^2_{1-\alpha/2}(2n)
最优方案?参考书p35

图 2.5: 平分法示意图
以下通过R模拟来实现这个过程。
set.seed(0)
# generate data from exponential distribution
lambda <- 2
n <- 1000
X <- rexp(n,lambda)
# find out the confidence interval (CI)
alpha <- 0.05
a <- qchisq(p=alpha/2,df=2*n)
b <- qchisq(p=1-alpha/2,df=2*n)
CI <- c(a/2/sum(X),b/2/sum(X))
cat((1-alpha)*100,"% CI is [",CI[1],", ", CI[2],"]",sep="")
## 95% CI is [1.823821, 2.064573]
# generate R batches of the data
R <- 100
CIs <- matrix(0,R,3)
for(i in 1:R){
X <- rexp(n,lambda)
CIs[i,] = c(a/2/sum(X),1/mean(X),b/2/sum(X))
}
## plot the CIs
plot(0, xlim=c(0, R), ylim=c(min(CIs)-0.02,
max(CIs)+0.02), type="n",xlab="Sample ID",ylab="")
count <- 0
for (i in 1:nrow(CIs)) {
if (CIs[i, 1]>lambda | CIs[i, 3]<lambda){
color = "red"
count = count +1
if(CIs[i, 1]>lambda)
text(i,CIs[i, 3]+0.02,count)
else
text(i,CIs[i, 1]-0.02,count)
}else{
color = "blue"
}
lines(x=rep(i, 2), y=c(CIs[i, 1], CIs[i, 3]))
points(x=i, y=CIs[i,2], pch=16, col=color)
}
abline(h=lambda,lty = 3,col="red")
2.3.3 单个正态总体的区间估计
设总体X\sim N(\mu,\sigma^2), 如何找出未知参数\mu和\sigma^2的置信区间?
已知\sigma^2, 找出\mu的置信区间
未知\sigma^2, 找出\mu的置信区间
已知\mu, 找出\sigma^2的置信区间
未知\mu, 找出\sigma^2的置信区间
- 已知方差,求期望的置信区间
由抽样定理知,\bar{X}\sim N(\mu,\sigma^2/n). 因此 U = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)
P\left(a\le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\le b\right) = 1-\alpha
\mu的置信度为1-\alpha的置信区间为
\left[\bar{X}-b\frac{\sigma}{\sqrt{n}},\ \bar{X}-a\frac{\sigma}{\sqrt{n}}\right]
最优的选择:b=-a=u_{1-\alpha/2}, 此时置信区间为:
\left[\bar{X}-u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}},\ \bar{X}+u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\right]=\bar{X}\pm u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}
- 方差未知,求期望的置信区间
由抽样定理知,
T = \frac{\bar{X}-\mu}{S_n/\sqrt{n-1}}= \frac{\bar{X}-\mu}{S_n^*/\sqrt{n}}\sim t(n-1)
P\left(a\le \frac{\bar{X}-\mu}{S_n^*/\sqrt{n}}\le b\right) = 1-\alpha
\mu的置信度为1-\alpha的置信区间为:
\left[\bar{X}-b\frac{S_n^*}{\sqrt{n}},\ \bar{X}-a\frac{S_n^*}{\sqrt{n}}\right]=\left[\bar{X}-b\frac{S_n}{\sqrt{n-1}},\ \bar{X}-a\frac{S_n}{\sqrt{n-1}}\right]
最优的选择:b=-a=t_{1-\alpha/2}(n-1), 此时置信区间为:
\left[\bar{X}-t_{1-\alpha/2}(n-1)\frac{S_n^*}{\sqrt{n}},\ \bar{X}+t_{1-\alpha/2}(n-1)\frac{S_n^*}{\sqrt{n}}\right]. 也可以表示为\bar{X}\pm t_{1-\alpha/2}(n-1)S_n^*/\sqrt{n}.
例 2.23 假设OPPO手机充电五分钟通话时间X\sim N(\mu,\sigma^2). 随机抽取6部手机测试通话时间(单位:小时)为
1.6,\ 2.1,\ 1.9,\ 1.8,\ 2.2,\ 2.1,已知\sigma^2=0.06, 求\mu的置信度为95\%的置信区间。
\sigma^2未知, 求\mu的置信度为95\%的置信区间。
解. 查表知,u_{1-\alpha/2}=u_{0.975}=1.96,\ t_{1-\alpha/2}=t_{0.975}=2.5706. 且\bar X = 1.95,\ S_n=0.206.
\left[1.95-1.96\frac{\sqrt{0.06}}{\sqrt{6}},\ 1.95+1.96\frac{\sqrt{0.06}}{\sqrt{6}}\right]=[1.754,\ 2.146].
\left[1.95-2.5706\frac{0.206}{\sqrt{6-1}},\ 1.95+2.5706\frac{0.206}{\sqrt{6-1}}\right]=[1.713,\ 2.187].
一些思考
分析这两种的结果会发现,由同一组样本观察值,按同样的置信概率,对\mu计算出的置信区间因为\sigma的是否已知会不一样。这因为:当\sigma为已知时,我们掌握的信息多一些,在其他条件相同的情况下,对\mu的估计精度要高一些,即表现为\mu的置信区间长度要小些。反之,当\sigma为未知时,对\mu的估计精度要低一些,即表现为\mu的置信区间长度在大一些。这是因为当n比较小时,t_{1-\alpha/2}(n-1)>u_{1-\alpha/2}.
还可以发现,当样本量n不断增大时,两种情况下的置信区间会慢慢接近。 也就意味着大样本信息可以弥补\sigma的缺失带来的偏差(大数定律)。
- 已知期望,求方差的置信区间
选择枢轴量
T =\sum_{i=1}^n\frac{(X_i-\mu)^2}{\sigma^2}\sim \chi^2(n)
P\left(\chi^2_{\alpha/2}(n)\le\sum_{i=1}^n\frac{(X_i-\mu)^2}{\sigma^2}\le \chi^2_{1-\alpha/2}(n)\right) = 1-\alpha
\sigma^2的置信度为1-\alpha的置信区间为:
\left[\frac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{1-\alpha/2}(n)},\ \frac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{\alpha/2}(n)}\right]
- 期望未知,求方差的置信区间
选择枢轴量
T =\frac{nS_n^2}{\sigma^2}=\sum_{i=1}^n\frac{(X_i-\bar X)^2}{\sigma^2}\sim \chi^2(n-1) P\left(\chi^2_{\alpha/2}(n-1)\le\sum_{i=1}^n\frac{(X_i-\bar X)^2}{\sigma^2}\le \chi^2_{1-\alpha/2}(n-1)\right) = 1-\alpha
\sigma^2的置信度为1-\alpha的置信区间为:
\left[\frac{\sum_{i=1}^n(X_i-\bar X)^2}{\chi^2_{1-\alpha/2}(n-1)},\ \frac{\sum_{i=1}^n(X_i-\bar X)^2}{\chi^2_{\alpha/2}(n-1)}\right]=\left[\frac{nS_n^2}{\chi^2_{1-\alpha/2}(n-1)},\ \frac{nS_n^2}{\chi^2_{\alpha/2}(n-1)}\right]
2.3.4 两个独立正态总体的区间估计
设两个独立总体X\sim N(\mu_1,\sigma_1^2), Y\sim N(\mu_2,\sigma^2), 如何找出未知参数\mu和\sigma^2的置信区间?其中X的样本为X_1,\dots,X_m, 样本方差为S_{1m}^2; Y的样本为Y_1,\dots,Y_n, 样本方差为S_{2n}^2
已知\sigma_1^2,\sigma_2^2, 找出\mu_1-\mu_2的置信区间
以知\sigma_1^2=\sigma_2^2=\sigma^2, 找出\mu_1-\mu_2的置信区间
已知\mu_1,\mu_2, 找出\sigma_1^2/\sigma_2^2的置信区间
未知\mu_1,\mu_2, 找出\sigma_1^2/\sigma_2^2的置信区间
应用场景
- 比较男生、女生两个群体的身高/体重/成绩平均水平的差异
- 已知方差,求均值差的置信区间
选择枢轴量:
U=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/m+\sigma_2^2/n}}\sim N(0,1).
\mu_1-\mu_2的置信度为1-\alpha的置信区间为:
\left[(\bar{X}-\bar{Y})-u_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}m+\frac{\sigma_2^2}n},\ (\bar{X}-\bar{Y})+u_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}m+\frac{\sigma_2^2}n}\right]
- 已知方差相同,求均值差的置信区间
选择枢轴量:
T=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{S_w\sqrt{1/m+1/n}}\sim t(m+n-2).
其中S_w =\sqrt{(mS_{1m}^2+nS_{2n}^2)/(m+n-2)}.
令t_{1-\alpha/2}(m+n-2)=t_{1-\alpha/2},\mu_1-\mu_2的置信度为1-\alpha的置信区间为:
\left[(\bar{X}-\bar{Y})-t_{1-\alpha/2}S_w\sqrt{\frac 1m+\frac 1n},\ (\bar{X}-\bar{Y})+t_{1-\alpha/2}S_w\sqrt{\frac 1m+\frac 1n}\right]
例 2.24 假设OPPO手机充电五分钟通话时间X\sim N(\mu_1,\sigma_1^2), VIVO手机充电五分钟通话时间Y\sim N(\mu_2,\sigma_2^2). 随机抽取6部手机测试通话时间(单位:小时)为
\text{OPPO}:\ 1.6,\ 2.1,\ 1.9,\ 1.8,\ 2.2,\ 2.1
\text{VIVO}:\ 1.8,\ 2.2,\ 1.5,\ 1.4,\ 2.0,\ 1.7
求\mu_1-\mu_2的置信度为95\%的置信区间:
- 已知\sigma_1^2 = 0.06,\ \sigma_2^2 = 0.08.
- 已知\sigma_1^2 =\sigma_2^2.
- 第一种情况为[-0.12,\ 0.48]
- 第二种情况为[-0.14,\ 0.50]
- 已知均值,求方差比的置信区间
T_1 =\sum_{i=1}^m\frac{(X_i-\mu_1)^2}{\sigma_1^2}\sim \chi^2(m),\ T_2 =\sum_{i=1}^n\frac{(Y_i-\mu_2)^2}{\sigma_2^2}\sim \chi^2(n)
\frac{T_1/m}{T_2/n}=\frac{\frac 1 m\sum_{i=1}^m(X_i-\mu_1)^2}{\frac 1 n\sum_{i=1}^n(Y_i-\mu_2)^2}\frac{\sigma_2^2}{\sigma_1^2}\sim F(m,n)
\sigma_1^2/\sigma_2^2的置信度为1-\alpha的置信区间为:
\left[\frac{1}{F_{1-\alpha/2}(m,n)}\frac{\frac 1 m\sum_{i=1}^m(X_i-\mu_1)^2}{\frac 1 n\sum_{i=1}^n(Y_i-\mu_2)^2},\ \frac{1}{F_{\alpha/2}(m,n)}\frac{\frac 1 m\sum_{i=1}^m(X_i-\mu_1)^2}{\frac 1 n\sum_{i=1}^n(Y_i-\mu_2)^2} \right]
- 均值未知,求方差比的置信区间
T_1=\frac{(m-1)S_{1m}^{*2}}{\sigma_1^2}=\sum_{i=1}^m\frac{(X_i-\bar X)^2}{\sigma_1^2}\sim \chi^2(m-1)
T_2=\frac{(n-1)S_{2n}^{*2}}{\sigma_2^2}=\sum_{i=1}^n\frac{(Y_i-\bar Y)^2}{\sigma_2^2}\sim \chi^2(n-1)
\frac{T_1/(m-1)}{T_2/(n-1)}=\frac{S_{1m}^{*2}}{S_{2n}^{*2}}\frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1,n-1) \sigma_1^2/\sigma_2^2的置信度为1-\alpha的置信区间为:
\left[\frac{1}{F_{1-\alpha/2}(m-1,n-1)}\frac{S_{1m}^{*2}}{S_{2n}^{*2}},\ \frac{1}{F_{\alpha/2}(m-1,n-1)}\frac{S_{1m}^{*2}}{S_{2n}^{*2}} \right]
一些说明
枢轴量法的难点在于寻找枢轴量,没有统一的方法。正态总体下的应用应当熟练掌握。
另外一种求置信区间方法叫统计量方法,不作要求,感兴趣陈家鼎等编著的教材pp42-46.
“最优的置信区间”是否存在?目前尚缺乏对置信区间的优良性讨论。
2.3.5 非正态总体参数的区间估计
令\mu=E[X],\sigma^2=Var[X]分别为总体X的期望和方差。 由中心极限定理,
\frac{\bar X-\mu}{\sigma/\sqrt{n}}\stackrel{\cdot}\sim N(0,1). 当\sigma已知时,总体期望\mu的置信度为1-\alpha的区间估计可以近似为
\left[\bar X-u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar X+u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\right]. 如果\sigma未知,可以用样本标准差S_n(或者修正样本差S_n^*)替代\sigma,
\left[\bar X-u_{1-\alpha/2}\frac{S_n}{\sqrt{n}}, \bar X+u_{1-\alpha/2}\frac{S_n}{\sqrt{n}}\right].
2.4 分布的估计
本节考虑分布函数和密度函数的估计,目标是通过样本的观测值构造一种函数来近似这两种函数。本节所介绍的方法不需要知道总体的具体的分布类型,属于非参统计方法。
2.4.1 分布函数的估计
定义 2.10 设总体X的样本(X_1,\dots,X_n)的一次观测值(x_1,\dots,x_n), 并将它们由小到大排列x_{(1)}\le x_{(2)}\le \dots\le x_{(n)}, 经验分布函数(或称样本分布函数)定义为
F_n(x) =\frac{1}{n}\sum_{i=1}^n 1\{x_i\le x\} = \begin{cases} 0,&\ x<x_{(1)}\\ 1/n,&\ x_{(1)}\le x<x_{(2)}\\ 2/n,&\ x_{(2)}\le x<x_{(3)}\\ &\vdots\\ k/n,&\ x_{(k)}\le x<x_{(k+1)}\\ &\vdots\\ 1,&\ x>x_{(n)}\\ \end{cases}.经验分布函数示意图
经验分布函数的性质 固定的x和n,F_n(x)表示事件\{X\le x\}的频率,由强大数定律知,
F_n(x)\to P(X\le x)=F(x), 即
P\left(\lim_{n\to\infty}F_n(x)=F(x)\right)=1.
格里汶科定理给出更强的结果(几乎处处一致收敛):
P\left(\lim_{n\to\infty}\sup_{x\in \mathbb{R}}|F_n(x)-F(x)|=0\right)=1.
注:由此可见,当n相当大时,经验分布函数F_n(x)是母体分布函数F(x)的一个良好近似。数理统计学中一切都以样本为依据,其理由就在于此。
2.4.2 直方图法
只考虑一维连续型总体X\sim f(x)。设X_1,\dots,X_n为样本,R_n(a,b)表示落在区间(a,b]中的个数。由中值定理得,存在x_0\in(a,b]使得
f(x_0)=\frac 1{b-a}\int_a^b f(x)dx\approx \frac {R_n(a,b)}{n(b-a)}
设-\infty<t_0<t_1<\dots<t_m<\infty,t_{i+1}-t_i=h>0. 直方图法的密度估计为:
f_n(x)= \begin{cases} \frac{R_n(t_i,t_{i+1})}{nh},\ x\in(t_i,t_{i+1}],i=0,\dots,m-1\\ 0, x\le t_0,x>t_m \end{cases}
实际上选取t_0为比X_{(1)}略小的数,选取t_m为比X_{(n)}略大的数。经验法则:m\approx 1+3.322\log_{10} n.
案例
:身高数据
## Warning: package 'dslabs' was built under R version 3.5.3
直方图法的相合性
定理 2.8 设f(\cdot)在点x连续且\lim_n h_n=0,\lim_n nh_n=\infty, 则对任何\epsilon>0有
\lim_{n\to\infty} P(|f_n(x)-f(x)|\ge \epsilon)=0.定理 2.9 设f(\cdot)在\mathbb{R}上一致连续,\int_{-\infty}^\infty |x|^\delta d x<\infty(对某个\delta>0), 且\lim_n h_n=0,h_n\ge (\ln n)^2/n, 则
P(\lim_{n\to\infty} \sup_x|f_n(x)-f(x)|=0)=1.证明陈家鼎等编著的教材pp54-55.
2.4.3 核估计法
中心差分:
f(x)\approx \frac{F(x+h)-F(x-h)}{2h}\approx \frac{F_n(x+h)-F_n(x-h)}{2h}
\hat{f}_n(x) = \frac{1}{2hn}\sum_{i=1}^n 1\{x-h<X_i\le x+h\}=\frac{1}{2hn}\sum_{i=1}^n K_0\left(\frac{x-X_i}{h}\right)
其中
K_0(x)= \frac 12 1\{-1\le x<1\}
核函数:K(x)是\mathbb{R}上的非负函数且满足\int_{-\infty}^\infty K(x)=1.
核估计:\hat{f}_n(x) = \frac{1}{2hn}\sum_{i=1}^n K\left(\frac{x-X_i}{h}\right)
常用的核函数
- 均匀核函数:
K_0(x)= \frac 12 1\{-1\le x\le1\}
K_1(x)= 1\{-1/2\le x\le1/2\}
- 正态核函数:
K_2(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}
核估计的相合性
定理 2.10 设核函数K(x)满足条件
\int_{-\infty}^\infty (K(x))^2 dx<\infty,\ \lim_{|x|\to \infty} |x|K(x)=0,
又密度函数f在点x处连续,且h_n\to 0, nh_n\to\infty, 则对一切\epsilon>0, 有
\lim_{n\to\infty} P(|\hat{f}_n(x)-f(x)|\ge \epsilon) = 0.证明见pp56-58.
例 2.25 R软件包dslabs
收集了男生和女生的身高数据(单位英寸),由此估计男女身高总体的密度函数。
一些说明
- 收敛速度的比较:在满足一些正则性的条件(如,h_n\to 0, nh_n\to\infty)下,可以证明
- 直方图法的均方误差为O(n^{-2/3})
- 核估计的均方误差为O(n^{-4/5})
- 核估计的带宽(bandwidth) h_n如何选取?
- 如果选择正态核函数,经验法则:h_n\approx 1.06S_nn^{-1/5}
- 延伸阅读
Kernel smoothing techniques used in finance
used in Approximate Bayesian Computation (ABC)
2.5 本章习题
习题 2.1 设X的分布密度函数为
f(x)=\frac{1}{2\sigma} e^{-|x|/\sigma}\ (\sigma>0),
X_1,\dots,X_n是X的样本,求\sigma的最大似然估计。
习题 2.2 设X_1,\dots,X_n是来自[\theta,\theta+1]上均匀分布的样本,其中\theta\in\mathbb{R}, 证明\theta的最大似然估计不止一个,并求出所有的最大似然估计。
习题 2.3 设随机变量X以均等机会按N(0,1)分布取值和按N(\mu,\sigma^2)分布取值,其中\mu\in \mathbb{R},\sigma^2>0. 这时X的分布密度函数为这两个分布的密度的平均,即
f(x;\mu,\sigma^2) = \frac 12\frac{1}{\sqrt{2\pi}}e^{-x^2/2}+\frac 12\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)},
设X_1,\dots,X_n为此混合分布的简单随机样本,证明\mu,\sigma^2不存在最大似然估计。能否通过矩法估计\mu,\sigma^2?
习题 2.4 (附加题I,选做)考虑上题的模型。设Y为一随机变量,Y=1表示X来自N(0,1)分布,Y=0表示X来自N(\mu,\sigma^2)分布,即Y\sim b(1,0.5). 假设我们可以观测Y_i的值,基于样本(X_i,Y_i),i=1,\dots,n,是否可以求出\mu,\sigma^2的最大似然估计?事实上,Y_i的值不可观测(通常称为潜变量),此时你有没有更好的办法估计\mu,\sigma^2?
习题 2.5 (附加题II,选做)若考虑更一般的混合分布:
f(x;\lambda,\mu_1,\sigma_1^2,\mu_2,\sigma_2^2)=\frac{\lambda}{\sqrt{2\pi}\sigma_1}e^{-(x-\mu_1)^2/(2\sigma_1^2)}+\frac{1-\lambda}{\sqrt{2\pi}\sigma_2}e^{-(x-\mu_2)^2/(2\sigma_2^2)}
其中\lambda\in[0,1],\mu_1,\mu_2\in \mathbb{R},\sigma_1^2,\sigma_2^2>0, 你能求出未知参数\lambda,\mu_1,\sigma_1^2,\mu_2,\sigma_2^2的矩估计吗?习题 2.6 设X_1,\dots,X_n是来自分布密度为
f(x;\theta)=\frac{\Gamma(\theta+1)}{\Gamma(\theta)\Gamma(1)}x^{\theta-1}1\{0\le x\le 1\}
的总体的样本,其中\theta>0, 试用矩法估计\theta.
习题 2.7 设X_1,\dots,X_n是来自分布密度为
f(x;c,\theta)=\frac{1}{2\theta}1\{c-\theta\le x\le c+\theta\}
的总体的样本,其中\theta>0,c\in\mathbb{R}, 试用矩法估计c,\theta.
习题 2.8 设X_1,\dots,X_n为来自参数为\lambda的Poisson分布的样本. 在下列选项中选出用于估计参数\lambda的无偏估计量。( )
A. \bar X
B. S_n^{*2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2
C. \frac 1 {n-1}\sum_{i=1}^{n-1}X_i
D. S_n^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2
E. \frac{1}2 \bar X + \frac 12 S_n^{*2}
习题 2.9 设X_1,\dots,X_n为来自参数为\lambda的Poisson分布的样本, 已知\bar X是未知参数\lambda的完全统计量。在下列选项中选出用于估计参数\lambda的最有效的估计量。 ( )
A. \bar X
B. S_n^{*2}=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2
C. \frac 1 {n-1}\sum_{i=1}^{n-1}X_i
D. \frac{1}2 \bar X + \frac 12 S_n^{*2}
习题 2.10 设X,\dots,X_n为来自参数为\lambda的Poisson分布的样本,求\lambda^2的无偏估计。已知\bar X是参数\lambda的完全统计量,能否找到\lambda^2的最小方差无偏估计量?
习题 2.11 设X_1,\dots,X_n为N(\mu,\sigma^2)分布的样本,参数\mu,\sigma^2未知。证明样本方差S_n^2与修正样本方差S_n^{*2}均为\sigma^2的弱相合估计量。
习题 2.12 设X_1,\dots,X_n为总体N(\mu,\sigma^2), 其中\mu已知,\sigma^2未知。证明\sigma^2的估计量
T(X_1,\dots,X_n)=\frac 1n\sum_{i=1}^n(X_i-\mu)^2 的方差达到C-R不等式的下界。
习题 2.13 Let X_1,\dots,X_n be a simple random sample taken from the density
f(x;\theta)=\frac{2x}{\theta^2},\quad 0\le x\le \theta.
Find an expression for \hat\theta_L, the maximum likelihood estimator (MLE) for \theta.
Find an expression for \hat\theta_M, the method of moments estimator for \theta.
- For the two estimators \hat\theta_L and \hat\theta_M, which one is more efficient in terms of mean squared error (MSE)?
习题 2.14 设X_1,\dots,X_n是U(0,\theta)的样本,求\theta的置信水平为1-\alpha的置信区间。设得到了5个样本值0.08,0.28,0.53,0.91,0.89, 求\theta的置信水平为0.95的置信区间。
习题 2.17
分析R软件的dslabs
包中的身高数据heights, 利用R软件完成以下问题。
假设整个总体服从正态分布,求期望和方差的95%置信区间。
为了判断“正态总体”的假设的合理性,画图比较核估计密度与正态分布密度的差异?
假设男生总体与女生总体均服从正态分布(方差相同)且独立,求这两个总体平均水平的差的95%置信区间。可否认为男生总体的平均身高大于女生总体的平均身高?你的理由是什么?
为了考察第3问中“男女总体的方差相同”的假设是否合理,不妨求这两个总体的方差比的95%置信区间。并观察该置信区间是否包含1?
若无法安装R的包“dslabs”,直接导入数据data.RData即可。