第 2 章 基础知识
作为第 3 章统计模型和第 4 章参数估计的知识准备,本章给出主要的知识点。第 2.1 节首先介绍指数族的一般形式,包含各成分的定义,特别介绍正态分布、二项分布和泊松分布情形下均值函数、联系函数和方差函数等特征量。第 2.2 节介绍线性模型下,设计矩阵保持正定时的最小二乘估计和加权最小二乘估计。第 2.3 节介绍极大似然估计的定义,相合性,以及在一定条件下的渐近正态性。第 2.4 节介绍平稳高斯过程的定义,均方连续性和可微性的定义,以及判断可微性的一个充要条件。第 2.5 介绍先验、后验分布和 Jeffreys 无信息先验分布。
2.1 指数族
一般地,随机变量 \(Y\) 的分布服从指数族,即形如 \[\begin{equation} f_{Y}(y;\theta,\phi) = \exp\big\{ \big(y\theta - b(\theta) \big)/a(\phi) + c(y,\phi) \big\} \tag{2.1} \end{equation}\] 其中,\(a(\cdot),b(\cdot),c(\cdot)\) 是某些特定的函数。如果 \(\phi\) 已知,这是一个含有典则参数 \(\theta\) 的指数族模型,如果 \(\phi\) 未知,它可能是含有两个参数的指数族。对于正态分布 \[\begin{equation} \begin{aligned} f_{Y}(y;\theta,\phi) & = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\{-\frac{(y - \mu)^2}{2\sigma^2} \} \\ & = \exp\big \{ (y\mu - \mu^2/2)/\sigma^2 - \frac{1}{2}\big(y^2/\sigma^2 + \log(2\pi\sigma^2)\big) \big\} \end{aligned} \tag{2.2} \end{equation}\] 通过与 (2.1) 式对比,可知 \(\theta = \mu\),\(\phi = \sigma^2\),并且有 \[ a(\phi) = \phi, \quad b(\theta) = \theta^2/2, \quad c(y,\phi) = - \frac{1}{2}\{ y^2/\sigma^2 + \log(2\pi\sigma^2) \} \] 记 \(l(\theta,\phi;y) = \log f_{Y}(y;\theta,\phi)\) 为给定样本点 \(y\) 的情况下,关于 \(\theta\) 和 \(\phi\) 的对数似然函数。样本 \(Y\) 的均值和方差具有如下关系 (McCullagh and Nelder 1989) \[\begin{equation} \mathsf{E}\big( \frac{\partial l}{\partial \theta} \big) = 0 \tag{2.3} \end{equation}\] 和 \[\begin{equation} \mathsf{E}\big( \frac{\partial^2 l}{\partial \theta^2} \big) + \mathsf{E}\big(\frac{\partial l}{\partial \theta}\big)^2 = 0 \tag{2.4} \end{equation}\] 从 (2.1) 式知 \[ l(\theta,\phi;y) = {y\theta - b(\theta)}/a(\phi) + c(y,\phi) \] 因此, \[\begin{equation} \begin{aligned} \frac{\partial l}{\partial \theta} & = {y - b'(\theta)}/a(\phi) \\ \frac{\partial^2 l}{\partial \theta^2} & = - b''(\theta)/a(\phi) \end{aligned} \tag{2.5} \end{equation}\] 从 (2.3) 式和 (2.5),可以得出 \[ 0 = \mathsf{E}\big( \frac{\partial l}{\partial \theta} \big) = \big\{ \mu - b'(\theta) \big\}/a(\phi) \] 所以 \[ \mathsf{E}(Y) = \mu = b'(\theta) \] 根据 (2.4) 式和 (2.5) 式,可得 \[ 0 = - \frac{b''(\theta)}{a(\phi)} + \frac{\mathsf{Var}(Y)}{a^2(\phi)} \] 所以 \[ \mathsf{Var}(Y) = b''(\theta)a(\phi) \] 可见,\(Y\) 的方差是两个函数的乘积,一个是 \(b''(\theta)\), 它仅仅依赖典则参数,叫做方差函数,方差函数可以看作是 \(\mu\) 的函数,记作 \(V(\mu)\)。另一个是 \(a(\phi)\),它独立于 \(\theta\),仅仅依赖 \(\phi\),函数 \(a(\phi)\) 通常形如 \[ a(\phi) = \phi/w \] 其中 \(\phi\) 可由 \(\sigma^2\) 表示,故而也叫做发散参数 (dispersion parameter),是一个与样本观察值相关的常数,\(w\) 是已知的权重,随样本观察值变化。对正态分布模型而言,\(w\) 的分量是 \(m\) 个相互独立的样本观察值的均值,有 \(a(\phi) = \sigma^2/m\),所以,\(w = m\)。
根据 (2.1)式,正态、泊松和二项分布的特征见表 2.1,符号约定同 McCullagh 和 Nelder (1989年) 所著的《广义线性模型》。
正态分布 | 泊松分布 | 二项分布 | |
---|---|---|---|
记号 | \(\mathcal{N}(\mu,\sigma^2)\) | \(\mathrm{Poisson}(\mu)\) | \(\mathrm{Binomial}(m,p)\) |
\(y\) 取值范围 | \((-\infty,\infty)\) | \(0(1)\infty\) | \(0(1)m\) |
\(\phi\) | \(\phi = \sigma^2\) | \(1\) | \(1/m\) |
\(b(\theta)\) | \(\theta^2/2\) | \(\exp(\theta)\) | \(\log(1+e^{\theta})\) |
\(c(y;\theta)\) | \(-\frac{1}{2}\big( \frac{y^2}{\phi} + \log(2\pi\phi) \big)\) | \(-\log(y!)\) | \(\log\binom{m}{my}\) |
\(\mu(\theta) = \mathsf{E}(Y;\theta)\) | \(\theta\) | \(\exp(\theta)\) | \(e^{\theta}/(1+e^{\theta})\) |
联系函数:\(\theta(\mu)\) | identity | log | logit |
方差函数:\(V(\mu)\) | 1 | \(\mu\) | \(\mu(1-\mu)\) |
2.2 最小二乘估计
考虑如下线性模型的最小二乘估计 \[\begin{equation} \mathsf{E}\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} \qquad \mathsf{Var}(\mathbf{Y}) = \sigma^2 \mathbf{I}_{n} \tag{2.6} \end{equation}\] 其中, \(\mathbf{Y}\) 为 \(n \times 1\) 维观测向量, \(\mathbf{X}\) 为已知的 \(n \times p (p \leq n)\) 维设计矩阵,\(\boldsymbol{\beta}\) 为 \(p \times 1\) 维未知参数,\(\sigma^2\) 未知,\(\mathbf{I}_{n}\) 为 \(n\) 阶单位阵。2.3 极大似然估计
概率密度函数很多可以写成具有指数函数的形式,如指数族,采用似然函数的对数通常更为简便。称 \[ l(\boldsymbol{\theta},\mathbf{x}) = \ln L(\boldsymbol{\theta},\mathbf{x}) \] 为 \(\boldsymbol{\theta}\) 的对数似然函数。对数变换是严格单调的,所以 \(l(\boldsymbol{\theta},\mathbf{x})\) 与 \(L(\boldsymbol{\theta},\mathbf{x})\) 的极大值是等价的。当 MLE 存在时,寻找 MLE 的常用方法是求导数。如果 \(\hat{\boldsymbol{\theta}}(\mathbf{x})\) 是 \(\boldsymbol{\Theta}\) 的内点,则 \(\hat{\boldsymbol{\theta}}(\mathbf{x})\) 是下列似然方程组 \[\begin{equation} \partial l(\boldsymbol{\theta},\mathbf{x})/ \partial \boldsymbol{\theta}_{i} = 0, \quad i = 1,\ldots, m \tag{2.8} \end{equation}\] 的解。\(p(\mathbf{x};\boldsymbol{\theta})\) 属于指数族时,似然方程组 (2.8) 的解唯一(茆诗松, 王静龙, and 濮晓龙 2006)。
定理 2.2 (相合性) 设 \(x_{1}, \ldots, x_{n}\) 是来自概率密度函数 \(p(\mathbf{x};\boldsymbol{\theta})\) 的一个样本,叙述简单起见,考虑单参数情形,参数空间 \(\boldsymbol{\Theta}\) 是一个开区间,\(l(\boldsymbol{\theta};\mathbf{x}) = \sum_{i=1}^{n}\ln p(x_{i};\boldsymbol{\theta})\)。
若 \(\ln (p;\boldsymbol{\theta})\) 在 \(\boldsymbol{\Theta}\) 上可微,且 \(p(\mathbf{x};\boldsymbol{\theta})\) 是可识别的(即 \(\forall \boldsymbol{\theta}_1 \neq \boldsymbol{\theta}_2, \{\mathbf{x}: p(\mathbf{x};\boldsymbol{\theta}_1) \neq p(\mathbf{x}; \boldsymbol{\theta}_2)\}\) 不是零测集),则似然方程 (2.8) 在 \(n \to \infty\) 时,以概率 \(1\) 有解,且此解关于 \(\boldsymbol{\theta}\) 是相合的(茆诗松, 王静龙, and 濮晓龙 2006)。定理 2.3 (渐近正态性) 假设 \(\boldsymbol{\Theta}\) 为开区间,概率密度函数 \(p(\mathbf{x};\boldsymbol{\theta}), \boldsymbol{\theta} \in \boldsymbol{\Theta}\) 满足:
- 在参数真值 \(\boldsymbol{\theta}_{0}\) 的邻域内,\(\partial \ln p/\partial \boldsymbol{\theta}, \partial^2 \ln p/\partial \boldsymbol{\theta}^2, \partial^3 \ln p/\partial \boldsymbol{\theta}^3\) 对所有的 \(\mathbf{x}\) 都存在;
- 在参数真值 \(\boldsymbol{\theta}_{0}\) 的邻域内,\(| \partial^3 \ln p/\partial \boldsymbol{\theta}^3 | \leq H(\mathbf{x})\),且 \(\mathsf{E}H(\mathbf{x}) < \infty\);
- 在参数真值 \(\boldsymbol{\theta}_{0}\) 处,\(\mathsf{E}_{\boldsymbol{\theta}_{0}} \big[ \frac{ p'(\mathbf{x},\boldsymbol{\theta}_{0}) }{ p(\mathbf{x},\boldsymbol{\theta}_{0}) } \big] = 0,\mathsf{E}_{\boldsymbol{\theta}_{0}} \big[ \frac{ p''(\mathbf{x},\boldsymbol{\theta}_{0}) }{ p(\mathbf{x},\boldsymbol{\theta}_{0}) } \big] = 0,I(\boldsymbol{\theta}_{0}) = \mathsf{E}_{\boldsymbol{\theta}_{0}} \big[ \frac{ p'(\mathbf{x},\boldsymbol{\theta}_{0}) }{ p(\mathbf{x},\boldsymbol{\theta}_{0}) } \big]^{2} > 0\)。
2.4 平稳高斯过程
一般地,空间高斯过程 \(\mathcal{S} = \{S(x),x\in\mathbb{R}^2\}\) 必须满足条件:任意给定一组空间位置 \(x_1,x_2,\ldots,x_n, \forall x_{i} \in \mathbb{R}^2\), 每个位置上对应的随机变量 \(S(x_i), i = 1,2,\ldots,n\) 的联合分布 \(\mathcal{S} = \{S(x_1), S(x_2),\ldots,S(x_n)\}\) 是多元高斯分布,其由均值 \(\mu(x) = \mathsf{E}[S(x)]\) 和协方差 \(G_{ij} = \gamma(x_i,x_j) = \mathsf{Cov}\{S(x_i),S(x_j)\}\) 完全确定,即 \(\mathcal{S} \sim \mathcal{N}(\mu_{S},G)\)。
平稳空间高斯过程需要空间高斯过程满足平稳性条件:其一, \(\mu(x) = \mu, \forall x \in \mathbb{R}^2\), 其二,自协方差函数 \(\gamma(x_i,x_j) = \gamma(u),u=\|x_{i} - x_{j}\|\)。 可见均值 \(\mu\) 是一个常数, 而自协方差函数 \(\gamma(x_i,x_j)\) 只与空间距离有关。
平稳高斯过程 \(\mathcal{S}\) 的方差是一个常数,即 \(\sigma^2 = \gamma(0)\), 然后可以定义自相关函数 \(\rho(u) = \gamma(u)/\sigma^2\), 并且 \(\rho(u)\) 是关于空间距离\(u\)对称的,即 \(\rho(u) = \rho(-u)\)。 因为对 \(\forall u, \mathsf{Corr}\{S(x),S(x-u)\} = \mathsf{Corr}\{S(x-u), S(x)\} = \mathsf{Corr}\{S(x),S(x+u)\}\), 这里的第二个等式是根据平稳性得来的, 由协方差的定义不难验证。 如果不特别说明, 平稳就指上述协方差意义下的平稳, 因为这种平稳性条件广泛应用于空间数据的统计建模。不失一般性,介绍一维空间下随机过程 \(S(x)\) 的均方连续性和可微性定义。
2.5 先验和后验分布
贝叶斯推断中,常涉及模型参数的先验、后验分布,以及一种特殊的无信息先验分布 — Jeffreys 先验,下面分别给出它们的概念定义(茆诗松, 王静龙, and 濮晓龙 2006)。
- 写出样本的对数似然函数 \(l(\boldsymbol{\theta}|x) = \sum_{i=1}^{n}\ln p(x_i | \boldsymbol{\theta})\);
- 算出参数 \(\boldsymbol{\theta}\) 的 Fisher 信息阵 \[\mathbf{I}(\boldsymbol{\theta}) = \mathsf{E}_{x|\theta} \big( - \frac{\partial^2 l}{\partial \theta_i \partial \theta_j} \big)_{i,j=1,\ldots,p}\] 在单参数场合, \(\mathbf{I}(\theta) = \mathsf{E}_{x|\theta} \big( - \frac{\partial^2 l}{\partial \theta^2} \big)\);
- \(\boldsymbol{\theta}\) 的无信息先验密度函数为 \(\pi(\boldsymbol{\theta}) = [\det \mathbf{I}(\boldsymbol{\theta}) ]^{1/2}\),在单参数场合, \(\pi(\boldsymbol{\theta}) = [\mathbf{I}(\theta) ]^{1/2}\)(茆诗松, 王静龙, and 濮晓龙 2006)。
2.6 常用贝叶斯估计
定理 2.6 (0 - 1 损失) 在给定先验分布 \(\pi(\boldsymbol{\theta})\) 和 \(0\) - \(1\) 损失函数
\[\begin{equation*} L(\boldsymbol{\theta},\boldsymbol{\delta}) = \begin{cases} 1, & | \boldsymbol{\delta} - \boldsymbol{\theta}| \leq \epsilon \\ 0, & | \boldsymbol{\delta} - \boldsymbol{\theta}| > \epsilon \end{cases} \end{equation*}\]
当 \(\epsilon\) 较小时,\(\boldsymbol{\theta}\) 的贝叶斯估计\(\boldsymbol{\delta}^{\pi}(x)\)为后验分布 \(\pi(\boldsymbol{\theta}|x)\) 的众数(茆诗松, 王静龙, and 濮晓龙 2006)。评价贝叶斯估计 \(\boldsymbol{\delta}^{\pi}(x)\) 的精度常用后验均方误差 \[\mathsf{MSE}(\boldsymbol{\delta}^{\pi}|x) = \mathsf{E}_{\boldsymbol{\theta}|x}(\boldsymbol{\delta}^{\pi} - \boldsymbol{\theta})^2\] 表示,或用其平方根\([\mathsf{MSE}(\boldsymbol{\delta}^{\pi}|x)]^{1/2}\) (称为标准误)表示。容易算得 \[\mathsf{MSE}(\boldsymbol{\delta}^{\pi}|x) = \mathsf{Var}(\boldsymbol{\delta}^{\pi}|x) + [\boldsymbol{\delta}^{\pi}(x) - \mathsf{E}(\boldsymbol{\theta}|x)]^2\] 可见,当贝叶斯估计\(\boldsymbol{\delta}^{\pi}(x)\)为后验均值时,贝叶斯估计的精度就用\(\boldsymbol{\delta}^{\pi}\)的后验方差\(\mathsf{Var}(\boldsymbol{\delta}^{\pi}|x)\) 表示,或用后验标准差 \([\mathsf{Var}(\boldsymbol{\delta}^{\pi}|x)]^{1/2}\) 表示 (茆诗松, 王静龙, and 濮晓龙 2006)。
参考文献
Bartlett, M. S. 1955. An Introduction to Stochastic Process with Special Reference to Methods and Applications. First. Cambridge: Cambridge University Press.
Diggle, Peter J., and Paulo J. Ribeiro Jr. n.d. Model-Based Geostatistics. New York, NY: Springer-Verlag.
McCullagh, Peter, and John Nelder. 1989. Generalized Linear Models. Second. London: Chapman; Hall/CRC.
王松桂, 史建红, 尹素菊, and 吴密霞. 2004. 线性模型引论. 北京: 科学出版社.
茆诗松, 王静龙, and 濮晓龙. 2006. 高等数理统计. 第二版. 北京: 高等教育出版社.