第 12 章 抽样分布

分布我们已经听说过很多了,可是它们都是凭空臆测的吗?肯定不是,那它们是怎么产生的呢?谁提出了正态分布,他/她是怎么提出的?一定有故事背景,一定有数据记录,即观察值,我们的样本数据

抽样分布其中抽样二字更加贴近生活,说明它源于实际生产场景,而不是光靠大脑思维理论推导出来的东西,它是最本质的

12.1 正态分布

分三块介绍

  • 历史背景
  • 分布性质
  • 应用场景

来源,为啥叫逻辑斯谛?历史故事

逻辑斯谛分布

  1. 正态分布
  2. t 分布
  3. F 分布
  4. \(\chi^2\) 分布
  5. 霍特林 \(T^2\) 分布 Hoteling’s T^2 Distribution
  6. 威沙特分布 Wishart Distribution

分一元和多元情况阐述正态分布、t 分布、F 分布、卡方分布及分布拟合

常见分布之间的关系图需要用 TikZ 来绘制

常见分布之间的关系图

图 12.1: 常见分布之间的关系图

完整的关系图 http://www.math.wm.edu/~leemis/2008amstat.pdf 参考自 https://www.math.wustl.edu/~jmding/math494/dist.pdf

图来自 (Leemis 1986)

    \begin{tikzpicture}[
    node distance = 7mm and -3mm,
every node/.style = {draw=black, rounded corners, fill=gray!30, 
                     minimum width=2cm, minimum height=0.5cm,
                     align=center},
every path/.style = {draw, -latex}
                        ]
\node (start) {Start};
%
\node (y1) [below  left=of start]       {Y1}; 
\node (y2) [below right=of y1.east]     {Y2};
\node (y3) [below right=of y2.east]     {Y3};
%
\node (x1) [right=12mm of y3.east |- y1]{X1};
\node (x2) [right=12mm of y3.east |- y2]{X2};
\node (x3) [right=12mm of y3.east]      {X2};
%
\node (end) [below=21mm of y2 |- y3]    {END};
%
\node [dashed, fill=none, fit=(x1) (x3)] {};
%%
\draw   (start) -| (y1);
\draw   (start) -- (y2);
\draw   (start) -| (y3);
%
\draw   (x1) edge (y1)
        (x2) edge (y2)
        (x3)  to  (y3);

    \end{tikzpicture}

12.2 指数族

谁提出的指数族,有哪些性质,指数族 quasi-poisson 是什么含义,拟族

如何判别一个分布是否属于指数族

常见的高斯、二项、正态分布、伽马分布、泊松分布

指数族

推广到一般情况

三大抽样分布t分布,\(\chi\) 分布和F分布,一元和多元情形,一元分布知识范围是本科,多元分布范围是研究生和博士,参考数理统计引论。一元分布多用于本科假设检验,多元分布常用于均值向量和协方差阵以及统计量的极限分布。介绍各个分布的形式、历史来源、各个特征量、密度、分布函数推导,数值计算

三大抽样的发现、历史、多元、非中心形式的推广

多元 t 分布函数 (MVT)

\[ T(\mathbf{a},\mathbf{b},\Sigma,\nu)=\frac{2^{1-\frac{\nu}{2}}}{\Gamma(\frac{\nu}{2}) } \int_{0}^{\infty} s^{\nu-1}e^{-\frac{s^2}{2}} \Phi(\frac{s\mathbf{a}}{\sqrt{\nu}},\frac{s\mathbf{b}}{\sqrt{\nu}},\Sigma)ds \]

多元正态分布函数 (MVN)

\[ \Phi(\mathbf{a},\mathbf{b},\Sigma)=\frac{1}{\sqrt{|\Sigma|(2\pi)^m}} \int_{a_1}^{b_1}\!\int_{a_2}^{b_2}\!\cdots\!\int_{a_m}^{b_m} e^{-\frac{1}{2}x^\top\Sigma^{-1}x}dx \]

其中 \(x = (x_1,x_2,\dots,x_m)^\top, \forall i, -\infty \le a_i \le b_i \le \infty\)\(\Sigma\)\(m \times m\) 对称非负定的矩阵

多元 \(t\) 分布分位数计算

library(mvtnorm)
n <- c(26, 24, 20, 33, 32)
V <- diag(1 / n)
df <- 130
C <- matrix(c(
  1, 1, 1, 0, 0, -1, 0, 0, 1, 0,
  0, -1, 0, 0, 1, 0, 0, 0, -1, -1,
  0, 0, -1, 0, 0
), ncol = 5)
cv <- C %*% V %*% t(C) ## covariance matrix
dv <- t(1 / sqrt(diag(cv)))
cr <- cv * (t(dv) %*% dv) ## correlation matrix
delta <- rep(0, 5)
Tn <- qmvt(0.95,
  df = df, delta = delta, corr = cr,
  abseps = 0.0001, maxpts = 100000, tail = "both"
)
Tn
## $quantile
## [1] 2.560721
## 
## $f.quantile
## [1] 1.919326e-07
## 
## attr(,"message")
## [1] "Normal Completion"

计算多元正态分布的概率,这个例子来自 https://stackoverflow.com/questions/36704081

# 模拟一个协方差矩阵
sigma <- as.matrix(read.csv(file = "data/sigma.csv", header = F, sep = ","))
rownames(sigma) <- colnames(sigma)
# matrixcalc::is.symmetric.matrix(sigma) # 判断 sigma 是否为对称的矩阵
# matrixcalc::is.positive.definite(sigma) # 判断 sigma 是否为正定的矩阵
# isTRUE(all.equal(sigma, t(sigma)))
m <- nrow(sigma)
Fn <- pmvnorm(
  lower = rep(-Inf, m), upper = rep(0, m),
  mean = rep(0, m), sigma = sigma
)
Fn

mvrnorm() 函数来自 MASS 包,模拟多元正态分布的样本

library(MASS)
set.seed(2018)
n <- 1000 # 样本量
X <- mvrnorm(n, mu = rep(0, 2), Sigma = matrix(c(1, 0.8, 0.8, 1), 2))
plot(X,
  pch = 20, panel.first = grid(), cex = 1,
  col = densCols(X, colramp = hcl.colors),
  xlab = expression(X[1]), ylab = expression(X[2])
)
二维正态分布

图 12.2: 二维正态分布

f1 <- kde2d(X[, 1], X[, 2], n = 25)
image(f1, col = hcl.colors(100), xlab = expression(X[1]), ylab = expression(X[2]))
contour(f1, add = T)
二维正态分布

图 12.3: 二维正态分布

nrz <- nrow(f1$z)
ncz <- ncol(f1$z)
nbcol <- 100
color <- hcl.colors(100)
# Compute the z-value at the facet centres
zfacet <- f1$z[-1, -1] + f1$z[-1, -ncz] + f1$z[-nrz, -1] + f1$z[-nrz, -ncz]
# Recode facet z-values into color indices
facetcol <- cut(zfacet, nbcol)

persp(f1,
  xlab = "X[1]", ylab = "X[2]", zlab = "\n Z",
  theta = 30, phi = 20, col = color[facetcol],
  r = 50, d = 0.1, expand = 0.5, ltheta = 90, lphi = 180,
  shade = 0.1, ticktype = "detailed", nticks = 5, box = TRUE
)
二维正态分布

图 12.4: 二维正态分布

Wishart 分布 文献 (Eaton 2007) 第八章

参考文献

Eaton, Morris L. 2007. “Chapter 8: The Wishart Distribution.” In Multivariate Statistics, 53:302–33. Lecture Notes – Monograph Series. Beachwood, Ohio, USA: Institute of Mathematical Statistics. https://doi.org/10.1214/lnms/1196285114.

Leemis, Lawrence M. 1986. “Relationships Among Common Univariate Distributions.” The American Statistician 40 (2): 143–46. http://www.jstor.org/stable/2684876.