笔记 1 简明数据分析知识框架

1.1 概率与分布

总体到样本
- 多个事件的描述到众数中位数再到期望
- 描述多个事件的变动到方差
- 取样方法：随机，分层，分类
- 样本独立性:简单随机取样，样本数少于10%的总体可认为独立样本
- 估计的偏差为标准误
点估计到区间估计
- 标准误只针对样本均值，理解为样本均值的估计标准差
- 置信区间为对所有样本进行区间估计，95%的区间包含真值，是对总体参数的估计，近似认为样本符合某分布
中心极限法则：样本均值的分布为正态分布

假设检验
- 不拒绝H0不代表H0是对的，拒绝H0代表HA可能正确，观察数值的区间重叠状况
- 使用双重否定进行描述
- type I 假阳性 type II 假阴性
- 置信水平反映两种错误的可能性
- p值描述某数值在H0（一般为等式）中出现的可能性，通常与置信水平对比，两边与单边
- 构建符合某分布的统计量进行参数估计，通过标准误计算p值，进行假设检验过程
- 功效表示HA拒绝H0的可能性，功效高，检验可靠
- 统计差异显著不代表实际差异显著，甚至没有实际意义
均值比较（连续）
- 配对数据
- 均值比较
- t分布与自由度及小样本均值的标准误估计
- 置信区间与p值
- 样本均值的t检验
- 多组数据均值的方差分析与F检验
- 多重比较的假阳性问题
- 样本数足够可用统计模拟的方法进行检验，数据存在层级结构则不可直接模拟
比例比较（计数）
- 比例检验，计算基于H0的标准误，计算z值，计算p值，可反推样品量
- 比例差异检验，H0为比例相等，估计混合概率，计算标准误进行检验
- 记分检验与Wald检验
优度拟合
- 分布检验到卡方检验
独立性检验
精确检验