笔记 1 简明数据分析知识框架
1.1 概率与分布
- 从可能性到独立事件概率计算
- 从联合概率到条件概率到贝叶斯公式
- 事件的发生空间到分布
- 多事件发生概率比较到标准化分布-z值
- 正态分布评价拟合
- 贝努利分布
- 二项分布,固定总数,成功概率,二项分布可用正态分布近似求值,也可用二项分布取精确值,求区间概率要扩大
- 负二项分布,固定成功次数概率
- 几何分布,最后一次成功概率
- 超几何分布,不放回抽样,成功概率
- 泊松分布,实验次数多,概率小,发生概率,泊松过程
1.2 统计量
总体到样本
- 多个事件的描述到众数 中位数 再到期望
- 描述多个事件的变动到方差
- 取样方法:随机,分层,分类
- 样本独立性:简单随机取样,样本数少于10%的总体可认为独立样本
- 估计的偏差为标准误
点估计到区间估计
- 标准误只针对样本均值,理解为样本均值的估计标准差
- 置信区间为对所有样本进行区间估计,95%的区间包含真值,是对总体参数的估计,近似认为样本符合某分布
中心极限法则:样本均值的分布为正态分布
1.3 统计推断
假设检验
- 不拒绝H0不代表H0是对的,拒绝H0代表HA可能正确,观察数值的区间重叠状况
- 使用双重否定进行描述
- type I 假阳性 type II 假阴性
- 置信水平反映两种错误的可能性
- p值描述某数值在H0(一般为等式)中出现的可能性,通常与置信水平对比,两边与单边
- 构建符合某分布的统计量进行参数估计,通过标准误计算p值,进行假设检验过程
- 功效表示HA拒绝H0的可能性,功效高,检验可靠
- 统计差异显著不代表实际差异显著,甚至没有实际意义
均值比较(连续)
- 配对数据
- 均值比较
- t分布与自由度及小样本均值的标准误估计
- 置信区间与p值
- 样本均值的t检验
- 多组数据均值的方差分析与F检验
- 多重比较的假阳性问题
- 样本数足够可用统计模拟的方法进行检验,数据存在层级结构则不可直接模拟
比例比较(计数)
- 比例检验,计算基于H0的标准误,计算z值,计算p值,可反推样品量
- 比例差异检验,H0为比例相等,估计混合概率,计算标准误进行检验
- 记分检验与Wald检验
优度拟合
- 分布检验到卡方检验
独立性检验
精确检验
1.4 线性模型
- 变量关系到线性回归到线性诊断
- 参数估计到关系解释及误差分析
- 多元回归
- 模型选择
- 方差分析
- 非线性模型与平滑
- logistic模型到广义线性模型
- 线性混合模型
- 主成分分析与因子分析
1.5 其他主题
- 非参数统计
- 贝叶斯统计
- 判别分析
- 岭回归与lasso
- 广义加性模型
- 鲁棒模型
- 决策树到随机森林
- 人工神经网络
- 支持向量机
- 蒙特卡洛分析到统计模拟
- 图论
1.6 应用
- 实验设计
- 模式识别
- 流行病学
- 生物信息学
- 化学信息学
- 心理学
- 空间数据分析
- 时间序列分析与信号处理
- 量化投资