笔记 1 简明数据分析知识框架

1.1 概率与分布

  • 从可能性到独立事件概率计算
  • 从联合概率到条件概率到贝叶斯公式
  • 事件的发生空间到分布
  • 多事件发生概率比较到标准化分布-z值
  • 正态分布评价拟合
  • 贝努利分布
  • 二项分布,固定总数,成功概率,二项分布可用正态分布近似求值,也可用二项分布取精确值,求区间概率要扩大
  • 负二项分布,固定成功次数概率
  • 几何分布,最后一次成功概率
  • 超几何分布,不放回抽样,成功概率
  • 泊松分布,实验次数多,概率小,发生概率,泊松过程

1.2 统计量

  • 总体到样本

    • 多个事件的描述到众数 中位数 再到期望
    • 描述多个事件的变动到方差
    • 取样方法:随机,分层,分类
    • 样本独立性:简单随机取样,样本数少于10%的总体可认为独立样本
    • 估计的偏差为标准误
  • 点估计到区间估计

    • 标准误只针对样本均值,理解为样本均值的估计标准差
    • 置信区间为对所有样本进行区间估计,95%的区间包含真值,是对总体参数的估计,近似认为样本符合某分布
  • 中心极限法则:样本均值的分布为正态分布

1.3 统计推断

  • 假设检验

    • 不拒绝H0不代表H0是对的,拒绝H0代表HA可能正确,观察数值的区间重叠状况
    • 使用双重否定进行描述
    • type I 假阳性 type II 假阴性
    • 置信水平反映两种错误的可能性
    • p值描述某数值在H0(一般为等式)中出现的可能性,通常与置信水平对比,两边与单边
    • 构建符合某分布的统计量进行参数估计,通过标准误计算p值,进行假设检验过程
    • 功效表示HA拒绝H0的可能性,功效高,检验可靠
    • 统计差异显著不代表实际差异显著,甚至没有实际意义
  • 均值比较(连续)

    • 配对数据
    • 均值比较
    • t分布与自由度及小样本均值的标准误估计
    • 置信区间与p值
    • 样本均值的t检验
    • 多组数据均值的方差分析与F检验
    • 多重比较的假阳性问题
    • 样本数足够可用统计模拟的方法进行检验,数据存在层级结构则不可直接模拟
  • 比例比较(计数)

    • 比例检验,计算基于H0的标准误,计算z值,计算p值,可反推样品量
    • 比例差异检验,H0为比例相等,估计混合概率,计算标准误进行检验
    • 记分检验与Wald检验
  • 优度拟合

    • 分布检验到卡方检验
  • 独立性检验

  • 精确检验

1.4 线性模型

  • 变量关系到线性回归到线性诊断
  • 参数估计到关系解释及误差分析
  • 多元回归
  • 模型选择
  • 方差分析
  • 非线性模型与平滑
  • logistic模型到广义线性模型
  • 线性混合模型
  • 主成分分析与因子分析

1.5 其他主题

  • 非参数统计
  • 贝叶斯统计
  • 判别分析
  • 岭回归与lasso
  • 广义加性模型
  • 鲁棒模型
  • 决策树到随机森林
  • 人工神经网络
  • 支持向量机
  • 蒙特卡洛分析到统计模拟
  • 图论

1.6 应用

  • 实验设计
  • 模式识别
  • 流行病学
  • 生物信息学
  • 化学信息学
  • 心理学
  • 空间数据分析
  • 时间序列分析与信号处理
  • 量化投资