第 9 章 探索性数据分析

探索性数据分析(exporatory data analysis)是各种知识的综合运用。本章通过一个案例,讲解探索性数据分析的基本思路,也算是对前面几章内容的一次总结复习。

9.1 探索性

  • 数据准备(对数据要做到心中有数)

    • 描述变量
    • 数据结构
    • 缺失值及其处理
  • 数据探索(围绕探索的目标)

    • 数据规整
    • 可视化
    • 建模

9.2 数据集

这是一个诺贝尔奖获得者的数据集,

9.3 导入数据

这里有个小小的提示:

  • 路径(包括文件名), 不要用中文和空格
  • 数据框中变量,也不要有中文和空格(可用下划线代替空格)

9.4 数据结构

一行就是一个诺奖获得者的记录? 确定?

缺失值及其处理

性别缺失怎么造成的?

9.5 我们想探索哪些问题?

你想关心哪些问题,可能是

  • 每个学科颁过多少次奖?
  • 这些大神都是哪个年代的人?
  • 性别比例
  • 平均年龄和获奖数量
  • 最年轻的诺奖获得者是谁?
  • 中国诺奖获得者有哪些?
  • 得奖的时候多大年龄?
  • 获奖者所在国家的经济情况?
  • 有大神多次获得诺贝尔奖,而且在不同科学领域获奖?
  • 出生地分布?工作地分布?迁移模式?
  • GDP经济与诺奖模型?
  • 诺奖分享情况?

9.6 每个学科颁过多少次奖

也可以使用别人定义好的配色方案

这个配色方案感觉挺好看的呢,比较适合我这种又挑剔又懒惰的人。

当然,也可以自己DIY,或者使用配色网站的主题方案(https://learnui.design/tools/data-color-picker.html#palette)

让图骚动起来吧

和ggplot2的分面一样,动态图可以增加数据展示的维度。

9.7 看看我们伟大的祖国

我们发现获奖者有多个地址,就会有重复的情况,比如 Charles Kuen Kao在2009年Physics有两次,为什么重复计数了呢?

下面我们去重吧, 去重可以用distinct()函数

这是时候,我们才对数据有了一个初步的了解

再来看看我的祖国

9.8 哪些大神多次获得诺贝尔奖

9.9 大神在得奖的时候是多大年龄?

他们60多少岁才得诺奖,大家才23或24岁,还年轻,不用焦虑喔。

有同学说要一个个的画,至于group_split()函数,下次课在讲

## [[1]]

## 
## [[2]]

## 
## [[3]]

## 
## [[4]]

## 
## [[5]]

## 
## [[6]]

也可以用强大的group_by() + group_map()组合,我们会在第 18 章讲到

9.10 性别比例

各年代性别比例

9.12 最年轻的诺奖获得者?