第 9 章 探索性数据分析

探索性数据分析(exporatory data analysis)是各种知识的综合运用。本章通过一个案例,讲解探索性数据分析的基本思路,也算是对前面几章内容的一次总结复习。

9.1 数据集

这是一个诺贝尔奖获得者的数据集,在这里下载

Download nobel_winners.csv

9.2 导入数据

## # A tibble: 969 x 18
##    prize_year category prize motivation prize_share
##         <dbl> <chr>    <chr> <chr>      <chr>      
##  1       1901 Chemist~ The ~ "\"in rec~ 1/1        
##  2       1901 Literat~ The ~ "\"in spe~ 1/1        
##  3       1901 Medicine The ~ "\"for hi~ 1/1        
##  4       1901 Peace    The ~ <NA>       1/2        
##  5       1901 Peace    The ~ <NA>       1/2        
##  6       1901 Physics  The ~ "\"in rec~ 1/1        
##  7       1902 Chemist~ The ~ "\"in rec~ 1/1        
##  8       1902 Literat~ The ~ "\"the gr~ 1/1        
##  9       1902 Medicine The ~ "\"for hi~ 1/1        
## 10       1902 Peace    The ~ <NA>       1/2        
## # ... with 959 more rows, and 13 more variables:
## #   laureate_id <dbl>, laureate_type <chr>,
## #   full_name <chr>, birth_date <date>,
## #   birth_city <chr>, birth_country <chr>,
## #   gender <chr>, organization_name <chr>,
## #   organization_city <chr>,
## #   organization_country <chr>, death_date <date>,
## #   death_city <chr>, death_country <chr>

9.3 我们想探索哪些问题?

你想关心哪些问题,可能是

  • 每个学科的诺奖数量?
  • 这些大神都是哪个年代的人?
  • 出生地分布?画地图?
  • 最年轻的诺奖获得者是谁?
  • 中国诺奖获得者有哪些?
  • 得奖的时候多大年龄?
  • 获奖者所在国家的经济情况?
  • 有大神多次获得诺贝尔奖,而且在不同科学领域,赶快去寻找吧
  • 有人得过几次奖项?
  • 有人在不同领域得奖?
  • GDP经济与诺奖模型?
  • 诺奖分享者国籍关联?

9.6 看看我们伟大的祖国

## # A tibble: 12 x 3
##    full_name              prize_year category  
##    <chr>                       <dbl> <chr>     
##  1 Walter Houser Brattain       1956 Physics   
##  2 Chen Ning Yang               1957 Physics   
##  3 Tsung-Dao (T.D.) Lee         1957 Physics   
##  4 Edmond H. Fischer            1992 Medicine  
##  5 Daniel C. Tsui               1998 Physics   
##  6 Gao Xingjian                 2000 Literature
##  7 Charles Kuen Kao             2009 Physics   
##  8 Charles Kuen Kao             2009 Physics   
##  9 Ei-ichi Negishi              2010 Chemistry 
## 10 Liu Xiaobo                   2010 Peace     
## 11 Mo Yan                       2012 Literature
## 12 Youyou Tu                    2015 Medicine

我们发现获奖者有多个地址,就会有重复的情况,因此需要去重。下面我们去重吧

## # A tibble: 11 x 3
##    full_name              prize_year category  
##    <chr>                       <dbl> <chr>     
##  1 Walter Houser Brattain       1956 Physics   
##  2 Chen Ning Yang               1957 Physics   
##  3 Tsung-Dao (T.D.) Lee         1957 Physics   
##  4 Edmond H. Fischer            1992 Medicine  
##  5 Daniel C. Tsui               1998 Physics   
##  6 Gao Xingjian                 2000 Literature
##  7 Charles Kuen Kao             2009 Physics   
##  8 Ei-ichi Negishi              2010 Chemistry 
##  9 Liu Xiaobo                   2010 Peace     
## 10 Mo Yan                       2012 Literature
## 11 Youyou Tu                    2015 Medicine

9.7 哪些大神多次获得诺贝尔奖

## # A tibble: 911 x 18
##    prize_year category prize motivation prize_share
##         <dbl> <chr>    <chr> <chr>      <chr>      
##  1       1901 Chemist~ The ~ "\"in rec~ 1/1        
##  2       1901 Literat~ The ~ "\"in spe~ 1/1        
##  3       1901 Medicine The ~ "\"for hi~ 1/1        
##  4       1901 Peace    The ~ <NA>       1/2        
##  5       1901 Peace    The ~ <NA>       1/2        
##  6       1901 Physics  The ~ "\"in rec~ 1/1        
##  7       1902 Chemist~ The ~ "\"in rec~ 1/1        
##  8       1902 Literat~ The ~ "\"the gr~ 1/1        
##  9       1902 Medicine The ~ "\"for hi~ 1/1        
## 10       1902 Peace    The ~ <NA>       1/2        
## # ... with 901 more rows, and 13 more variables:
## #   laureate_id <dbl>, laureate_type <chr>,
## #   full_name <chr>, birth_date <date>,
## #   birth_city <chr>, birth_country <chr>,
## #   gender <chr>, organization_name <chr>,
## #   organization_city <chr>,
## #   organization_country <chr>, death_date <date>,
## #   death_city <chr>, death_country <chr>
## # A tibble: 4 x 5
## # Groups:   full_name [2]
##   full_name prize_year category number_prize
##   <chr>     <chr>      <chr>           <int>
## 1 linus ca~ 1954       chemist~            2
## 2 linus ca~ 1962       peace               2
## 3 marie cu~ 1903       physics             2
## 4 marie cu~ 1911       chemist~            2
## # ... with 1 more variable: number_cateory <int>

9.8 大神在得奖的时候是多大年龄?

## Warning: Removed 1 rows containing missing values
## (position_stack).

他们60多少岁才得诺奖,我们还年轻,不用焦虑喔。

9.9 其它

没有回答的问题,大家自己花时间探索下。

9.10 延伸阅读

  • 数据是没有去重的,你先去重,然后再试试呢?
  • 有些图可以再美化下