3 整洁数据之 tidyr

在实际工作中,我们数据分析工作者80%的时间可能贡献在数据准备和数据清洗上。另外发现新问题时,可能又要重复数据准备、数据清洗的过程。如果采用不能完全复现的方式做数据准备清洗类的工作,那将是一场灾难。

数据工作者最常用的工具可能是Excel,但是Excel并不具备很强的数据清洗能力,即使Excel有Power query 等利器。 工作中,实际面临原始的数据是脏乱无须的,业务系统仅仅只是记录了历史过程数据。当我们需要分析某一问题时,需要按照自己的需求重新采集数据,清洗为“标准”的数据格式。

标准数据:个人理解是达到工作需求的数据结构,可以直接用Excel,power bi ,tableau 等 BI 工具直接使用的程度。

R中的tidyverse系列为数据流工作构建了一种一致的数据结构tibble6, 和我们使用 dplyr 包操作的数据结构一致,当我们用tidyverse软件包提供的“数据整洁工具”整洁数据时,我们将花费更少的时间将数据从一种形式迁移到另外一种形式。从而我们拥有更多的时间专注在具体的业务问题上。本章节,我们介绍tidyr包,tidyr 是整洁数据的工具,提供了许多的功能函数整理混乱的数据。

但是本人实际经历而言,使用 tidyr 清洗数据的时间较少,可能原因是:

  • 使用的数据源绝大部分来源于业务系统的数据库,数据已经相对“干净”
  • 数据源是经过公司的 BI 处理后的数据
  • 传统零售行业业务场景相对简单,数据结构简单
  • 大部分的数据需求可以直接使用 dplyr 动词处理

鉴于以上原因,大家在阅读的时候可以暂时跳过本章节,最后再看本章节。

需要说明的是,本章节大部分案例是照搬官方demo,所以大家也可以直接阅读tidyr 官方项目学习。

tidyr 项目地址: https://tidyr.tidyverse.org/


  1. 了解更多有关 tibbles 的信息,查看手册 vignette(“tibble”).↩︎