3 整洁数据之 tidyr
在实际工作中,我们数据分析工作者80%的时间可能贡献在数据准备和数据清洗上。另外发现新问题时,可能又要重复数据准备、数据清洗的过程。如果采用不能完全复现的方式做数据准备清洗类的工作,那将是一场灾难。
数据工作者最常用的工具可能是Excel,但是Excel并不具备很强的数据清洗能力,即使Excel有Power query 等利器。 工作中,实际面临原始的数据是脏乱无须的,业务系统仅仅只是记录了历史过程数据。当我们需要分析某一问题时,需要按照自己的需求重新采集数据,清洗为“标准”的数据格式。
标准数据:个人理解是达到工作需求的数据结构,可以直接用Excel,power bi ,tableau 等 BI 工具直接使用的程度。
R
中的tidyverse系列为数据流工作构建了一种一致的数据结构tibble
6,
和我们使用 dplyr 包操作的数据结构一致,当我们用tidyverse软件包提供的“数据整洁工具”整洁数据时,我们将花费更少的时间将数据从一种形式迁移到另外一种形式。从而我们拥有更多的时间专注在具体的业务问题上。本章节,我们介绍tidyr
包,tidyr 是整洁数据的工具,提供了许多的功能函数整理混乱的数据。
但是本人实际经历而言,使用 tidyr 清洗数据的时间较少,可能原因是:
- 使用的数据源绝大部分来源于业务系统的数据库,数据已经相对“干净”
- 数据源是经过公司的 BI 处理后的数据
- 传统零售行业业务场景相对简单,数据结构简单
- 大部分的数据需求可以直接使用 dplyr 动词处理
鉴于以上原因,大家在阅读的时候可以暂时跳过本章节,最后再看本章节。
需要说明的是,本章节大部分案例是照搬官方demo,所以大家也可以直接阅读tidyr 官方项目学习。
tidyr 项目地址: https://tidyr.tidyverse.org/
了解更多有关 tibbles 的信息,查看手册 vignette(“tibble”).↩︎