3 tidyr

在实际工作中,我们数据分析工作者80%的时间可能贡献在数据准备和数据清晰上。另外发现新问题时,可能又要重复数据准备、数据清晰的过程。如果采用不能完全复现的方式做数据准备清洗的工作,那将是一场灾难。

数据工作者最常用的工具可能是Excel,但是Excel并不具备很强的数据清洗能力,即使Excel有POwer query 、Dax等两大利器。工作中,实际面临原始的数据是脏乱无须的,业务系统仅仅只是记录了历史过程数据。当我们需要分析某一现象时,需要按照自己的需求重新采集数据,清洗为“标准”的数据格式。

标准数据:达到工作需求的数据,可以直接用Excel,power bi ,tableau等BI工具直接使用的程度。

R中的tidyverse系列构建了一种一致的数据结构,当我们用tidyverse软件包提供的“数据整洁工具”整洁数据时,我们将花费更少的时间将数据从一种形式迁移到另外一种形式。从而,我们拥有更多的时间专注在具体的业务问题上。