1 数据导入导出

作为一名普通的数据分析师,我日常接触最多的数据是业务系统中的销售订单表、商品库存表、会员信息表,门店信息表,商品信息表等之类的业务表,但最初接触R时,看到的演示代码以及数据集大部分都是R包中内置的数据集,没有很明确操作数据的意义,没有代入感。在刚开始学习使用R做数据处理后,我就想使用自己的数据集来操作数据,用R去实现Excel的透视表或sql功能。这时就首先需要将原始数据导入1R中。

现实生活中数据来源复杂,商业环境中数据源同样具有多样性,如SAP,不同的数据库、OA系统、EXCEL手工文件等;我们想要统一数据做分析,就需要将不同的数据源整合导入R中。

我们从读取方式简单区分为本地文件数据、数据库数据,本章主要说明常用的Excel文件和csv2、txt等文本文件的读写方式。关于数据库的数据的读取,可以参照后续database章节。

相信大家随便使用搜索引擎搜索诸如“将Excel导入R”的关键词都能得到一些行之有效的方法,但是不够系统全面。本章主要简述R中数据导入导出的相关R包,如readxl,writexl,openxlsx,readr, vroom等主要处理csv或Excel的R包。

当有其它数据格式需求的时候,那时候的你肯定已经会自行查找相关R包使用了。

在本章开始前,假定已经有一些R相关基础。如使用Rstudio查看导入的数据,R的数据结构等有一定认识。本章节主要分为:

  • excel读写
  • csv等平面文件读写
  • 文件路径

  1. 由于R是将数据加载至内存中,故数据集大小超过内存大小将导入失败。↩︎

  2. csv即Comma-Separated Values,逗号分隔值,分隔符也可是不是逗号。 csv文件是一种以纯文本形式存储的表格数据,可以通过记事本打开。与Excel不同的是,CSV是一种文本格式,也不受Excel最大行数(1048576)限制。 csv文件也被称作平面文件,结构简单,平面文件比结构文件占用更少的空间;平面文件在数据仓库项目中广泛用于导入数据。↩︎