1 数据导入导出

作为一名普通的数据分析师,我日常接触最多的数据是业务系统中的销售订单表、商品库存表、会员信息表,门店信息表,商品信息表等之类的业务表,但最初接触R时,看到的演示代码以及数据集大部分都是R包中内置的数据集,没有很明确操作数据的意义,没有代入感。在刚开始学习使用R做数据处理后,我就想使用自己的数据集来操作数据,用 R 去实现 Excel 的透视表或 sql 功能。这时就首先需要将原始数据导入1R中。

现实生活中数据来源复杂,商业环境中数据源同样具有多样性,如 SAP,不同的数据库、OA系统、EXCEL 手工文件等;我们想要统一数据做分析,就需要将不同的数据源整合导入R中。

我们从读取方式简单区分为本地文件数据、数据库数据,本章主要说明常用的 Excel 文件和csv2、txt 等文本文件的读写方式。关于数据库的数据的读取,可以参照后续 database 数据库章节

相信大家随便使用搜索引擎搜索诸如“将 Excel 导入 R”的关键词都能得到一些行之有效的方法,但是不够系统全面。本章主要简述R中数据导入导出的相关 R 包,如readxl,writexl,openxlsx,readr, vroom等主要处理 csv 或 Excel 的 R 包。

当有其它数据格式需求的时候,那时候的你肯定已经会自行查找相关R包使用了。

在本章开始前,假定已经有一些 R 相关基础。如使用 Rstudio 查看导入的数据,R 的数据结构等有一定认识。本章节主要分为:

  • excel 读写

  • csv 等平面文件读写

  • 文件路径


  1. 由于 R 是将数据加载至内存中,故数据集大小超过内存大小将导入失败。↩︎

  2. csv 即 Comma-Separated Values,逗号分隔值,分隔符也可是不是逗号。 csv 文件是一种以纯文本形式存储的表格数据,可以通过记事本打开。与 Excel 不同的是,CSV 是一种文本格式,也不受 Excel 最大行数(1048576)限制。 csv 文件也被称作平面文件,结构简单,平面文件比结构文件占用更少的空间;平面文件在数据仓库项目中广泛用于导入数据。↩︎