1 数据导入导出
作为一名普通的数据分析师,我日常接触最多的数据是业务系统中的销售订单表、商品库存表、会员信息表,门店信息表,商品信息表等之类的业务表,但最初接触R时,看到的演示代码以及数据集大部分都是R包中内置的数据集,没有很明确操作数据的意义,没有代入感。在刚开始学习使用R做数据处理后,我就想使用自己的数据集来操作数据,用 R 去实现 Excel 的透视表或 sql 功能。这时就首先需要将原始数据导入1R中。
现实生活中数据来源复杂,商业环境中数据源同样具有多样性,如 SAP,不同的数据库、OA系统、EXCEL 手工文件等;我们想要统一数据做分析,就需要将不同的数据源整合导入R中。
我们从读取方式简单区分为本地文件数据、数据库数据,本章主要说明常用的 Excel 文件和csv2、txt 等文本文件的读写方式。关于数据库的数据的读取,可以参照后续 database 数据库章节。
相信大家随便使用搜索引擎搜索诸如“将 Excel 导入 R”的关键词都能得到一些行之有效的方法,但是不够系统全面。本章主要简述R中数据导入导出的相关 R 包,如readxl
,writexl
,openxlsx
,readr
, vroom
等主要处理 csv 或 Excel 的 R 包。
当有其它数据格式需求的时候,那时候的你肯定已经会自行查找相关R包使用了。
在本章开始前,假定已经有一些 R 相关基础。如使用 Rstudio 查看导入的数据,R 的数据结构等有一定认识。本章节主要分为:
excel 读写
csv 等平面文件读写
文件路径