2 数据处理之-dplyr

本章节主要目的是通过阐述dplyr动词用法,实现与Excel透视表sql相同功能,从而达到不同的数据整理、聚合需求。

本章主要从以下方面阐述:

  1. 行条件筛选
  2. 列筛选
  3. 字段重命名
  4. 列位置排序
  5. 行排序
  6. 新增计算字段
  7. 分组聚合
  8. 表关联
  9. 行列操作
  10. 使用dplyr编写自定义函数

其中9,10行列操作和自定义函数有一定难度,大家可以先熟悉dplyr基本用法后再了解其用法。

sql相比,用dplyr的优势:

  • 代码量极大减少

  • 逻辑复杂时,dplyr动词可以按照顺序一步步实现,无需嵌套,实现过程简单

  • 代码可读性好

  • 配合dbplyr包使用,大部分情况下可以扔掉sql语法,从而实现不同数据库间语法并不完全一致时,代码可重复使用

本章节中部分案例照搬dplyr包的官方案例, dplyr动词从数据库相关操作中抽象而来,从sql迁移成本低