6.1 介绍

在 R 中 使用『因子12』处理具有固定已知的种类的变量,因子有助于字符向量重新排序获得较好的展示效果。 forcats包提供了一套工具,解决常见『因子』问题,包括更改级别以及值的顺序。

forcats 常用函数:

  • fct_reorder(): 按照另一个变量重新排列因子
  • fct_infreq():按值得频率重新排列一个因素
  • fct_relevel(): 手动指定因子的顺序
  • fct_lump():将一个因素的最少/最频繁的值折叠成其他

关于forcats包,可以直接阅读 R for Data Science 的因子章节。本文大部分内容是从官方手册直译,案例照搬。

因子变量会占用更小内存空间,如下:

object.size(rep(letters,100000))
#> 20801504 bytes
object.size(rep(forcats::as_factor(letters),100000))
#> 10402096 bytes

R-4.0 之后改变了字符默认为因子的方式

6.1.1 安装

由于forcats是tidyverse系列的核心包,可以直接安装tidyverse。

install.packages("tidyverse")

# 从cran 安装
install.packages("forcats")

# 安装开发版
devtools::install_github("tidyverse/forcats")

由于forcats包功能相对简单,本章节接下来仅介绍常用函数用法


  1. R 中内置的一种数据结构,与向量,列表类似。↩︎