4 字符处理

实际数据分析工作中,经常需要处理字符串以便让数据整洁,符合分析需求。在我们常用工具 Excel 或 SQL 中也有处理字符串的需求。绝大部分时候,截断、替换等基础实现就能满足我们的大部分字符处理需求。

Excel 中自带的字符串函数7,如:left,len,mid,find,Proper,rept,trim,upper,substitute, concatenate,以及Excle2019新出的concat,TEXTJOIN等字符函数,TEXTJOIN函数我个人比较喜欢用。

但是Excel中字符处理功能存在一定局限性,没有直接可用的正则表达式8函数,在正则表达式本身就很困难的情况下,在VBA中实现较复杂的函数将会难上加难。

在学习 R 的字符处理时候,可以自行尝试实现以上相对应 Excel 函数

字符处理,本人觉得本质上就是将字符定位后去实现不同的操作,比如替换、截断等。所以字符处理难点在于字符串中字符的定位,而实现这个功能就需要用到正则表达式,所以字符处理真正的难点在于正则表达式的编写。但是,在我看来正则表达式想要掌握,难度过高,我们秉着随用随查的态度对待即可。

因为大部分的数据分析工作者并不会面临太多复杂的字符处理工作,对大部分常规商业数据分析工作者面对的数据而言,字符处理可能仅仅只是合并、剔除、删除空格、倒序等基础操作。面对舆情监控,购物评价等纯文本情感分析工作,个人觉得对普通数据分析岗位有点超纲,所以本章节的字符处理仅仅是常规的字符处理。

在 R 语言中字符处理,可以分为两大方法,一种是 base R 中原生的字符处理函数,另外一种是使用 tidyverse 系列中的 stringr 处理字符。所以本章节着重从这两方面阐述字符处理函数用法。


  1. Excel中支持的TEXT functions↩︎

  2. 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),查看帮助?regex↩︎