4 字符处理

实际数据分析工作中,经常需要处理字符串以便让数据整洁，符合分析需求。在我们常用工具 Excel 或 SQL 中也有处理字符串的需求。绝大部分时候，截断、替换等基础实现就能满足我们的大部分字符处理需求。

Excel 中自带的字符串函数⁷，如:left,len,mid,find,Proper,rept,trim,upper,substitute, concatenate，以及Excle2019新出的concat,TEXTJOIN等字符函数，TEXTJOIN函数我个人比较喜欢用。

但是Excel中字符处理功能存在一定局限性,没有直接可用的正则表达式⁸函数,在正则表达式本身就很困难的情况下，在VBA中实现较复杂的函数将会难上加难。

在学习 R 的字符处理时候,可以自行尝试实现以上相对应 Excel 函数

字符处理，本人觉得本质上就是将字符定位后去实现不同的操作，比如替换、截断等。所以字符处理难点在于字符串中字符的定位，而实现这个功能就需要用到正则表达式，所以字符处理真正的难点在于正则表达式的编写。但是，在我看来正则表达式想要掌握，难度过高，我们秉着随用随查的态度对待即可。

因为大部分的数据分析工作者并不会面临太多复杂的字符处理工作，对大部分常规商业数据分析工作者面对的数据而言，字符处理可能仅仅只是合并、剔除、删除空格、倒序等基础操作。面对舆情监控，购物评价等纯文本情感分析工作，个人觉得对普通数据分析岗位有点超纲，所以本章节的字符处理仅仅是常规的字符处理。

在 R 语言中字符处理，可以分为两大方法，一种是 base R 中原生的字符处理函数，另外一种是使用 tidyverse 系列中的 stringr 处理字符。所以本章节着重从这两方面阐述字符处理函数用法。

Excel中支持的TEXT functions ↩︎
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),查看帮助?regex。↩︎