5.2 Trabalhando com caracteres (strings)

Variáveis de texto são muito comuns nos bancos de dados e, geralmente, dão bastante trabalho para serem manipuladas. É muito comum encontrarmos colunas com categorias não padronizadas, como, por exemplo, uma variável Estado com “SP”, “sp”, “Sao Paulo”, “São Paulo” etc, todas indicando o mesmo estado.

Trabalhar com textos exige um certo conhecimento de expressões regulares. As expressões regulares — ou simplesmente regex — permitem identificar conjuntos de caracteres, palavras e outros padrões por meio de uma sintaxe concisa. Mais informações sobre a linguagem regex pode ser encontradas aqui: https://www.datacamp.com/tutorial/regex-r-regular-expressions-guide

5.2.1 Colando elementos

A função paste() no R é uma função usada para concatenar (juntar) strings.

Vamos carregar a base de dados

idosos=read.csv("idosos.csv")

Vamos criar uma nova variável no dataframe idosos que mostre a relação entre motivo de origem e motivo de destino

idosos$ordes= paste(idosos$motivo_origem, idosos$motivo_destino, sep = "-")