3.7 Ordenando dados

A função arrange do pacote dplyr é usada para ordenar as linhas de um data frame com base em uma ou mais colunas. O comando arrange permite que você organize seus dados de forma crescente ou decrescente, facilitando a análise e visualização dos dados.

Digamos que queremos ordenar nossa base de dados a partir da variável idade. Teremos o código abaixo:

dados%>%arrange(idade)

X	status	tempo_empresa	moradia	tempo_emprestimo	idade	estado_civil	registros	trabalho	despesas	renda	ativos	valor_emprestimo	preco_do_bem	dif	aut	naoaut	idadeQ
384	ruim	1	pais	48	18	solteira(o)	não	meio período	35	81	0	1150	1314	164	não	sim	Jovem adultos
1238	bom	1	própria	48	18	solteira(o)	não	meio período	45	111	7000	1100	1299	199	não	sim	Jovem adultos
1622	ruim	0	alugada	36	18	solteira(o)	não	meio período	40	51	0	500	500	0	não	sim	Jovem adultos
3712	ruim	1	pais	48	18	solteira(o)	não	meio período	45	95	4000	600	1472	872	não	sim	Jovem adultos
3913	ruim	0	alugada	36	18	solteira(o)	sim	outros	38	33	0	300	350	50	não	sim	Jovem adultos

Repare que os dados foram ordenados de acordo com a coluna idade, de baixo para cima. O comando desc, nos permite fazer o mesmo, em ordem decrescente:

dados%>%arrange(desc(idade))

X	status	tempo_empresa	moradia	tempo_emprestimo	idade	estado_civil	registros	trabalho	despesas	renda	ativos	dividas	valor_emprestimo	preco_do_bem	dif	aut	naoaut	idadeQ
16	bom	0	própria	24	68	casada(o)	não	fixo	75	131	4162	0	900	1186	286	não	sim	Idosos
18	bom	33	alugada	24	68	casada(o)	não	autônomo	65	200	5000	2000	600	1350	750	sim	não	Idosos
119	bom	20	própria	24	66	casada(o)	não	fixo	45	143	10000	0	950	1370	420	não	sim	Idosos
298	bom	3	própria	18	66	casada(o)	não	outros	45	69	12000	0	500	1101	601	não	sim	Idosos
1932	bom	2	alugada	12	66	casada(o)	não	outros	51	60	20000	0	500	1504	1004	não	sim	Idosos

Digamos que queremos ordenar a análise que fizemos na seção anterior, sobre a média de idade e estado civil. Basta adicionar o comando arrange com o operador pipe %>%. Os resultados ordem a coluna média por ordem crescente de valores.

dados %>% 
  group_by(estado_civil) %>% 
  summarize(media=mean(idade, na.rm = T))%>%
  arrange(media)

## # A tibble: 6 × 2
##   estado_civil  media
##   <chr>         <dbl>
## 1 solteira(o)    27.8
## 2 <NA>           37  
## 3 separada(o)    38.0
## 4 divorciada(o)  38.7
## 5 casada(o)      39.6
## 6 viúva(o)       48.8

Podemos, também, ordenar os resultados por ordem alfabética, inserindo a variável estado_civil no comando arrange.

dados %>% 
  group_by(estado_civil) %>% 
  summarize(media=mean(idade, na.rm = T))%>%
  arrange(estado_civil)

## # A tibble: 6 × 2
##   estado_civil  media
##   <chr>         <dbl>
## 1 casada(o)      39.6
## 2 divorciada(o)  38.7
## 3 separada(o)    38.0
## 4 solteira(o)    27.8
## 5 viúva(o)       48.8
## 6 <NA>           37

Se quisermos ordenar as categorias de uma variável em uma ordem específica, customizada, precisamos utilizar a função fct_relevel(), do pacote forcats. Veremos isso na Aula 3.

Salvar dados

Não esquecer de salvar as modificações que fizemos na nossa base de dados hoje. Podemos salvar como .csv ou como objeto RDS. Para salvar como csv utilizar o código:

write.csv(dados,"aula1mod.csv")

Ou para salvar como RDS

saveRDS(dados,"aula1mod.RDS")

Não se esqueça de carregar o arquivo modificado na próxima aula!