8.2 Avaliação

Para a avaliação do curso, faremos uma série de exercícios baseados nas aulas ministradas, a partir de duas bases de dados.

As bases de dados para o exercício consistem em dados coletados do Spotify em em Junho 2020. Os dados originais podem ser encontrados aqui.

Para a avaliação vocês utilizarão dois arquivos: Arquivo 1 e Arquivo 2

O arquivo spot1.csv traz informações como o nome da música, artista, duração (milisegundos), ano de lançamento,popularidade.

##                        id                          track_name        artist_name   genre
## 1  000xQL6tZNLJzIrtIgxqSl                      Still Got Time               ZAYN   Dance
## 2  004XT7kCZUEJkVIZjmBdDi                       Life Rolls On   Slightly Stoopid  Reggae
## 3  005lwxGU1tms6HGELIcUv9                     I Kissed A Girl         Katy Perry   Dance
## 4  007n10xGvSbc7dKgAORVIq                   Brokenheartsville        Joe Nichols Country
## 5  007reLkuOQhAJypiC5sVyX                 Power and the Glory        Jimmy Cliff  Reggae
## 6  00AxNl4D4jHL2AEf1W55j5             What The Hell Did I Say     Dierks Bentley Country
## 7  00B7TZ0Xawar6NZ00JFomN Best Life (feat. Chance The Rapper)            Cardi B     Rap
## 8  00bnP8RyknzZMkNlEAO2ih                        Ghetto Story               Cham  Reggae
## 9  00bOhb4584JjyfTiXX81mO                          The Weight The Staple Singers    Jazz
## 10 00CcJObzGJw76LjLDyEO6I                             Anxiety      Nobuo Uematsu   Anime
##    duration_ms year popularity explicit
## 1       188491 2017         64        0
## 2       219107 2015         54        0
## 3       179640 2008         67        0
## 4       231347 2011         50        0
## 5       311333 1983         34        0
## 6       207333 2016         53        0
## 7       284856 2018         61        1
## 8       251640 2006         45        0
## 9       275640 1968         58        0
## 10      242373 1997         40        0

O arquivo spot2.csv traz medidas que classificam cada música de acordo com suas características como “dançabilidade”

##                        id acousticness danceability energy instrumentalness liveness
## 1  000xQL6tZNLJzIrtIgxqSl     0.131000        0.748  0.627         0.00e+00   0.0852
## 2  004XT7kCZUEJkVIZjmBdDi     0.001630        0.644  0.749         8.63e-01   0.0735
## 3  005lwxGU1tms6HGELIcUv9     0.002230        0.699  0.760         0.00e+00   0.1320
## 4  007n10xGvSbc7dKgAORVIq     0.126000        0.458  0.677         5.87e-04   0.0944
## 5  007reLkuOQhAJypiC5sVyX     0.030700        0.683  0.423         0.00e+00   0.2450
## 6  00AxNl4D4jHL2AEf1W55j5     0.000668        0.579  0.804         1.19e-06   0.1980
## 7  00B7TZ0Xawar6NZ00JFomN     0.287000        0.620  0.625         0.00e+00   0.3140
## 8  00bnP8RyknzZMkNlEAO2ih     0.338000        0.613  0.563         0.00e+00   0.3810
## 9  00bOhb4584JjyfTiXX81mO     0.424000        0.629  0.387         0.00e+00   0.0479
## 10 00CcJObzGJw76LjLDyEO6I     0.902000        0.243  0.117         8.42e-01   0.2630
##    loudness speechiness   tempo valence
## 1    -6.029      0.0644 120.963  0.5240
## 2    -6.531      0.0336 174.065  0.7550
## 3    -3.173      0.0677 129.996  0.6960
## 4    -4.327      0.0310 208.056  0.4880
## 5   -14.597      0.0332  89.336  0.9380
## 6    -4.777      0.0265 107.985  0.2910
## 7    -7.438      0.5530 167.911  0.6650
## 8    -8.206      0.3580 103.371  0.7750
## 9   -13.667      0.0386  76.003  0.4970
## 10  -19.072      0.0378 139.014  0.0397

A entrega da avaliação deverá ser feita em formato de script R. É importante que o script seja limpo e organizado, descrevendo seus passo e cada exercício. Veja um exemplo abaixo:

8.2.1 Aula 1

Exercício 1- Carregar os pacotes necessários para a realização dos exercícios

-tidyverse (ou carregar separadamente dplyr, forcats, janitor e ggplot2)
-gt

Exercício 2- Carregar os arquivos spot1.csv e spot2.csv

-Utilizar a função read.csv() ou Import Dataset.

8.2.2 Aula 2

Exercício 1- Gerar as estatísticas resumo dos arquivos spot1 e spot2

-Utilizar a função summary()

Exercício 2- Filtrar apenas as músicas a partir do ano 1950

-Utilizar a função subset ou filter

Exercício 3- Criar uma variável nova classificando a data de lançamento das músicas a cada 20 anos

-Utilizar o dataframe spot1

-Usar o comando ifelse() para criar uma nova variável “year2” a partir da variável original “year”.

-Usar os períodos de tempo para criar quatro categorias chamadas: “1950-1969”, “1970-1989”,“1990-2009” e “2010-2020”.

8.2.3 Aula 3

Exercício 1-Juntar as duas tabelas spot1 e spot2

-Utilizar a função left_join()

-Chamar a nova tabela de spotj

Exercício 2-Criar uma nova tabela selecionando apenas as músicas explícitas

-Utilizar a função subset() ou filter() para filtrar a base de dados.

-Chamar a nova tabela de spotexp

Exercício 3-Criar uma nova tabela adicionando apenas os gêneros musicais: Alternative, Country, Dance, Folk, Pop, Rock

-Salvar a tabela com spotj (substituindo a tabela criada no Exercício 1)

-Utilizar a função filter() para filtrar a base de dados.

-Lembrar do comando %in% da função filter.

Exercício 4-Recodificar a categoria Dance, da variável genre, para Pop

-Utilizar o pacote forcats e a função fct_recode() para transformar a variável Dance em Pop.

8.2.4 Aula 4

Atenção: todos exercícios da Aula 4 e 5 devem ser feitos com a tabela spotj, criada no exercício 3.

Exercício 1- Criar uma tabela de frequência por gênero musical

-Utilizar o comando summarize() do pacote dplyr

Exercício 2- Adicionar à tabela acima a média de danceability por gênero musical

-Utilizar o comando summarize() do pacote dplyr

Exercício 3-Adicionar à tabela acima a proporção por gênero musical

-Utilizar o comando mutate() do pacote dplyr

Exercício 4-Criar uma tabela cruzada de gênero x década de lançamento

-Utilizar a função tabyl() do pacote janitor

-Utilizar as variáveis genre e year2

Exercício 5-Utilizar o pacote gt para apresentar as duas tabelas acima

-Lembrar de renomear os nomes de cada coluna

-Adicionar fonte.

8.2.5 Aula 5

Exercício 1- Criar um gráfico de pontos da “dançabilidade” x popularidade das músicas do gênero Rock.


-Antes de fazer o gráfico, filtrar apenas o gênero “Rock”

-Utilizar as variáveis popularity e danceability

-Utilizar a função geom_point()

-Lembrar de ajustar os elementos de apresentação do gráfico (nome dos eixos etc.)

Exercício 2- Criar um gráfico de barras simples mostrando a média de popularidade por gênero


-Utilizar as variáveis genre e popularity

-Utilizar a função geom_bar()

-Utilizar os comandos stat e fun para fazer a média

-Lembrar de ajustar os elementos de apresentação do gráfico (nome dos eixos etc.)

Exercício 3-Criar um gráfico de barras empilhado cruzando a proporção de músicas por gênero e o período de lançamento da música


-Utilizar as variáveis genre e year

-Utilizar a função geom_bar()

-Lembrete: utilizar o comando position=fill

-Lembrar de ajustar os elementos de apresentação do gráfico (nome dos eixos, legenda etc.)