2 Pachete, manipulare simplă de date

Pentru a folosi pachetele indicate în comenzile library, acestea trebuie instalate folosind comanda install.packages("nume pachet") sau din menu-ul RStudio Tools -> Install packages… .

De exemplu:

install.packages("nycflights13")

Instalați un pachet o singură dată (pe un calculator pe care lucrați folosind R și RStudio). De fiecare dată când veți avea nevoie de acel pachet trebuie să îl încărcați folsind funcția library(). De exemplu, pentru a folosi pachetul nycflights13 instalat cu comanda de mai sus, e nevoie de fiecare dată de:

În continuare vom folosi următoarele pachete:

Semnul ? apelează HELP pentru textul introdus după.

?gapminder

Pentru a vizualiza primele observații din tabel:

head(gapminder)
## # A tibble: 6 × 6
##   country     continent  year lifeExp      pop gdpPercap
##   <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
## 1 Afghanistan Asia       1952    28.8  8425333      779.
## 2 Afghanistan Asia       1957    30.3  9240934      821.
## 3 Afghanistan Asia       1962    32.0 10267083      853.
## 4 Afghanistan Asia       1967    34.0 11537966      836.
## 5 Afghanistan Asia       1972    36.1 13079460      740.
## 6 Afghanistan Asia       1977    38.4 14880372      786.

Câteva statistici descriptive rapide:

summary(gapminder)
##         country        continent        year         lifeExp     
##  Afghanistan:  12   Africa  :624   Min.   :1952   Min.   :23.60  
##  Albania    :  12   Americas:300   1st Qu.:1966   1st Qu.:48.20  
##  Algeria    :  12   Asia    :396   Median :1980   Median :60.71  
##  Angola     :  12   Europe  :360   Mean   :1980   Mean   :59.47  
##  Argentina  :  12   Oceania : 24   3rd Qu.:1993   3rd Qu.:70.85  
##  Australia  :  12                  Max.   :2007   Max.   :82.60  
##  (Other)    :1632                                                
##       pop              gdpPercap       
##  Min.   :6.001e+04   Min.   :   241.2  
##  1st Qu.:2.794e+06   1st Qu.:  1202.1  
##  Median :7.024e+06   Median :  3531.8  
##  Mean   :2.960e+07   Mean   :  7215.3  
##  3rd Qu.:1.959e+07   3rd Qu.:  9325.5  
##  Max.   :1.319e+09   Max.   :113523.1  
## 

selectăm doar observațiile din anul 2007:

gapminder_2007 <- gapminder[gapminder$year==2007,]

Ștergem coloana cu anul:

gapminder_2007_fara_an <- gapminder_2007[,-3]

Putem șterge mai multe coloane:

dummy <- gapminder_2007[, -2:-4]

? Ce coloane au fost șterse mai sus?

sau o listă de coloane (mai jos ștergem coloanele 1 si 4):

dummy <- gapminder_2007[,-c(1,4)]

sau să creem o coloana noua

dummy$coloananoua=1

În continuare vom lucra cu tabelul gapminder_2007_fara_an. Verificăm rapid structura și forma datelor:

head(gapminder_2007_fara_an)
## # A tibble: 6 × 5
##   country     continent lifeExp      pop gdpPercap
##   <fct>       <fct>       <dbl>    <int>     <dbl>
## 1 Afghanistan Asia         43.8 31889923      975.
## 2 Albania     Europe       76.4  3600523     5937.
## 3 Algeria     Africa       72.3 33333216     6223.
## 4 Angola      Africa       42.7 12420476     4797.
## 5 Argentina   Americas     75.3 40301927    12779.
## 6 Australia   Oceania      81.2 20434176    34435.