Poglavlje 3 Upravljanje varijablama, podatcima, datotekama

3.1 Učitavanje podataka iz poznatih formata

csv, sav, xlsx… ne zaboraviti učitavanje s web lokacija ili ftp servera

Modeli upravljanja varijablama i podacima mogu se izvesti u R jeziku s više paketa. Jedan od suvremenih prikaza načina sagledavanja i predočavanja upravljanja podacima prikazan je na slijedećem slikovnom prikazu.

Učitavanje podataka u varijable ili za potrebe analize različitim paketima u R jeziku moguće je;

-učitavanje iz datoteke pospremljene lokalno na disku (npr. *.csv datoteka iz Excela, .sav datoteka iz SPSS-a i sl.)

-učitavanje iz datoteke koja se nalazi negdje na mreži (API sučelje ili točna URL lokacija)

-učitavanje iz varijabli koje se nalaze u radnoj memoriji računala

Navedeni prikaz inspiriran je među ostalim i poznatim paketom tidyverse (Wickham, 2021). Za učitavanje podataka možemo koristiti više paketa. Jedan od njih je haven (Wickham & Miller, 2021).

3.2 Operacije u R-u, sintaksa

U ovom poglavlju prikazati će se osnovne operacije sa primjerima sintakse čije razumijevanje je ključno za rad u R sučelju.

Logičke operacije pri radu s varijablama i objektima u R jeziku:

& - znak za logičku operaciju i tj. x & y -

Aritmetički i logički operatori.

Operator Opis
< manje od
<= manje ili jednako od
> veće od
>= veće od ili jedanko
== upravo ili točno jednako
!= ne (nije) jednako
!x ne x
x | y x ili y
x & y x i y
isTRUE(x) test ako je X ISTINA

3.3 Skalari, vektori i matrice

Skalari su pojedinačni brojevi. Vektori su jednodimenzionalni skup vrijednosti ili možemo reći da su vektori ujedno i polja. Vektori se definiraju pomoću funkcije konkatenacije (concatenate) tj. pomoću funkcije c. Tako npr. vektor a koji je definiran pomoću brojeva 5,6,7,8,9.

## vektor a definiran je  
a=c(5,6,7,8,9)

## tako npr. možemo izračunati prosječnu vrijednost vektora a pomoću funkcije mean
mean(a)
## [1] 7
## R konzola odgovara kako je jednodimenzionalno polje [1] gdje je prosječna vrijednost jednaka 7

Matrice predočavamo kao tablice tj. dvodimenzionalne tablice koje se sastoje od određenog broja redova i stupaca.

3.4 Predočavanje modela podataka, varijabli i ispitanika

Pojedinačna varijabla predstavljena je stupcem dok su ispitanici predstavljeni retkom te je konačno pojedinačna vrijednost određena pojedinim ispitanikom i varijablom. U R sustavu za navedeno koristimo funkciju paketa tidy data (Wickham & Girlich, 2022).

Wickham & Girlich (2022) jasno definira što znači uređeni format ili model prikupljenih podataka nekog istraživanja tj. prikaza rezultata istraživanja. Dataset je skup vrijednosti koje su predstavljene brojevima (kvantitativne varijable) ili slovima (kvalitativne varijable). Svaka vrijednost pripada varijabli i entitetu. Varijabla sadrži vrijednosti nekog mjerenja koje imaju zajednički atribut ili mjernu vrijednost (visina, težina, temperatura i sl.). Entitet ili observacija sadrži sve vrijednosti različitih varijabli koje pripadaju nekoj jedinici ili jedinki. To može biti osoba, grad, životinja, predmeti poput automobila i sl.

Varijable su predstavljene u stupcima dok su ispitanici retcima.

Na slijedećem slikovnom prikazu možemo shematski vidjeti što znači tidy (dostupno s: http://r4ds.had.co.nz/tidy-data.html).

Pravilno predočavanje modela podataka i rezultata [@R-tidyr]

Figure 3.1: Pravilno predočavanje modela podataka i rezultata (Wickham & Girlich, 2022)

R jezik posjeduje velike mogućnosti upravljanja varijablama i podacima a što uključuje rad na određenim varijablama ili na određenim ispitanicima. U praksi često znači i kombinacija navedenog tj. obrada podataka na određenim ispitanicima i varijablama. Brisanje, dodavanje varijabli i također preuređivanje vrijednosti pojedinih varijabli znači gotovo svakodnevni posao onih koji se bave obradom i prikazom podataka. Naravno, bilo da je riječ o kvantitativnim ili kvalitativnim varijablama.

3.5 Obrada podataka na odabranim ispitanicima

3.6 Obrada podataka na odabranim varijablama

U svakodnevnoj praksi često imamo potrebu raditi na odabranim varijablama iz naše datoteke.

Sintaksa za odabir varijabli v1, v2 i v3 u R-jeziku je jednostavna:

odabir varijabli v1, v2, v3 tako što imena varijabli pridjelimo objektu mojevarijable

mojevarijable <- c(“v1,” “v2,” “v3”)

u drugom koraku stvorimo objekt novipodaci koji ima u sebi samo podatke varijabli v1, v2, v3

novipodaci <- mojipodaci[mojevarijable]

druga metoda koja daje istovjetan rezultat je također u dva koraka;

mojevarijable <- paste(“v,” 1:3, sep="")

novipodaci <- mojipodaci[mojevarijable]

Ukoliko želimo odabrati neku varijablu i drugi niz varijabli iz podataka tada primjenjujemo slijedeću sintaksu;

novipodaci <- mojipodaci[c(1,5:10)]

U ovom primjeru odabrali smo prvu varijablu te redom od pete do desete varijable.

To practice this interactively, try the selection of data frame elements exercises in the Data frames chapter of this introduction to R course.

Brisanje varijabli (excluding, dropping variables)

pobriši varijable v5, v10 i v15 >mojevarijable <- names(mojipodaci) %in% c(“v5,” “v10,” “v15”) >novipodaci <- mojipodaci[!myvars]

Izbriši petu i desetu varijablu >novipodaci <- mojipodaci[c(-5,-10)]

može i na ovaj način, malo složeniji >mojipodaci\(v3 <- mojipodaci\)v5 <- NULL

Odabiranje, selektiranje određenih ispitanika ili entiteta (redova)

R jezik omogućava jednostavno odabiranje ispitanika koji ulaze u određenu obradu prikupljenih podataka. U analizu uzimam prvih 100 ispitanika. >novipodaci <- mojipodaci[1:100,]

Ukoliko želimo uzeti određeni broj ispitanika ili entiteta ali po vrijednostima određene varijable, tada imamo primjer slijedeće sintakse gdje radimo analizu isključivo na muškarcima u dobi većoj od 65 godina; >novipodaci <- mojipodaci[ which(mojipodaci\(spol=='M' & mojipodaci\)age > 65), ]

Osim navedenim metodama, u R jeziku se može napraviti odabir i pomoću funkcije subset.

Tako npr. ako želimo raditi analize podataka na ispitanicima koji su mlađi od 20 i onih koji su stariji od 50 ali zadržavajući samo varijablu težina i identifikacijski broj ispitanika ili entiteta, tada pomoću funkcije subset možemo jednostavno napraviti odabir;

novipodaci <- subset(mojipodaci, dob >= 50 | dob < 20, select=c(rb, dob))

In the next example, we select all men over the age of 25 and we keep variables weight through income (weight, income and all columns between them).

using subset function (part 2) newdata <- subset(mydata, sex==“m” & age > 25, select=weight:income)

To practice the subset() function, try this this interactive exercise. on subsetting data.tables. Random Samples

Use the sample( ) function to take a random sample of size n from a dataset.

take a random sample of size 50 from a dataset mydata sample without replacement mysample <- mydata[sample(1:nrow(mydata), 50, replace=FALSE),]

3.7 Stvaranje novih varijabli

We describe our methods in this chapter.

3.8 Rekodiranje varijabli

3.9 Transponiranje varijabli i položaj rezultata

https://www.r-statistics.com/tag/transpose/ Transponiranje i agregacija pomoću funkcija melt! Odlično i treba referencirati na Kabachichova!

Korištenje funkcija melt i cast [@kabacoff2015]

Figure 3.2: Korištenje funkcija melt i cast (Kabacoff, 2015)

References

Kabacoff, R. (2015). R in Action: Data Analysis and Graphics with R (Second Edition). Manning Publications.
Wickham, H. (2021). Tidyverse: Easily install and load the tidyverse. https://CRAN.R-project.org/package=tidyverse
Wickham, H., & Girlich, M. (2022). Tidyr: Tidy messy data. https://CRAN.R-project.org/package=tidyr
Wickham, H., & Miller, E. (2021). Haven: Import and export SPSS, stata and SAS files. https://CRAN.R-project.org/package=haven