Poglavlje 19 neke skupine, koristimo t test za ZAVISNE uzorke prema sljede?oj formuli

t.test(SNS_SPOSOBNOST, SNS2_SPOSOBNOST, paired = TRUE)

#ako ?elimo raditi analizu na nekom poduzorku (recimo samo na osobama mu?kog spola) #moramo napraviti subset koriste?i istoimenu funkciju #naredba za to je sljede?a #ime nove varijable/poduzorka<- subset(ime matrice u kojoj se nalaze podatci, (ovdje sad navodimo kriterij koji nam varijabla mora ispuniti da bi u?la u subset)npr spol==1) prva_godina<- subset(Prva_i_druga_godina_kohorta_oni_sa_sva_tri_mjerenja, Godina==1)

#VA?NO!! ne smije se zaboraviti da se prilikom analize podataka uvijek mora paziti # da treba provjeriti u kojoj se matrici radi, jer R radi analizu u toj matrici

attach(prva_godina) druga_godina<- subset(Prva_i_druga_godina_kohorta_oni_sa_sva_tri_mjerenja, Godina==2) attach(druga_godina) summary(druga_godina)

19.1 Povezanost između dvije varijable

#matrica u repozitoriju pod naslovom vje?be 16_4

#Kako bismo analizirali povezanost dviju varijabli, koristimo funkciju #cor(x,y). Ta funkcija nam daje odgovor kolika je povezanost izme?u tih dviju varijabli #Me?utim, taj nam podatak ne govori je li korelacija ZNA?AJNA, stoga ne mo?emo interpretirati #koeficijent korelacije cor(SNS_SPOSOBNOST, OBJECTIVE_UKUPNO)

#da provjerimo je li korelacija zna?ajna, onda bismo koristili funkciju #cor.test, koja nam daje informaciju o zna?ajnosti same korelacije. #Ukoliko je korelacija zna?ajna na razini od p<0.05, opravdano je intepretirati koeficijent korelacije #kao zna?ajan i to na sljede?i na?in: potvrditi da je povezanost zna?ajna i na kojoj razini, #koliki je koeficijent korelacije te u kojem smjeru ide povezanost (moraju se koristiti termini varijabli)

cor.test(SNS_SPOSOBNOST, OBJECTIVE_UKUPNO) cor.test(SNS_SPOSOBNOST, SNS_PREFERENCIJA) cor.test(SNS_UKUPNO, prosjek)

#sljede?a naredba nam daje vizualizaciju scatter plota #mijenjanjem brojeva u size i shape dobivamo razli?ite oblike # i veli?ine podataka, ?to mo?e biti korisno kada ?elimo bolje ili jasnije #prikazati podatke ggplot(vjezbe ,aes(x=SNS_SPOSOBNOST, y=SNS2_SPOSOBNOST))+ geom_point(size=2, shape=20) #kona?no, ako ?elite dobiti povezanosti svih varijabli me?usobno, u nekom skupu podataka #mo?ete koristiti funkciju koja se nalazi u paketu Hmisc #rcorr(as.matrix(IME MATRICE)) #dobiju se dvije matrice, jedna s korelacijama i druga sa p vrijednostima tih korelacija #Imajte na umu da ako imate velik broj varijabli, dobit ?ete jako te?ko ?itljiv output sa puno redaka, #?to je ne?to ?to treba imati na umu ako imate jako malo vremena.

#Ponavljanje #Zadatci se nalaze u repozitoriju kolegija u .doc fileu

#1. Za vrijeme ljetnih mjeseci, u tri grada je mjeren broj nasilnih kriminalnih radnji u odnosu na #ukupan broj prekr?aja, a uspore?ivan je izme?u tri grada: Osijeka, ?akovca i Dubrovnika. U #Dubrovniku je oko 15% od 2800 registriranih prekr?aja bilo nasilno, u ?akovcu 54 od 330, a u Osijeku 117 od 530. Postoji li razlika izme?u tri grada u broju nasilnih prekr?aja tijekom ljetnih perioda i u kojem smjeru? # Otvorite matricu Vje?be 16_4 iz repozitorija i analizirajte normalnost distribucije za varijable prosjek, SNS_SPOSOBNOST, SNS_PREFERENCIJA, OBJECTIVE_UKUPNO. Za navedene varijable #napi?ite jesu li normalno distribuirane ili ne, te navedite koji ste test koristili. #3. Usporedite razlike izme?u prve i druge godine za varijable iz zadatka 2. napi?ite postoji li razlika i interpretirajte rezultate, te navedite koji ste test koristili. #4. Analizirajte povezanost SNS_SPOSOBNOST, SNS_PREFERENCIJE I OBJECTIVE UKUPNO, te # interpretirajte rezultate. #5. Izra?unajte postoji li promjena u rezultatima prve godine izme?u prvog i drugog mjerenja na # varijabli SNS_preferencija?

#u prvom zadatku se radi o jednostavnom hi kvadratu s tri skupine #potrebno je napraviti tri varijable (u ovom slu?aju grada) #i spojiti ih u tablicu Dubrovnik<- c(420, 2380) Cakovec<- c(54,276) Osijek<- c(117, 413) Tablica<- cbind(Dubrovnik, Cakovec, Osijek) rownames(Tablica)<- c(“Nasilni zlo?in,” “Nenasilni zlo?in”) Tablica prop.table(Tablica, 2) chisq.test(Tablica) #S obzirom kako je hi-kvadrat visoko zna?ajan (p<0.001), #mo?emo re?i kako me?u grupama postoji statisti?ki zna?ajna razlika u proporciji #nasilnih zlo?ina. U Osijeku je zna?ajno najve?a zastupljenost nasilnih zlo?ina u odnosu na druge gradove.

#drugi zadatak je relativno jednostavan, potrebno je samo upisati funkciju #za testiranje normalnosti distribucije (u ovom slu?aju je to shapiro Wilks test) #ukoliko je ovdje p<0.05 zna?i da distribucija nije normalna i na tim varijablama #ne mo?emo koristiti t-test attach(Prva_i_druga_godina_kohorta_oni_sa_sva_tri_mjerenja_1_) shapiro.test(SNS_SPOSOBNOST) #U slu?aju varijable SNS_Sposobnost smo dobili p<0.05, ?to indicira #da varijabla nije normalno raspodijeljena. shapiro.test(SNS_PREFERENCIJA) shapiro.test(prosjek) shapiro.test(OBJECTIVE_UKUPNO) #s obzirom kako nisu normalno distribuirane, na testiranju razlika ne mo?emo korisititi #t-test, nego radimo wilcoxonow test wilcox.test(SNS_SPOSOBNOST~Godina) #ista stvar kao i t-test za nezavisne uzorke, ali neparametrijski #interpretacija je ista, ali za interpretaciju treba prije napraviti #describe.by po godini da se vidi u kojem smjeru ide razlika describe.by(SNS_PREFERENCIJA, group = Godina) #u slu?aju ako bih ?elio provjeriti (sad pri?am o zadatku 5, vratit ?emo se na 4.), # onda bih na ovu formulu za wilcox test samo dodao (uz varijable naravno) i #paired funkciju #npr. ako ?elimo vidjeti postoji li promjena u preferenciji izme?u dva mjerenja wilcox.test(SNS_PREFERENCIJA, SNS2_PREFERENCIJA, paired = TRUE) #Iako dobijemo zna?ajnu razliku, opet ne znamo u kojem smjeru to ide #u ovom slu?aju se mo?e koristiti i summary funkcija za svaku varijablu summary(SNS_PREFERENCIJA) summary(SNS2_PREFERENCIJA) #posljednji zadatak se odnosi na povezanost izme?u varijabli #potrebno je izra?unati koeficijente korelacije izme?u tri para varijabli # i interpretirati svaki #koristite funkciju cor.test cor.test(SNS_PREFERENCIJA, SNS_SPOSOBNOST) #Postoji statisti?ki zna?ajna povezanost izme?u sposobnosti i preferencije vezanih #za matemati?ke koncepte, i ona je srednje visoka i pozitivna (r=0.31), ?to #upu?uje da osobe koje imaju ve?u preferenciju prema matematici, su u na?elu i sposobniji bili na testu.

19.2 Analiza varijance

U Ovom dokumentu nalazi se nekoliko naredbi koje mogu pomoci prilikom analize rezultate izmedu nekoliko grupa (tri ili vise), gdje nije primjereno koristiti t-test zbog povecanja alfa pogreske. Kao i uvijek, prvo ćemo dodati matricu prema kojoj cemo analizirati podatke, a koja se nalazi u repozitoriju kolegija.

#attach(ANOVAEA)
#ANOVAEA

U matrici se nalazi ukupno pet stupaca; dvije kategorijske varijable FORMAT i UZORAK, te tri numericke varijable: UNDERST, SATISF i USER). Bitno je naglasiti kako kategorijske varijable imaju po tri grupe svaka. Prvo cemo napraviti analizu varijance u kojoj cemo provjeriti postoji li razlika izmedu razine razumijevanja kod razlicitih formata informacija. Da bismo to napravili, koristimo funkciju aov, ali takoder moramo stvoriti novu varijablu iz koje cemo izvuci bitne rezultate; u ovom slučaju je to r.

#r<- aov(UNDERST~FORMAT, data = ANOVAEA)

Nakon sto smo napravili tu funkciju, pomocu funkcije summary, mozemo interpretirati rezultate analize varijance Najbitniji dijelovi interpretacije su nam F omjer i P vrijednost. Ako je p vrijednost manja od 0.05, znaci da izmedu grupa postoji razlika

#summary(r)

Ipak, ne znamo izmedu kojih grupa postoje razlike, te kako bismo to otkrili koristimo post-hoc test (u ovom slucaju Tukey) Post hoc test usporeduje sve grupe medusobno, te trazi postoji li razlika izmedu grupa Ako je p manji od 0.05, izmedu grupa postoji razlika

#tuk<- TukeyHSD(r)
#tuk

Konacno, nekad ne zelimo samo provjeriti postoji li razlika izmedu skupina nego nas zanima postoji li interakcija izmedu varijabli npr. Je li neki format izrazito bolji za pacijente u odnosu na druge formate i skupine ili jesu li studenti koji citaju odredeni format jako losiji u odnosu na druge skupine i formate. U tu svrhu koristimo slozenu/visesmjernu analizu varijance. Formula je slicna kao i kod analize varijance (jednostavne), samo ima dvije kategorijske varijable koje su spojene znakom *.

Interpretacija se daje na tri razine (postoje tri stvari za interpretirati): - Prva stvar je prvi glavni efekt: u ovom slucaju UZORAK, koji ima svoj F omjer i P vrijednost - Druga stvar je drugi glavni efekt: u ovom slucaju FORMAT, koji takoder ima svoj F omjer i P vrijednost - Treca stvar je interakcija: u ovom slucaju UZORAK*FORMAT, koji takoder ima svoj F omjer i P vrijednost

Moze se dogoditi da glavni efekti budu znacajni, dakle da postoje razlike u formatima izmedu grupa, te izmedu uzoraka ali da nema znacajne interakcije, sto znaci da nema neke specificne situacije koja je bolja od drugih Također, moze se dogoditi da nema razlike izmedu grupa, ali postoji značajna interakcija.

#m<- aov(UNDERST~UZORAK*FORMAT)
#m
#summary(m)

19.3 Regresijska analiza

Analiza se radi u istoj matrici kao i ANOVA Kada se radi regresijska analiza, s ciljem da se vidi koliki postotak varijance kriterija je objašnjeno prediktorima, odnosno koliko dobro prediktori predvi?aju rezultat u kriteriju, koristimo funkciju lm. U sljedečem slučaju smo željeli predvidjeti koliko dobro razumljivost teksta i zadovoljstvo izgledom teksta predvi?aju lakoću pronalaženja informacija.

#x<- lm(USER~UNDERST+SATISF)

Da bismo analizirali potrebne parametre, koristimo funkciju summary, kao i kod analize varijance

#summary(x)

Ponekad želimo vidjeti u kojem rasponu se kreću koeficijenti prediktora s 95% sigurnosti, zato jer nam to pomaže u intepretaciji. Naravno, često nam je cilj da koeficijenti budu što veći, odnosno da se sa što manjim brojem prediktora opiše što veća varijanca kriterija.

#confint(x, level = 0.95)