Poglavlje 2 Uvod u područje
2.1 Metodologija i statistika
Zašto učimo i trebamo znati statistiku u društvenim i biomedicinskim znanostima?
Više je razloga za to. Tako, Navarro (2015) navodi: psihologija, medicina, sociologa, proučava upravo ljude, u množini i to što čini ljude sličnima i različitima.
Statistika je duboko povezana s metodologijom istraživanja. Gotovo nije moguće biti dobar metodolog a ne poznavati statistiku ili suprotno, biti statističar a ne poznavati metodologiju.
Ukoliko želite biti dobar znanstvenik, potrebno je poznavati literaturu a posljednje očekuje i određenu razinu pismenosti iz statistike.
Živimo u 21. stoljeću i sve što je oko nas, ne samo u znanosti već i u svakodnevnom životu, ‘puno je podataka.’
Definicija statistika ima jako puno, više od 100, ali po prilici ona znači: obrada brojčanih podataka radi jasnijeg prikazivanja (Petz et al., 2012).
‘Statistika je bajka razuma.’ Martin Kessel
‘Statistike imaju samo jednu vrlinu. Ne slažu se.’ Imre Forbath
Statistika se bavi rezultatima i mjerenjima neke pojave na više jedinki (bioloških ili drugih entiteta).
Rezultati (podaci) su pravilno i smisleno organizirani u varijable (eng. variable = variate = factor). Vrijednosti pojedine varijable se mijenjaju od jedinke do jedinke (za razliku od konstanti).
Podjela:
Deskriptivna (opisna) statistika. Koristi statistike koje pokazuju, opisuju varijable uzorka kao što su n (broj ispitanika), aritmetička sredina, centralna vrijednost, standardna devijacija i sl.
Inferencijalna (zaključna) statistika, statistika vjerojatnosti (probabilitet, probability). Statistika koja ukazuje na moguće odnose u populaciji a temeljem analiza uzorka.
Jedna od podjela područja statistike u istraživanjima je na univarijatnu, bivarijatnu statistiku i multivarijatnu statistiku.
Univarijatna statistika koristi se na jednoj varijabli. Bivarijatna statistika prikazuje odnos dvije varijable ili razlike između dviju varijabli, dok multivarijatna koja je ujedno i najbliža ‘realitetu’ koristi modele s više varijabli.
2.2 Nacrti istraživanja
Dobro poznavanje rada u statistici ili rudarenju podatcima podrazumijeva odlično znanje i nedvojbeno kontinuirano promišljanje o metodologiji istraživanja. Gotovo je nemoguće dobro poznavati znanstvenu metodologiju ili pisati bilo koji rad a istovremeno ne poznavati rudarenje podacima (data mining). Dio metodologije istraživanja su i nacrti istraživanja, odnosi među varijablama, hipoteze, ciljevi istraživanja i istraživački problemi.
Eksperimentalna i neeksperimentalna istraživanja
U eksperimentalnim istraživanjima cilj je istražiti kako promjene nezavisne varijable utječu na promjene zavisne varijable. U eksperimentalnim istraživanjima cilj je istraživača otkriti uzroke i povezanosti između nezavisnih varijabli i zavisne varijable. Promjene u nezavisnoj varijabli dovode do različitih učinaka promjena zavisne varijable. Uzmimo jedan primjer. Pretpostavimo istraživanje u kojem se želi vidjeti na koji način utječe vrijeme rješavanja testa i broj bodova na kognitivnom testu konvergentnog rezoniranja na broj bodova na testu znanja iz fizike. Vrijeme istraživanja može biti kontinuirana varijabla ali može biti i kategorijska. Također, broj bodova na kognitivnom testu može biti kontinuirana ili kategorijska varijabla.
U neeksperimentalnom istraživanju značajno je smanjena mogućnost ili uopće nema mogućnosti variranja utjecaja nezavisne varijable na zavisnu varijablu. U neeksperimentalnom nacrtu istraživanja možemo imati hipotezu koja se oslanja na jednu varijablu tj. nema mogućnosti analize utjecaja jedne na drugu varijablu. Nadalje, u neeksperimentalnom istraživanju ne ulazimo u uzročne odnose, već možemo, naprotiv biti zainteresirani za povezanost, korelaciju. U ovoj vrsti istraživačkog nacrta, možemo se zadržati na razini objašnjenja, eksplanatorna razina.
2.3 Populacija i uzorak
Tema populacije i uzorka pripada središnjim temama mnogih pitanja u statistici. Inferencijalna statistika stalno promišlja odnose između uzorka i populacije. Uzorak je uvijek izvučen iz neke populacije. On je uvijek dio populacije. Dio populacije koji može biti iz bilo koje dimenzije određene populacije.
Populacija je skup svih mogućih vrijednosti određene varijable ili entiteta. Populacija je ujedno i skup svih jedinki određenog istog svojstva.
Populacije možemo uspoređivati u cijelosti, (što je jako rijetko) ili na temelju uzoraka (što je ujedno i pravilo).
Uzorak se uzima iz različitih razloga. Cijele su populacije najčešće nedostupne kao što su istraživanja za potrebe različitih izbora, popisa stanovništva, zdravih i bolesnih u određenoj dijagnozi.
Populacije su prevelike za analizu što traje predugo za potrebe istraživanja. Analiza cijelih populacija je i vrlo skup proces. Analiza cjelokupne populacije je preskup proces da bi opravdao ciljeve istraživanja.
Više je podjela tipova uzoraka ali najčešće se uzorci dijele na:
slučajne uzorke
ne slučajne uzorke
Slučajni uzorci pretpostavljaju određenu vjerojatnost kojom pojedini član uzorka može biti izrabran.
Prema vjerojatnosti i metodologiji uzorkovanja, možemo slučajne uzorke podijeliti u;
-jednostavni slučajni uzorak
-sistematski uzorak
-stratificirani uzorak
-uzorak klastera
Uzorak u kojem svaki član, jedinka ili entitet ima jednaku vjerojatnost biti odabran u uzorak, naziva se jednostavni slučajan uzorak (random sample).
2.4 Hipoteza
Hipoteza predstavlja preciznu izjavu koju je moguće provjeriti. Istraživač provjerava hipotezu istraživanjem što predstavlja i odgovor ili ishod studije. Empirijska istraživnja podrazumijevaju dokaz gdje empirijsko znači korištenje radnih hipoteza koje se testiraju opažanjem, eksperimentom.
U literaturi se spominje nekoliko vrsta hipoteza. Tako imamo nul hipotezu, alternativnu hipotezu, direktivnu i nedirektivnu hipotezu,
Nul hipoteza se postavlja u niječnom obliku tj. u formi kako nema odnosa, povezanosti ili razlike među istraživanim uzorcima ili varijablama. Nul hipoteza i njena uporabljivost se često opravdava u funkciji smanjivanja pristranosti istraživača.
Za razliku od nul hipoteze, alternativna hipoteza pretpostavlja mogući utjecaj varijable na predmet istraživanja.
Direktivna hipoteza pretpostavlja smjer, tako je napisana jer ukazuje na mogući efekt nezavisne varijable na predmet mjerenja tj. zavisnu varijablu.
Iz različitih oblika i vrsta hipoteza, u konačnici pri primjeni kvantitativnih metoda, proizlazi statistička hipoteza koja je formalno oblikovana te prilagođena uporabi određene statističke metode ili testa. Provedba statističkih testova i općenito rudarenja podacima povezana je s promišljanjem o hipotezi. Potvrđivanje ili odbacivanje hipoteze čini se ključnim postupkom u istraživanju gdje o tom procesu ovisi ishod istraživanja. Ukoliko odluka o odbacivanju ili prihvaćanju hipoteze nije povezana sa stvarnim stanjem, dolazi do pogreške zaključivanja koja će imati posljedice vezano za ishod. Pogrešno donošenje zaključaka nazivamo pogreškama tipa I ili II.
Stvarno stanje | ||
---|---|---|
Odluka | Razlika postoji | Ne postoji razlika |
Odbaciti H0 | Točna odluka | Pogreška Tip I |
Prihvatiti H0 | Pogreška Tip II | Točna odluka |
Iz navedenih kombinacija slijedi. Ukoliko donesemo odluku odbacivanja nul hipoteze tj. zaključimo kako razlika postoji a ona u stvarnosti ne postoji - napravili smo pogrešku Tip I. Tip I pogreška se naziva i \(\alpha\) pogreška. Suprotno, ukoliko temeljem provedenih testova zaključimo kako razlika ne postoji a u stvarnosti ima razlike - napravili smo pogrešku Tip II. Tip II pogreška se naziva i \(\beta\) pogreška.
2.5 Varijable i mjerne ljestvice
Poznavanje varijabli istraživanja je nezaobilazan korak u primjeni statističkih modela i uopće interpretacije rezultata istraživanja.
Varijable mogu biti s obzirom na ustroj ciljeva i hipoteza istraživanja:
- Zavisne varijable (dependent) ili kriterijske varijable
- Nezavisne varijable (independent) ili prediktorske varijable
Varijable po svojoj strukturi, prirodi mogu biti:
- Kategorijske, kvalitativne
- Kontinuirane, metričke
Kontinuirane (metričke) prema odnosu vrijednosti koje zaprimaju mogu biti kontinuirane i diskretne. Kontinuirane varijable mogu poprimiti široki raspon vrijednosti između pojedinih izraženih vrijednosti ili gotovo beskonačan broj vrijednosti. Tako npr. duljinu možemo izraziti u metrima pa tako prikazati razliku u mjerenju između jednog i dva metra ali isto tako možemo reći kako to nije samo 1m i 2m već razlika može biti izražena kao 1.1238m i 2.4389m. Prema tome, između 1 i 2 metra može biti jako širok gotovo beskonačan broj vrijednosti.
Diskretne varijable mogu poprimiti konačan broj vrijednosti te se točnost i iskazivanje izražava konačnom vrijednosti. Tako u praksi možemo imati jedno dijete ili čovjeka, dva djeteta ili dva čovjeka ali nikako 1.23 djeteta. Takvih primjera ima nebrojeno, tako broj planeta ili tijela koji kruže oko nekog drugog planeta je konačan tj. ne možemo se izraziti kako oko nekog planeta kruži 2.3 njegova, pripadajuća tijela.
Kada radimo s podacima pojedinih varijabli treba voditi računa o tipovima podataka koji mogu biti: - Nominalni, broj služi kao oznaka - Cjelobrojni - S pomičnim zarezom - Eksponencijalni - Linearne transformacije (z-, T-, C-) - Logaritamske i druge transformacije
Konačno, varijable razlikujemo s obzirom na mjerne ljestvice:
- Nominalne
- Ordinalne
- Intervalne
- Omjerne.
Porijeklo mjernih ljestvica:
- Stanley Smith Stevens - 1940. uvodi pojam mjernih ljestvica (Stevens, 1946)
- Mjerne ljestvica dijele se na nominalne, ordinalne, intervalne i omjerne.
- Ova podjela je zadržana do danas
- Iznimno važno za poznavanje jer o tome ovisi izbor statističkih analiza.
Nominalne mjerne ljestvice:
- nominalne ljestvice predstavljaju kategorije
- nemaju nikakav prirodan redoslijed ili rangiranje
- kod, broj ima isključivo svojstvo označavanja ili prepoznavanja određene kategorije
- broj nema metričko svojstvo
- krvna grupa, nacionalnost, religijska pripradnost, rasa, boja očiju, genotip, politička pripadnost i sl.
- nisu moguće matematičke operacije - isključivo frekvencije (učestalosti)
Ordinalne mjerne ljestvice:
- varijable posjeduju svojstvo rangiranja
- 1, 2, 3, 4… I, II, III, IV
- važno: rangiranje DA, razlike među vrijednostima NE!
- socioekonomski status (nizak, srednji visok), stupanj obrazovanja, stupanj razvoja tumora, redoslijed dolaska na cilj (atletika, sport, gimnastika)
Intervalne mjerne ljestvice:
- numerička ljestvica
- nadilazi poredak
- problem ekvidistantnosti
- problem apsolutne nule, nula je arbitrarna - ne predstavlja potpuno odsutstvo predmeta mjerenja
- dozvoljene su aritmetičke operacije (aritmetička sredina, devijacija i sl.)
Omjerna mjerna ljestvica:
- prava kvantitativna ljestvica
- posjeduje apsolutnu nulu
- omjeri su jednaki na svim rasponima ljestvice
- dozvoljene su sve matematičke operacije
U slijedećem tabličnom prikazu vidimo mogućnosti i ograničenja varijabli koje se nalaze na određenoj mjernoj ljestvici.
Nominalna | Ordinalna | Intervalna | Omjerna | |
---|---|---|---|---|
Učestalost (frekvencija) | Da | Da | Da | Da |
Centralna vrijednost, postotci | Ne | Da | Da | Da |
Aritmetička sredina, standardna devijacija | Ne | Ne | Da | Da |
Apsolutna nula | Ne | Ne | Ne | Da |
Koeficijent varijacije, ostale složene matematičke operacije | Ne | Ne | Ne | Da |