Voorwoord

  • RStudio, Bookdown, LearnR, mosaic

  • GAISE, ISI Tintle

1 Wetenschappelijk onderzoek op basis van de empirische cyclus

Statistiek speelt bij veel wetenschappelijk onderzoek een ondersteunende rol. Dit is ook zo in de gedragswetenschappen. Als we willen weten wat statistiek precies is en welke rol ze speelt, moeten we eerst begrijpen hoe wetenschappelijk onderzoek werkt. In dit hoofdstuk lichten we de bouwstenen van de empirische cyclus toe. Deze cyclus geeft ons handvatten om kennis te verwerven via de wetenschappelijk methode.

1.1 De empirische cyclus: grondschema

De empirische cyclus (de Groot 2019) is een methode die ons in staat stelt om kennis te verwerven via systematische observatie. Ze helpt ons om de wereld te zien zoals ze werkelijk is in plaats van zoals we ze zouden willen zien.

Binnen de empirische cyclus - waarbij ‘empirisch’ slaat op ‘ervaring’ - staat de wisselwerking tussen vijf begrippen centraal:

  • Observatie: het waarnemen en verzamelen van empirisch feitenmateriaal.
  • Inductie: het formuleren van hypothesen op basis van de observatie.
  • Deductie: het opstellen van voorspellingen op basis van de hypothesen.
  • Toetsing: het aftoetsen van de voorspelling op basis van nieuw empirisch feitenmateriaal.
  • Evaluatie: het resultaat van de toetsing kritisch beoordelen.

Dit wordt het grondschema van de empirische cyclus genoemd. Door dit proces herhaaldelijk te doorlopen - een cyclus dus - kunnen we kennis verwerven. Dit klinkt misschien abstract, maar besef dat we dit proces dagelijks toepassen.

Veronderstel dat ik mijn fiets aan het stationsplein heb geparkeerd en de volgende dag merk dat de fiets er niet meer staat.

  • Observatie: ik vind mijn fiets niet terug tegen de boom waar ik ze heb achtergelaten.
  • Inductie: mijn fiets staat niet meer op haar plaats, ze moet gestolen zijn.
  • Deductie: mijn fiets is gestolen en zal daardoor niet meer aan het stationsplein staan.
  • Toetsing: ik zie mijn fiets iets verder staan in een fietsrek.
  • Evaluatie: mijn fiets is niet gestolen, maar iemand heeft ze verplaatst.

Het toepassen van de empirische cyclus binnen het wetenschappelijk onderzoek is een stuk uitgebreider dan voorgaand voorbeeld, maar de logica is zeer gelijkaardig.

1.2 De empirische cyclus: een voorbeeld

Laten we nu eens kijken hoe we de empirische cyclus toepassen binnen wetenschappelijk onderzoek. We doen dit aan de hand van het onderzoek van Przybylski and Weinstein (2017) over de relatie tussen digitaal schermgebruik en mentaal welzijn bij jongeren.

De motivatie om dit onderzoek uit te voeren is deels ingegeven door een richtlijn van de beroepsvereniging van Amerikaanse kinderartsen (American Academy of Pediatrics Committee on Public Education 2001) die stelt dat zorgverleners en ouders best het digitaal schermgebruik van kinderen beperken tot maximaal twee uur per dag. Niet iedereen is echter overtuigd van het nut van deze richtlijn. Enerzijds is het niet altijd makkelijk om een dergelijke beperking op te leggen en anderzijds kunnen bepaalde vormen van digitaal schermgebruik het mentaal welzijn dienen.

Przybylski and Weinstein (2017) hebben deze richtlijn kritisch geëvalueerd door empirisch de relatie tussen schermgebruik en mentaal welzijn na te gaan. Ze stelden een hypothese volgens het zogenaamde Goudlokje-principe voor: een beperkte mate van digitaal schermgebruik kan een positief effect hebben op het mentaal welzijn, terwijl een overmatig gebruik negatieve gevolgen kan hebben.

De onderzoekers hebben hun studie opgezet volgens de empirische cyclus. In het volgende hoofdstuk gaan we deze studie in detail bekijken, maar hier geven we al de grote lijnen weer volgens het grondschema.

  1. Observatie

Uit voorgaande studies blijkt enerzijds dat een beperkte hoeveelheid schermgebruik geen negatieve en soms zelfs een positieve invloed kan hebben, terwijl andere studies aangeven dat een overmatig gebruik voornamelijk negatieve gevolgen heeft.

  1. Inductie

De onderzoekers schuiven een hypothese volgens het Goudlokje-principe naar voren: ze verwachten een kantelpunt in termen van schermgebruik waar de impact op het mentaal welzijn overgaat van positief naar negatief.

  1. Deductie

Indien de onderzoekers gegevens verzamelen van adolescenten, verwachten ze dat het mentaal welzijn, dat ze meten via de Warwick-Edinburgh Mental Well-Being Scale, gemiddeld zal toenemen bij een toenemend beperkt schermgebruik en nadien zal afnemen bij een overmatig schermgebruik.

  1. Toetsen

De onderzoekers hebben gegevens verzameld van 120 115 Engelse scholieren en deze zijn, gemiddeld genomen, in lijn met de voorspelling. Het gemiddelde mentaal welzijn is het hoogst bij een beperkt schermgebruik en neemt af bij toenemend gebruik.

  1. Evaluatie

De resultaten zijn in lijn met de voorspelling volgens het Goudlokje-principe. De onderzoekers stellen echter vast dat de wijzigingen in gemiddeld mentaal welzijn volgens schermgebruik eerder beperkt zijn. Ze kunnen ook niet met zekerheid zeggen dat het schermgebruik de oorzaak is van de wijziging in mentaal welzijn: de waarnemingen zijn in lijn met hun hypothese, maar de verzamelde data laten niet toe hun hypothese te bewijzen. Verder werpt hun onderzoek ook nieuwe vragen op die onderzocht kunnen worden in vervolgonderzoek.

1.3 Statistiek binnen de empirische cyclus

We hebben nu al een zicht op de grote lijnen van hoe onderzoek verloopt via de empirische cyclus. Maar wat heeft dit te maken met statistiek? Statistiek kan je zien als de wetenschap van het leren uit data. Ze zal bijgevolg een ondersteunende rol spelen bij het onderdeel ‘Toetsen’ van het grondschema. Daar wordt ‘nieuw empirisch feitenmateriaal’ - data dus (denk bijvoorbeeld aan het mentaal welzijn of het aantal uur dat een scholier op de smartphone zit) – verzameld, en om de toetsing te kunnen uitvoeren, zullen we inzicht moeten krijgen in deze data. Een statistische analyse van de data kan ons hierbij helpen. Dit klinkt misschien abstract, maar besef dat een statistische analyse niet altijd complex hoeft te zijn. Als je bijvoorbeeld wilt weten wat het verschil is in mentaal welzijn tussen jongeren die per dag een half uur met hun smartphone bezig zijn (groep 1) en jongeren die er vijf uur mee bezig zijn (groep 2), kunnen we per groep het gemiddelde mentaal welzijn en hun standaardafwijkingen berekenen en vergelijken. Dit is al een voorbeeld van een (eenvoudige) statistische analyse die ons inzicht geeft in het verschil in mentaal welzijn tussen beide groepen.

Naast het analyseren van data is statistiek ook belangrijk om te bepalen hoe je precies data kan verzamelen. Er zijn vaak meerdere manieren om data te verzamelen, elk met hun voor- en nadelen, en statistisch inzicht zal ons in staat stellen om die voor- en nadelen te evalueren en mee te nemen in de interpretatie van de statistische analyses.

De rol van statistiek zal duidelijk naar voren komen bij ‘Toetsen’, maar ze is ook van belang bij de andere stappen in het grondschema. Bij ‘Inductie’ kan statistiek ons helpen om een hypothese voorop te stellen, en bij ‘Deductie’ speelt ze een rol bij het concreet formuleren van de voorspelling. Ook bij ‘Evaluatie’ komt er statistiek aan te pas: de toetsing gebeurt onder andere op basis van statistische analyses en om die kritisch te beoordelen, is een goede kennis van statistiek vereist.

Statistiek zit dus verweven in de empirische cyclus. Als we onderzoek volgens de empirische cyclus willen begrijpen, zullen we ook de statistiek moeten begrijpen. We bedoelen hiermee dat we in staat moeten zijn om te redeneren door middel van statistiek en data. Dit wordt ook statistische geletterdheid genoemd. Dat is een belangrijke vaardigheid om wetenschappelijk onderzoek kritisch te lezen en evalueren.

Het verwerven van statistische geletterdheid vraagt tijd en oefening. Er is geen vast recept dat we kunnen volgen - elk onderzoek is immers anders: een andere onderzoeksvraag, een andere manier van data verzamelen, andere types van gegevens worden verzameld, enzovoort. Er is vaak geen pasklare route uitgestippeld voor de statistische analyse. Je kan statistiek zien als detectivewerk waarbij je constant vragen stelt en die tracht te beantwoorden. Vragen zoals:

  • Wat willen de onderzoekers te weten komen?
  • Zijn de data geschikt om de onderzoeksvraag te beantwoorden?
  • Wat kunnen we leren uit de data?
  • Wat kunnen we niet leren uit de data? (deze vraag is minstens even belangrijk als de voorgaande vraag)
  • Welke statistische technieken zijn geschikt om de data te analyseren in het licht van de onderzoeksvraag?

In dit handboek kiezen we ervoor om verschillende wetenschappelijke studies in detail te bespreken. De focus zal hier voornamelijk liggen op de statistiek, maar door ook het grotere geheel te betrekken, zal gaandeweg duidelijk worden wat statistische geletterdheid precies is en hoe je zelf een statistiek-detective kan worden.

1.4 Statistiek en wiskunde

Je hoeft geen wiskunde-genie te zijn om statistisch geletterd te worden. Veel statistische technieken doen een beroep op wiskundige modellen, maar in essentie kan je veel datageletterde vragen stellen én beantwoorden zonder een beroep te doen op vergevorderde wiskunde. In dit handboek stellen we het redeneren via statistiek en data voorop en focussen we minder op het wiskundig formaliseren van verschillende analysetechnieken. Dit impliceert niet dat we analysetechnieken louter oppervlakkig zullen behandelen. We bespreken een beperkt aantal technieken diepgaand, maar zonder gebruik te maken van technische wiskunde (zoals afgeleiden en integralen). We zullen voornamelijk de focus leggen op conceptuele kennis en steeds de context van het onderzoek betrekken bij de uitleg van de techniek. We maken ook gebruik van zogenaamde simulaties waarbij we de werkelijkheid zullen ‘nabootsen’. Een sterkte van de statistiek is dat ze ons in staat stelt een antwoord te geven op de vraag ‘Wat kan ik verwachten als ik de studie opnieuw zou uitvoeren?’ zonder dat we daadwerkelijk de studie opnieuw uitvoeren. Het is dankzij wiskunde en kansrekening dat we dergelijke vragen kunnen beantwoorden, maar je hoeft geen wiskundige te zijn om dit te begrijpen. Dankzij statistische software en webapplicaties kunnen we de studie artificieel nabootsen om verschillende eigenschappen van deze technieken toe te lichten.

1.5 Statistiek en software

Als we statistische analyses uitvoeren - denk bijvoorbeeld aan het berekenen van het gemiddeld mentaal welzijn van meer dan honderdduizend scholieren - zullen we intensief gebruik maken van statistische software. In dit handboek maken we gebruik van het gratis softwarepakket R (R Core Team 2021). Dit softwarepakket werkt met syntax zonder grafische interface - er zijn geen knoppen om op te klikken. Dit impliceert dat we deze syntax - we bedoelen hiermee de ‘taal’ om te kunnen communiceren met R - moeten aanleren. We zullen dit stapsgewijs doen. Niettegenstaande je wat drempelvrees kan ervaren in het begin, zal je snel merken dat de syntax logisch is opgebouwd. Het belangrijkste is om jezelf tijd te geven om te wennen aan deze nieuwe taal - door ze vaak tegen te komen, zal ze meer en meer vertrouwd aanvoelen. In een eerste fase is het belangrijk dat je deze taal kan lezen (de verkregen syntax begrijpen) - het schrijven (de syntax zelf typen) volgt later wel.

Ben je benieuwd naar R? - bekijk dan eens onderstaande (Engelstalige) korte video. TODO: VIDEO AANPASSEN

1.6 Statistiek en activerend leren

Statistiek leer je het best door er actief mee bezig te zijn. In dit handboek wisselen we theorie af met oefeningen. We raden je aan om actief deze oefeningen te maken om zo de leerstof beter te begrijpen - dit is belangrijker dan de leerstof te reproduceren. Het maken van de oefeningen kan soms wat tijd vragen, maar het is tijd die welbesteed is: eens je bepaalde zaken beter begrijpt, zal het makkelijker zijn om de leerstof te studeren en om te verbanden te zien tussen de verschillende hoofdstukken.

2 Smartphonegebruik en mentaal welzijn: een beschrijvende analyse

In dit hoofdstuk maken we kennis met een uitgebreid aantal statistische begrippen en technieken. Denk hierbij aan begrippen zoals de steekproef en een variabele en aan technieken zoals het visualiseren van data via staafdiagrammen of het berekenen van centrummaten zoals de mediaan en het gemiddelde. Statistiek is echter meer dan een opsomming van begrippen en technieken. Ze stelt ons in staat om te leren uit data waarbij begrippen en technieken onze werkinstrumenten zijn. Statistische vaardigheden stellen ons in staat om kritisch data te analyseren en de resultaten te interpreteren. De werkinstrumenten zijn een noodzakelijk onderdeel, maar het is vooral de wijze waarop je deze instrumenten gebruikt dat belangrijk is. Om dit te illustreren, bouwen we dit hoofdstuk op rond het wetenschappelijk artikel van Przybylski and Weinstein (2017). Dit laat ons toe te demonstreren hoe statistiek verweven zit binnen de empirische cyclus en hoe statistisch redeneren deel uitmaakt van kwantitatief onderzoek. Het stelt ons in staat om in te zien waarom we statistiek nodig hebben. In dit hoofdstuk zullen we zien dat we met basistechnieken al veel kunnen leren uit data.

Bij het bespreken van het onderzoek nemen we de vrijheid om bepaalde aspecten extra te belichten terwijl we andere zaken minder uitgebreid aan bod komen. In het bijzonder, en niet verwonderlijk, spenderen we extra aandacht aan de onderdelen waar we leren uit data. Aan de hand van het onderzoek introduceren we stapsgewijs verschillende statistische begrippen en technieken - deze worden in het vet en cursief weergegeven. Op het einde van een paragraaf voorzien we een overzicht en een korte beschrijving samen met een bespreking van hoe we deze begrippen en technieken hebben toegepast om te leren uit data.

Voor verschillende statistische technieken is het vaak direct duidelijk wat ze betekenen - denk aan het gemiddelde of een staafdiagram. Andere technieken, zoals de standaardafwijking of de regressierechte, vragen wat meer uitleg. We kiezen er voor om deze technieken onmiddellijk toe te passen nadat we ze beknopt conceptueel hebben uitgelegd. We staan pas in Hoofdstuk 3 stil bij de details. Dit stelt ons in staat om eerst de focus te leggen op het leren uit data, zonder dat technische uitwerkingen in de weg staan. De technische uitwerking zijn echter ook belangrijk om de technieken diepgaand te begrijpen en ze zelf te kunnen toepassen. Maar dit komt dus pas aan bod in Hoofdstuk 3.

Een wetenschappelijk artikel bestaat typisch uit vier paragrafen en dit hoofdstuk volgt deze opbouw. Bij wijze van overzicht lichten we ze kort toe.

  1. Introductie. De introductie van het artikel dient twee doelen. Enerzijds wordt een beknopte samenvatting gegeven van de bestaande literatuur over het onderwerp en anderzijds motiveert men waarom er een nieuwe studie wordt uitgevoerd.

  2. Methodes. Bij de toelichting van de gebruikte methodes verduidelijkt men wie heeft deelgenomen aan de studie, hoe deze personen werden geselecteerd en wat men heeft gemeten (welke data men heeft verzameld).

  3. Resultaten. In deze paragraaf rapporteert men de resultaten van de (statistische) analyse van de data. Naast uitgeschreven tekst voorziet men vaak ook tabellen en figuren ter ondersteuning van de analyses en conclusies.

  4. Discussie. Hier formuleert men conclusies samen met afsluitende opmerkingen en open vragen voor vervolgonderzoek.

De opbouw van een wetenschappelijk artikel leunt dicht aan bij het grondschema van de empirische cyclus. ‘Observatie’ en ‘Inductie’ komen aan bod in ‘Introductie’, ‘Deductie’ komt voor in ‘Methodes’, terwijl ‘Toetsen’ in ‘Resultaten’ wordt besproken. Tot slot kan je ‘Evaluatie’ terugvinden in de afsluitende ‘Discussie’. Merk op dat je niet verplicht bent deze opbouw te volgen - onderzoekers hebben steeds wetenschappelijke vrijheid om hun onderzoek uit te voeren. Het grondschema van de empirische cyclus kan hierbij gevolgd worden als leidraad, maar hoeft niet exact geïmplementeerd te worden. Je kan het onderzoek van Przybylski and Weinstein (2017) zien als een voorbeeld van hoe een wetenschappelijk onderzoek volgens de regels van de kunst kan uitgevoerd worden, maar dit wil niet zeggen dat elk onderzoek deze structuur moet volgen.

Als je zelf eens wil zien hoe het wetenschappelijk artikel van Przybylski and Weinstein (2017) in detail wil bekijken, kan je ze hier raadplegen. Wens je zelf analyses te doen, dan kan je de data hier vinden. Tot slot kan je hier aanvullend materiaal vinden.

2.1 Inleiding: waarom dit onderzoek?

Adolescenten spenderen in toenemende mate meer tijd door online: waar dit in 2005 gemiddeld 8 uur per week was, was dit meer dan het dubbele tien jaar later. Omdat deze tijdspendering mogelijks negatief kan samenhangen met mentaal en sociaal welzijn, adviseert de Amerikaanse Academie van Kinderartsen om het schermgebruik bij kinderen te beperken. De meerwaarde van dit advies wordt echter in vraag gesteld en men wenst via deze studie te onderzoeken hoe schermtijd samenhangt met mentaal welzijn.

In de literatuur wordt de vervangingshypothese (displacement hypothesis in het Engels) herhaaldelijk naar voor geschoven om de effecten van schermtijd te verklaren. Deze hypothese stelt dat de negatieve effecten van technologie rechtevenredig zijn met de blootstelling. De effecten zijn negatief omdat digitale activiteiten alternatieve activiteiten (zoals afspreken met vrienden of sporten) vervangen. In de literatuur is er echter ook impliciet sprake van een ‘Goudlokje-hypothese’: gematigd technologiegebruik is niet intrinsiek schadelijk en kan zelf voordelig zijn in een verbonden wereld, terwijl overmatig gebruik wel negatieve gevolgen kan hebben omdat dit ten koste gaat van andere waardevolle activiteiten. Deze hypothese is nog nooit expliciet bestudeerd geweest en staat centraal in dit onderzoek.

Welke elementen van de empirische grondcyclus kan je terugvinden in de inleiding?

2.2 Methode: hoe werd de studie uitgevoerd?

In de bespreking van de methodes staan volgende vragen centraal:

  • over wie hebben we gegevens verzameld?
  • hoe werden die gegevens bekomen?
  • wat werd er gemeten?
  • zijn er ethische bezwaren?

2.2.1 Proefpersonen en steekproeftrekking

De doelgroep die we wensen te onderzoeken, wordt de populatie genoemd. Het onderzoek gaat over het schermgebruik bij adolescenten en meer specifiek richt men zich tot scholieren in Engeland die 15 jaar werden in 2013-2014. In een ideaal scenario kunnen we gegevens verzamelen voor alle personen in de populatie. In de praktijk is de populatie echter zeer groot - hier bestaat ze uit zeshonderdvijftigduizend scholieren - waardoor we de volledige populatie niet kunnen bevragen. Een oplossing bestaat er in om te werken met een kleinere deelverzameling van de populatie. Deze deelverzameling wordt de steekproef (sample in het Engels) genoemd. Een grotere steekproef is vaak beter omdat we dan meer informatie over de populatie hebben. Anderzijds stijgt de kost van het onderzoek met toenemende steekproefgrootte. De steekproefgrootte zal daarom de balans moeten houden tussen enerzijds groot genoeg om voldoende rijke informatie te verkrijgen, maar anderzijds niet onnodig kostelijk.

Om de steekproef vast te leggen, hebben we een lijst nodig met de gegevens van de personen in de populatie zodat we scholieren kunnen selecteren voor het onderzoek. De lijst die ons in staat stelt om uit de populatie een steekproef te selecteren, wordt een steekproefkader (sampling frame) genoemd. In het ideale geval komt elke scholier uit de populatie voor in het steekproefkader, maar in de praktijk zal dit vaak niet zo zijn. De onderzoekers gebruiken als steekproefkader de National Pupil Database van het Onderwijsdepartement in het Verenigd Koninkrijk. Niettegenstaande deze database informatie bevat van 566 154 scholieren, vertoont ze verschillen met de populatie omdat studenten uit onafhankelijke scholen niet voorkomen in deze lijst. Als de onderzoekers later de conclusies van hun studie trachten te veralgemenen naar de populatie, zal men dit met enige voorzichtigheid moeten doen gelet dat er personen uit de populatie (met name de scholieren uit onafhankelijke scholen) nooit tot de steekproef kunnen behoren. Dit kan resulteren in een vertekening (bias) van de conclusies als scholieren uit onafhankelijke scholen verschillen in mentaal welzijn of schermgebruik in vergelijking met de andere scholieren.

Een pragmatische oplossing bestaat er in om de populatie te herdefiniëren op basis van het steekproefkader: in plaats van ‘alle Engelse scholieren die 15 jaar werden in 2013-2014’ kan je ze vastleggen als ‘alle scholieren in Engeland die 15 jaar werden in 2013-2014 en geen les volgden aan een onafhankelijke school’. Wij werken verder met deze nieuwe omschrijving van de populatie omdat het de zaken wat makkelijker maakt.

  • Omschrijf in je eigen woorden de populatie en de steekproef toepast op dit onderzoek.

  • Veronderstel dat we een gelijkaardig onderzoek willen uitvoeren in België waarbij we de populatie vastleggen als “alle jongeren die 15 jaar worden dit kalenderjaar”. Welk steekproefkader kunnen we gebruiken om de steekproef samen te stellen?

Uit het steekproefkader moeten de onderzoekers nu scholieren selecteren om zo de steekproef samen te stellen die een goede weerspiegeling is van de populatie. Dit wordt een representatieve steekproef genoemd. Toevalstrekkingen stellen ons in staat om dit te bekomen. Als we op willekeurige wijze scholieren selecteren, dan heeft elke scholier dezelfde kans om tot de steekproef te behoren. Dergelijke steekproeftrekking, ook wel enkelvoudige aselecte steekproeftrekking genoemd, resulteert hierdoor in representatieve steekproeven die toelaten om conclusies te veralgemenen naar de populatie.

Soms willen onderzoekers iets meer controle uitoefenen over de steekproeftrekking dan dat enkelvoudige aselecte steekproeftrekking toelaat. Voor het huidig onderzoek willen de beleidsmakers gegevens hebben tot op het niveau van lokaal bestuur (zogenaamde ‘local authorities’ in Engeland). Als ze kiezen voor een aselecte steekproef, is het goed mogelijk dat ze voor sommige lokale besturen (in het bijzonder de kleine lokale besturen) geen scholieren in de steekproef hebben. Dit kan opgelost worden door te werken met gestratificeerde steekproeftrekkingen. Hier delen we de populatie eerst op in lagen (strata) en kiezen we op willekeurige wijze een vooropgesteld aantal scholieren per laag. Als de lagen bestaan uit de lokale besturen, garandeert deze manier van steekproeftrekking dat we scholieren hebben uit alle lokale besturen. Als het relatief aantal scholieren per laag in de steekproef gelijk is aan het relatief aantal in de populatie, dan resulteert deze wijze van steekproeftrekking ook in een representatieve steekproef.

Binnen de gedragswetenschappen zal men vaak werken met gemakshalve steekproeftrekkingen (ook wel gelegenheidssteekproeftrekking genoemd). Zoals de naam doet vermoeden, zijn dit trekkingen die gemakkelijk uit te voeren zijn. Als onderzoekers geen toegang krijgen tot een steekproefkader (omwille van privacyredenen bijvoorbeeld), moeten ze anders te werk gaan. Ze kunnen beslissen om scholen uit de buurt te bezoeken om zo scholieren voor hun steekproef te vinden. Dit is vrij makkelijk uit te voeren, maar ze heeft een groot nadeel: we hebben geen controle meer over de generaliseerbaarheid naar de populatie. Het kan zijn dat de gegevens voor de scholieren uit de buurt niet veralgemeenbaar zijn naar de gegevens van scholieren uit andere buurten. Dit resulteert in vertekening die we selectiebias noemen. Gemakshalve steekproeftrekking zijn onderhevig aan selectiebias terwijl we dit kunnen vermijden door steekproeftrekkingen uit te voeren op basis van toevalstrekkingen.

Voor de huidige studie heeft men beroep gedaan op een gestratificeerde steekproeftrekking om 298080 scholieren te selecteren uit het steekproefkader. De ouders of zorgverlener van de geselecteerde scholieren werden via een brief uitgenodigd om hun kind te laten deelnemen aan het onderzoek en werden gevraagd om schriftelijke toestemming te verlenen. Uiteindelijk hebben 112153 scholieren bruikbare data opgeleverd door een vragenlijst online of op papier in te vullen. Dit aantal wordt ook de steekproefgrootte genoemd en stellen we voor door de letter \(n\). Merk op dat we dus geen gegevens hebben van 177965 scholieren die werden aangeschreven. Deze scholieren worden de non-responders genoemd. Als het mentaal welzijn of het schermgebruik van deze non-responders niet vergelijkbaar is met deze van de responders, dan is de steekproef niet langer representatief. Onze data kunnen dan vertekend zijn, wat we non-response bias noemen.

Achttien procent van de scholieren uit de populatie maken deel uit van de steekproef. Dit is een voorbeeld van een zeer grote steekproef. De onderzoekers konden een steekproef van dergelijke omvang bekostigen omdat hun onderzoek deel uitmaakt van een groter nationaal onderzoek naar het mentaal welzijn van vijftienjarigen uitgevoerd door de Health and Social Care Information Centre (NHS Digital) in Engeland. In dit handboek zullen we ook studies bespreken die met minder middelen werden uitgevoerd waardoor de steekproefgroottes vele malen kleiner zullen zijn dan de populatiegrootte.

  • Ontwerpen van klasactiviteit om 3 soorten designs te illustreren

Oefeningen maken op basis van Nature artikel over bias rond vaccinatie en steekproeftrekking ‘Unrepresentative big surveys significantly overestimated US vaccine uptake’ (https://www.nature.com/articles/s41586-021-04198-4)

We hebben zonet verschillende begrippen geïntroduceerd en toegepast op het onderzoek van Przybylski and Weinstein (2017). We geven nu een overzicht van deze begrippen en bespreken we ze meer algemeen. Dit kan je houvast bieden bij het verwerken van de statistische leerstof in dit hoofdstuk.

  • Populatie. De verzameling van subjecten (ook wel elementen of observeerbare eenheden genoemd) die men wil bestuderen. De populatie is vaak zeer groot. In de gedragswetenschappen zijn de subjecten vaak personen zodat de populatie een statistische benaming is voor een (grote) groep personen waarover we iets te weten willen komen. In andere domeinen, zoals de biologie, kan de populatie bestaan uit dieren of planten.

  • Steekproef. Een deelverzameling van de populatie waarvoor we gegevens zullen verzamelen. In het ideale geval kunnen we gegevens verzamelen voor de volledige populatie, maar omdat deze vaak te groot is, moeten we ons behelpen met een (klein) deel van de populatie: de steekproef.

  • De steekproefgrootte is gelijk aan het aantal elementen in de steekproef waarvoor we data hebben verzameld. Ze wordt aangeduid met de letter \(n\).

  • Steekproefkader. Lijst met informatie over de personen in de populatie die we gebruiken om de steekproef samen te stellen.

  • Non-responders. Niet alle personen uit de populatie willen deelnemen aan de studie en dit worden de non-responders genoemd. Non-response komt vaak voor in onderzoek en heeft verschillende implicaties:

    • de steekproef is niet noodzakelijk representatief meer.
    • de steekproefgrootte is kleiner dan oorspronkelijke beoogd.

    De vertekening die we kunnen krijgen door non-responders, wordt non-response bias genoemd.

Steekproeftrekking. De wijze waarop we elementen selecteren uit het steekproefkader om de steekproef samen te stellen. We willen een steekproef hebben die representatief is voor de populatie. We bedoelen hiermee dat de steekproef een goede weerspiegeling is van de populatie. We hebben drie soorten steekproeftrekkingen besproken.

  • Enkelvoudige aselecte steekproeftrekking. We selecteren willekeurig personen uit de populatie. Doordat we willekeurig kiezen, heeft elke persoon in de populatie dezelfde kans om tot de steekproef te behoren. Dit garandeert dat de steekproeftrekking geen personen zal bevoordelen of benadelen. We zeggen dat de streekproeftrekking resulteert in representatieve steekproeven.

  • Gestratificeerd steekproeftrekking. We delen de populatie op in een aantal lagen (strata). Binnen elk laag voeren we een enkelvoudige aselecte steekproeftrekking uit. Deze steekproeftrekking is representatief indien proportie personen per laag (stratum) in de steekproef gelijk is aan die in de populatie. Indien we bijvoorbeeld een populatie bestaande uit 40% minderjarigen en 60% meerderjarigen wensen te bevragen via een gestratificeerde steekproef (met meerderjarigheid als stratum), dan moet 40% van de personen in de steekproef minderjarig zijn en 60% meerderjarig.

  • Gemakshalve steekproeftrekking. Steekproeftrekking waarbij personen die makkelijk bereikbaar zijn een grotere kans hebben om tot de steekproef te behoren. Niettegenstaande deze steekproeftrekking vaak eenvoudiger uitvoerbaar is, heeft ze een nadeel: ze kan resulteren in selectiebias waarbij sommige groepen in de populatie over- of ondervertegenwoordigd worden in je steekproef.

We verwijzen naar Sectie ?? voor extra informatie over de steekproeftrekking.

Bovenstaande begrippen en technieken laten ons toe volgende vragen te stellen en te beantwoorden.

  • Op wie heeft de onderzoeksvraag betrekking? De populatie omschrijft deze groep: Engelse scholieren die 15 werden in 2013-2014 uit niet-onafhankelijke scholen.
  • Voor wie hebben we data verzameld? Voor de personen in de steekproef: we hebben data voor 112153 scholieren.
  • Hoe werd de steekproef bekomen? Via gestratificeerde steekproeftrekking op basis van een steekproefkader waarbij men scholieren selecteert op het niveau van lokaal bestuur. Door non-respons is de finale steekproef niet noodzakelijk representatief meer.

Gegeven een context van een onderzoek, de populatie, steekproeftrekking ed identificeren.

2.2.2 Metingen

Nu we weten over wie gegevens werden verzameld, willen we weten wat er werd gemeten. Dit noemen we de variabelen: het zijn de karakteristieken waar we in geïnteresseerd zijn en deze variëren voor de personen in de populatie - ze zijn dus variabel.

In totaal werden er twaalf variabelen gemeten en we kunnen ze voor deze studie opdelen in drie categorieën.

  1. De uitkomstvariabele mentaal welzijn werd gemeten via de Warwick-Edinburgh Mental Well-Being Scale. Deze zelfrapportagevragenlijst bestaat uit 14 vragen en peilt naar het geluk, de levensvoldoening en het psychologisch en sociaal functioneren. Elk antwoord krijgt een score van 1 tot 5 zodat de totale score gaat van 14 tot 70. Hogere waarden komen overeen met een beter mentaal welzijn. We zeggen dat het mentaal welzijn geoperationaliseerd werd door de score op Warwick-Edinburgh Mental Well-Being Scale.
  2. Verklarende variabelen (8 variabelen)
    1. Het gemiddeld aantal uur per dag (0 tot 7 uur) dat de scholieren tijdens de weekdagen spenderen
      1. aan het kijken van films, series en programma’s.
      2. aan het spelen van videospellen op de computer of via een spelconsole.
      3. aan de computer voor chatten, email, schoolwerk en internet.
      4. op hun smartphone voor sociale media, chatten, mail, games, etc.
    2. Het gemiddeld aantal uur per dag (0 tot 7 uur) dat de scholieren tijdens het weekend spenderen
      1. aan het kijken van films, series en programma’s.
      2. aan het spelen van videospellen op de computer of via een spelconsole.
      3. aan de computer voor chatten, email, schoolwerk en internet.
      4. op hun smartphone voor sociale media, chatten, mail, games, etc.

De verklarende variabelen werden geoperationaliseerd via zelfrapportage waarbij de scholier de keuze had uit 9 opties: 0, 0.5, 1, 2, 3, 4, 5, 6 of 7 uur of meer per dag.

  1. Controlevariabelen (3 variabelen)
    1. Of de scholier zich identificeert als mannelijk.
    2. Of de scholier zichzelf beschouwt als blanke of andere etniciteit.
    3. Of de regio waar de scholier woont, gedepriveerd is (met gedepriveerd bedoelt men lage tewerkstelling en hoge criminaliteit). Deze variabele werd geoperationaliseerd door de postcode te linken aan een database met tewerkstelling- en misdaadcijfers.

We hebben de variabelen onderverdeeld in drie groepen. De uitkomstvariabele is de hoofdvariabele van de studie en we wensen de variabiliteit in deze variabele te verklaren door middel van de verklarende variabelen (ook wel voorspellende variabelen of predictoren genoemd). Dit is iets wat we vaak zullen doen in statistische analyses: variabiliteit in de éne variabele trachten te verklaren door een andere variabele. Dit klinkt abstract, maar het principe is eenvoudig. Laten we een voorbeeld nemen om dit te verduidelijken.

Het mentaal welzijn is niet gelijk voor alle scholieren, ze vertoont dus variabiliteit. We stellen ons dan de vraag ‘Hoe komt het dat we variabiliteit waarnemen?’. Met andere woorden: ‘Hoe komt het dat het mentaal welzijn niet voor iedereen gelijk is?’. Een deel van de verklaring kan mogelijks gevonden worden bij de verklarende variabelen. Neem bijvoorbeeld de verklarende variabele smartphonegebruik: misschien valt een deel van de variatie in mentaal welzijn te verklaren door het feit dat sommige scholieren veel tijd doorbrengen op hun smartphone terwijl anderen hier minder tijd aan besteden. We proberen de variabiliteit in de uitkomstvariabele te begrijpen door te kijken hoe scholieren van elkaar verschillen in termen van de verklarende variabelen. Of in statistische termen uitgedrukt: we trachten de variabiliteit in de uitkomstvariabele te verklaren via de verklarende variabelen.

Tot slot worden er ook controlevariabelen meegenomen: deze laten toe om te controleren voor mogelijke verschillen in de uitkomstvariabele die niet toe te schrijven zijn aan de verklarende variabelen. We zullen verder in dit hoofdstuk zien dat het niet zo eenvoudig is om het mentaal welzijn voor scholieren die weinig met hun smartphone bezig zijn te vergelijken met scholieren die hier veel tijd aan spenderen. Dit komt doordat beide groepen moeilijk te vergelijken zijn: het zijn voornamelijk jongens die weinig met hun smartphone bezig zijn terwijl het voornamelijk meisjes zijn die veel tijd spenderen op hun smartphone. Als we een deel van de variabiliteit in mentaal welzijn willen verklaren door middel van smartphonegebruik zullen we het geslacht in rekening moeten brengen. In statistische termen noemen we dit ‘controleren voor de variabele geslacht’.

De keuze van welke variabele de uitkomstvariabele is en welke de verklarende of controlevariabelen zijn, hangt onder andere af van de onderzoeksvraag en de manier waarop de data verzameld worden. Het is een keuze die weloverwogen moet gebeuren en niet altijd makkelijk te maken is.

De meeste variabelen werden geoperationaliseerd via zelfrapportage. Dit heeft als voordeel dat je met relatief weinig middelen veel variabelen kan bevragen. Uiteraard heeft deze manier van data verzamelen ook nadelen:

  • Het mentaal welzijn wordt gekwantificeerd door een getal wat een sterke vereenvoudiging is van het onderliggend psychologisch construct.
  • Het gemiddeld aantal uur digitaal schermgebruik kan onderhevig zijn aan fouten omdat de scholieren dit moeten inschatten.

Kan je andere manieren bedenken om bovenstaande variabelen te operationaliseren?

De uitgevoerde studie is een voorbeeld van een cross-sectionele studie. Dit wil zeggen dat gegevens worden verkregen op één specifiek moment in de tijd waardoor we de variabelen maar een keer gemeten hebben. Soms kan het interessant zijn om variabelen op meerdere momenten in de tijd te meten - mentaal welzijn en digitaal schermgebruik kunnen variëren van week tot week. Als we voor een of meerdere variabelen meerdere metingen hebben, spreken we over een longitudinale studie.

Kan je voor- en nadelen zien van een longitudinale studie ten opzichte van een cross-sectionele studie?

Tot slot is de studie ook een voorbeeld van een observationele studie: we observeren het mentaal welzijn en het digitaal schermgebruik. Dit is verschillend van een experimentele studie waar onderzoekers een interventie opzetten om het effect van die interventie te bestuderen. Men had bijvoorbeeld de groep scholieren willekeurig in twee groepen kunnen onderverdelen: een groep die een week geen smartphone mag gebruiken en een groep die hun smartphone wel mogen gebruiken. Vervolgens kon men op het einde van de week het mentaal welzijn bevragen en vergelijken tussen beiden groepen. Dit zou een voorbeeld zijn van een experimentele studie. In het onderzoek dat wij bespreken is dit niet gebeurd: de onderzoekers hebben louter geobserveerd wat het smartphonegebruik was.

Kan je voor- en nadelen zien van een experimentele versus een observationele studie?
(Voordeel: laat toe om causale conclusies te trekken. Nadeel: moeilijker/duurder om studie uit te voeren, hogere kans op dropout/nonrespons, moeilijk om controle uit te oefenen of de scholieren zich houden aan het aantal uur per dag, artificiële setting. )

  • Variabelen. De karakteristieken die we wensen te onderzoeken. Omdat de karakteristieken kunnen verschillend zijn van persoon tot persoon - ze variëren dus - noemen we ze variabelen.

  • Uitkomstvariabele. De hoofdvariabele van de studie. We wensen inzicht te krijgen in deze variabele waarbij we trachten te verklaren waarom deze variabele varieert.

  • Verklarende variabele. Variabelen die ons in staat kunnen stellen om (deels) te begrijpen waarom de uitkomstvariabele varieert.

  • Controlevariabele. Wanneer we groepen vergelijken kan het zijn dat de groepen substantieel verschillen van elkaar. Via de controlevariabelen trachten we hiervoor de controleren door bijvoorbeeld de groepen op te delen per waarde van de controlevariabele.

  • Operationaliseren. Het meetbaar maken van de eigenschappen die men wenst te bestuderen.

  • Cross sectionele studie. Een type van studie waarbij men variabelen slechts op één moment in de tijd zal bevragen.

  • Longitudinale studie. Een type van studie waarbij men een of meerdere variabelen op verschillende momenten in de tijd zal bevragen.

  • Observationele studie. Een type van studie waar men enkel observeert zonder een interventie uit te voeren.

  • Experimentele studie. Een type van studie waar men een interventie zal uitvoeren om de impact van die interventie te onderzoeken.

Op basis van de onderzoeksvraag beslissen de onderzoekers welke variabelen ze gaan meten. Vaak zijn er meerdere keuzes mogelijk om de eigenschappen/karakteristieken te operationaliseren. Bij elke keuze is het belangrijk om na te denken over de sterktes en tekortkomingen van deze keuzes - dit helpt je om kritisch de verkregen gegevens te evalueren. Meestal kunnen we de variabelen opdelen volgens 3 groepen: de uitkomstvariabele, de verklarende variabelen en de controlevariabelen. De keuze van de uitkomstvariabele en de verklarende variabelen wordt gestuurd door de onderzoeksvraag, terwijl de keuze van controlevariabelen vaak moeilijker vast te leggen is. Het zijn variabelen die mogelijks een invloed kunnen hebben op de relatie tussen de uitkomstvariabele en de verklarende variabelen. Hoe meer controlevariabelen je hebt, hoe informatiever de latere analyses kunnen zijn. Echter, hoe meer je de participanten bevraagt, hoe groter de kans op non-responders of gegevens die ontbreken (denk aan scholieren die de vragenlijst te lang vinden en halverwege stoppen met invullen). Het aantal en de keuze van controlevariabelen zal daarom een afweging zijn van wat wenselijk is ten opzichte van wat haalbaar is.

De onderzoekers beslissen ook welk type studie men zal uitvoeren: gaat men louter waarnemen (een observationele studie) of gaat men ook een interventie opstellen (experimentele studie)? Zal men de variabelen maar één keer meten (cross-sectionele studie) of zal men bepaalde variabelen op verschillende tijdstippen meten (longitudinale studie)? Al deze keuzes hebben een impact op de informatie die vervat zal zitten in de data. Het is ook hier belangrijk om deze keuzes kritisch te evalueren en de voor- en nadelen in rekening te brengen.

2.2.3 Ethische beoordeling

Vele studies, en zeker als ze betrekking hebben op minderjarigen, moeten worden goedgekeurd door een ethische commissie. Ook deze studie heeft zijn onderzoeksplan en data-analyse moeten voorleggen aan dergelijke commissie en heeft de goedkeuring gekregen om het onderzoek uit te voeren. We gaan hier niet dieper op in.

2.3 Resultaten: analyse van de data

2.3.1 Analysestrategie/protocol

Voor aanvang van de dataverzameling zullen de onderzoekers reeds schetsen hoe ze de data gaan analyseren eens ze verzameld zijn. Men doet dit in een zogenaamd protocol. Dit protocol kan men publiekelijk beschikbaar stellen via bijvoorbeeld het Open Science Framework. Dit laat andere onderzoekers toe de uitgevoerde analyses te vergelijken met de geplande analyses. Het beschikbaar stellen van protocollen moet bijdragen aan de reproduceerbaarheid van de studie. Wetenschappelijke kennis is pas waardevol indien ze kan gereproduceerd worden. Een studie is reproduceerbaar als andere onderzoekers de studie herhalen en tot gelijkaardig resultaten komen. Het schrijven en publiceren van protocollen is reeds lang ingeburgerd bij de farmaceutische wetenschappen, in het bijzonder voor studies die worden opgezet om toelating te vragen aan medicijn-regulerende agentschappen - zoals het Europees Geneesmiddelenbureau - die toezicht houden op de ontwikkeling, evaluatie en veiligheid van geneesmiddelen. Sinds 2015 is er echter in de gedragswetenschappen, en in het bijzonder in de psychologie, meer aandacht voor reproduceerbaar onderzoek. De aanleiding was het artikel van Open Science Collaboration (2015) waar men 100 gepubliceerde psychologische studies heeft herhaald en men heeft moeten constateren dat vele van de oorspronkelijke conclusies niet gereproduceerd konden worden. Door protocollen te publiceren vermindert men de kans op HARKing (hypothesizing after the results are known) waarbij men onderzoekshypotheses opstelt door naar de data te kijken en dezelfde data gebruikt om deze hypothese te valideren. Dit is in strijd met de empirische cyclus die stelt dat de toetsing moet gebeuren op basis van nieuw empirisch feitenmateriaal.

Een protocol bevat typisch volgende elementen

  • Het doel van de studie.
  • De variabelen die zullen gemeten worden.
  • De onderzoekshypotheses.
  • De wijze waarop de steekproef zal bekomen worden.
  • De wijze waarop de data statistisch geanalyseerd zullen worden om de onderzoekshypotheses te valideren of falsificeren.

Bij het schrijven van een protocol moet men balanceren tussen enerzijds voldoende detail zodat het duidelijk is hoe de studie zal uitgevoerd worden en anderzijds de haalbaarheid van het voorgestelde plan gelet dat er altijd onverwachtse zaken opduiken tijdens de duurtijd van het onderzoek. Het schrijven van een protocol is uitdagend en vraagt een goede kennis van statistiek omdat je moet neerschrijven hoe je de data zal analyseren nog voor de data werden verzameld.

Oefening om het effect van HARKing te demonstreren.

  • Protocol. Een document waar de onderzoekers schetsen wat het doel is van de studie, welke variabelen ze zullen meten, welke hypotheses ze zullen onderzoeken, hoe ze de steekproef zullen samenstellen en hoe ze de data zullen analyseren.

  • HARKing. Hypothesizing after the results are known: een werkwijze waarbij men onderzoekshypotheses opstelt op basis van bevindingen in de data en vervolgens dezelfde data gebruiken om deze hypotheses te toetsen. Dit is geen goede manier om aan onderzoek te doen omdat ze in strijd is met het grondplan van de empirische cyclus die stelt dat we nieuwe data moeten gebruiken om een hypothese te toetsen.

Een protocol verplicht je om op voorhand goed na te denken over je studie. Gaande van de precieze formulering van de onderzoeksvraag tot de technische beschrijving van hoe je de verkregen data zal analyseren om de onderzoeksvraag te beantwoorden. Een protocol moet voorkomen dat je voorgaande beschrijvingen laat afhangen van de verkregen data - daarom dat je een protocol op voorhand moet schrijven. Een hoeksteen van de empirische cyclus is dat we steeds nieuwe data gebruiken om bepaalde hypotheses na te gaan en het schrijven van een protocol kan je hierbij helpen. Niettegenstaande het neerschrijven en beschikbaar stellen van een protocol waardevol is, wordt het bij veel onderzoek niet opgesteld.

2.3.2 Inzicht in de variabelen afzonderlijk

We gaan nu over naar de analyse van de data. We wijken hier wat af van de structuur van Przybylski and Weinstein (2017) omdat we verschillende statistische begrippen en technieken willen introduceren. In deze paragraaf bekijken we de variabelen afzonderlijk. We tonen hoe we deze variabelen kunnen samenvatten en visualiseren. We zullen zien dat de analysetechniek onder andere afhangt van het type van variabele en de waarden die ze aanneemt.

We bekijken de variabelen afzonderlijk omdat we een beeld willen krijgen van de steekproef. We stellen hierbij de volgende vragen:

  • Wat is de verhouding jongen-meisje?
  • Hoeveel scholieren identificeert zich als blank?
  • Wonen er veel scholieren in gedepriveerde regio’s?
  • Hoeveel tijd spenderen scholieren op hun smartphone?
  • Welke scores nemen we waar voor mentale gezondheid?

We kunnen deze vragen beantwoorden door de verdeling van de variabelen te bekijken. Met verdeling bedoelen we: welke waarden de variabele aanneemt en hoe vaak deze waarden worden aangenomen. We kijken we eerst naar de univariate verdeling door de variabelen één per één te bekijken. We gebruiken hiervoor verschillende technieken: tabellen, samenvattende maten en figuren. De keuze van techniek hangt deels af van het type van variabele. Tijdens het analyseren van de data heb je redelijk wat vrijheid: - Welke figuren maak je aan? - Bereken je het gemiddelde, de mediaan of beiden? - Welke variabelen analyseer je in detail en welke meer oppervlakkig?

Deze vragen hebben niet altijd een eenduidig antwoord zodat meerdere keuzes vaak gerechtvaardigd zijn.

We splitsen we de analyses op volgens de drie types van variabelen. We starten met de controlevariabelen omdat deze variabelen vrij eenvoudig zijn (ze kunnen maar twee waarden aannemen).

2.3.2.1 Controlevariabelen

Frequenties en odds

We starten met de variabele geslacht. Deze neemt twee waarden aan in de steekproef: jongen of meisje. Op een totaal van 112 153 scholieren (de steekproefgrootte \(n\)) zijn er 53 273 jongens en 58 880 meisjes. Dit worden de absolute frequenties genoemd. We kunnen ook de relatieve frequenties berekenen door de absolute frequenties te delen door de steekproefgrootte: de steekproef bestaat uit 47.5% jongens en 52.5% meisjes. We hebben deze relatieve frequenties uitgedrukt in percentages, maar je kan deze ook in proporties uitdrukken door te delen door 100. We kunnen deze gegevens in een tabel weergeven zoals in Tabel 2.1. Deze tabel geeft de verdeling weer van de variabele geslacht in de steekproef: ze geeft aan welke waarden worden aangenomen en hoe vaak die waarden worden aangenomen. Tabellen met enkel absolute frequenties, met enkel relatieve frequenties of met beide frequenties (zoals in Tabel 2.1) worden allemaal verdelingen genoemd.

Naast de absolute en relatieve frequenties, zal men soms ook odds (ook wel frequentieverhoudingen genoemd) berekenen. Waar de relatieve frequentie meisjes gelijk is aan de verhouding van het aantal meisjes ten opzichte van het totaal aantal scholieren, is de odds voor de meisjes gelijk aan de verhouding van het aantal meisjes ten opzichte van het aantal andere scholieren (jongens in dit geval). De odds is bijgevolg gelijk aan 58 880/53 273 = 1.1. De odds geeft aan dat het aantal meisjes in de steekproef 10% hoger is dan het aantal jongens. De odds kunnen we ook nog als volgt interpreteren: per 10 jongens zijn er 11 meisjes.

Tabel 2.1: Verdeling van de variabele geslacht in de steekproef op basis van de absoute en relatieve frequenties.
absolute frequentie relatieve frequentie
jongen 53 273 47.5
meisje 58 880 52.5
totaal 112 153 100
Staafdiagram

We kunnen de verdeling ook visualiseren via een staafdiagram - zie Figuur 2.1. Voor elke waarde van de variabele tekenen we een staaf en de hoogte is gelijk aan de absolute of relatieve frequentie. De variabele geslacht is een voorbeeld van een categorische variabele: de waarden van de variabelen geven categorieën weer. Dit is verschillend van numerieke variabelen (zoals de score op het mentaal welzijn wat we verder zullen zien) waar de waarden getallen zijn. Geslacht is ook een voorbeeld van een discrete variabele omdat ze maar een beperkt aantal waarden kan aannemen. Er bestaan ook numerieke variabelen die veel verschillende waarden kunnen aannemen (bijvoorbeeld de score op mentaal welzijn) en dit worden continue variabelen genoemd. In de praktijk is de grens tussen discrete en continue variabelen niet altijd duidelijk. De opdeling is voornamelijk belangrijk om te beslissen welke analysetechnieken gepast zijn. Zelf wanneer de opdeling discreet/continu niet duidelijk is, zal het vaak wel duidelijk zijn hoe we de variabele kunnen analyseren.

De variabele geslacht wordt ook een binaire variabele genoemd omdat ze maar twee waarden kan aannemen. In de vragenlijst die de scholieren konden invullen, kon men bij geslacht enkel kiezen tussen ‘meisje’ en ‘jongen’, wat resulteert in een binaire variabele. Gelet op de toenemende aandacht voor genderidentiteit, kan deze variabele opgevat worden als een variabele met meer dan twee waarden waarbij je de participanten de mogelijkheid geeft om de optie te kiezen die bij hen past. Eenmaal de data verzameld zijn, is het niet meer mogelijk om die informatie te bekomen. Wij werken dan ook verder met de binaire opdeling in de steekproef.

Staafdiagram van de variabele geslacht in de steekproef op basis van de relatieve frequenties uitgedrukt als percentages. Het staafdiagram visualiseert de verdeling van de variabele.

Figuur 2.1: Staafdiagram van de variabele geslacht in de steekproef op basis van de relatieve frequenties uitgedrukt als percentages. Het staafdiagram visualiseert de verdeling van de variabele.

We kunnen nu gelijkaardige tabellen opstellen voor de andere binaire variabelen in de dataset: etniciteit en regio - zie Tabellen 2.2 en 2.3.

Tabel 2.2: Verdeling van de variabele etniciteit.
absolute frequentie relatieve frequentie
andere 25 958 23.1
blank 86 195 76.9
totaal 112 153 100
Tabel 2.3: Verdeling van de variabele regio.
absolute frequentie relatieve frequentie
gedepriveerd 48 336 43.1
niet gedepriveerd 63 817 56.9
totaal 112 153 100
  • Verdeling. De verdeling van een variabele geeft weer welke waarden de variabele kan aannemen en hoe vaak elke waarde wordt aangenomen. Dit kan uitgedrukt worden in absolute of relatieve frequenties.

  • Univariate verdeling. De verdeling van één variabele.

  • Numerieke variabele. Een numerieke variabele heeft getallen als waarden.

  • Categorisch variabele. Een categorische variabele heeft categorieën als waarden.

  • Discrete variabele. Een variabele beschouwen we als discreet als ze een beperkt aantal verschillende waarden kan aannemen. Deze kan zowel numeriek als categorisch zijn.

  • Binaire variabele. Een variabele die slechts twee waarden aanneemt. Dit is een bijzonder geval van een discrete variabele.

  • Continue variabele. Een numerieke variabelen beschouwen we als continu als ze vrij veel verschillende waarden kan aannemen. Er is geen wiskundige regel die zeg wat veel of niet veel is - dit hangt af van de context en de analyses die je wenst uit te voeren.

  • Absolute frequentie van een waarde: aantal keer dat een waarde van een variabele voorkomt in de steekproef.

  • Relatieve frequentie van een waarde: absolute frequentie gedeeld door de steekproefgrootte.

  • Odds (frequentieverhouding) van een waarde: aantal keer dat een waarde van een variabele voorkomt gedeeld door het aantal keer dat deze waarde niet voorkomt.

  • Staafdiagram. Visualisatie van de verdeling van een variabele waar per waarde van de variabele een staaf wordt getekend waarbij de hoogte gelijk is aan de absolute of relatieve frequentie van die waarde in de steekproef. De breedtes van de staven zijn gelijk.

Bovenstaande technieken en begrippen stellen ons in staat om te leren uit data. Tabellen 2.1-2.3 geven ons volgende inzichten:

  • Er hebben iets meer meisjes deelgenomen aan het onderzoek.

  • Ongeveer driekwart van de scholieren identificeert zich als blank.

  • Meer dan de helft van de scholieren woont niet in een gedepriveerde regio, maar ook een aanzienlijk deel woont wel in een gedepriveerde regio.

2.3.2.2 Verklarende variabelen

De univariate analyses van de controlevariabelen geven ons al een beeld van de scholieren in de steekproef. In een volgende stap kijken we naar de verdeling van de verklarende variabelen. We beperken ons tot het smartphonegebruik tijdens de week en het weekend. Via zelfrapportage konden scholieren aangeven hoeveel tijd ze gemiddeld dagelijks spenderen op hun smartphone. Ze konden hierbij kiezen uit 9 waarden: 0, 0.5, 1, 2, 3, 4, 5, 6, of minstens 7 uur . Dit is een voorbeeld van een variabele die we zowel discreet als continu kunnen opvatten. Het is ook een voorbeeld van een numerieke variabele.

Geef aan of de variabele discreet of continu is.

  • Smartphonegebruik met waarden: minder dan een uur, meer dan een uur maar minder dan drie uur, drie uur of meer.
  • Smartphonegebruik uitgedrukt in minuten.

Omdat smartphonegebruik een relatief beperkt aantal waarden kan aannemen, is het staafdiagram een gepaste figuur om de verdeling te visualiseren (we komen hier ook later op terug als we het histogram introduceren). Figuur 2.2 geeft deze weer. We merken dat het smartphonegebruik sterk varieert in de steekproef en we zien ook een toename in het weekend.

Een staafdiagram zal op de horizontale as alle waarden uitzetten die de variabele aanneemt en op gelijke afstand staven tekenen van gelijke breedte. We moeten hierdoor wat voorzichtig zijn met de visuele interpretatie van de figuur want de waarden van de variabele smartphonegebruik zijn niet equidistant: eerst worden er twee sprongen gemaakt van een half uur om nadien sprongen te maken van een uur, terwijl de laatste waarde 7 uur of meer weergeeft. Deze ongelijke sprongen zien we niet terug op de figuur. Hier kan dit op zich geen kwaad, zolang je dit maar opmerkt bij het bekijken van de figuur. Het is daarom een goede reflex om bij het interpreteren van figuren steeds de assen nauwkeurig te bekijken.

Merk op dat we bij Figuur 2.2 gekozen hebben voor dezelfde verticale as voor beide figuren. Dit laat ons toe makkelijk de figuren te vergelijken om verschillen te zien in de verdeling van het smartphonegebruik in de week en tijdens het weekend.

Staafdiagram van het smartphonegebruik tijdens de week (links) en tijdens het weekend (rechts).Staafdiagram van het smartphonegebruik tijdens de week (links) en tijdens het weekend (rechts).

Figuur 2.2: Staafdiagram van het smartphonegebruik tijdens de week (links) en tijdens het weekend (rechts).

Oefening maken met verschillende y-as wat vergelijking tussen groepen moeilijker maakt.

Centrum- en spreidingsmaten

Het visualiseren van het smartphonegebruik helpt ons om een beeld te krijgen van de verdeling van de variabele. Vaak is het ook handig om enkele samenvattende maten te berekenen die toelaten bepaalde karakteristieken van de verdeling te kwantificeren. We kunnen bijvoorbeeld het steekproefgemiddelde berekenen: we tellen alle waarden op en we delen door het aantal scholieren in de steekproef. Als we door \(x_i\) de waarde voorstellen bij variabele \(X\) voor scholier \(i\) en door \(n\) de steekproefgrootte, dan kunnen we het steekproefgemiddelde van de variabele \(X\), met als symbool \(\bar{x}\), compact schrijven als \[ \bar{x} = \frac{x_1+x_2+\ldots+x_n}{n} =\frac{1}{n} \sum_{i=1}^{n} x_i. \] Naast het steekproefgemiddelde, kunnen we ook de steekproefmediaan \(md_x\) berekenen. Het is de waarde horende bij de scholier in het midden van de rij als we alle scholieren ordenen op basis van hun smartphonegebruik. Tabel 2.4 geeft deze waarden weer. We zien onze besluiten op basis van het staafdiagram bevestigd: zowel het gemiddelde als de mediaan ligt hoger in het weekend dan in de week.

Tabel 2.4: Samenvattende maten voor het smartphonegebruik in de week en tijdens het weekend
gemiddelde mediaan s Q1 Q3 IQR
week 2.9 2 2.3 1 5 4
weekend 3.5 3 2.5 1 6 5

Zowel de mediaan als het gemiddelde worden centrummaten genoemd: ze geven een idee over het centrum van de verdeling. Het centrum kan je op verschillende manieren interpreteren:

  • je kan het zien als de waarde waarvoor afwijkingen links van het centrum even groot zijn als de afwijkingen rechts van het centrum. Dit komt overeen met het gemiddelde. Anders uitgedrukt: het is de waarde \(\bar{x}\) zodat de som van de afwijkingen \(\bar{x} - x_i\) voor \(x_i < \bar{x}\) gelijk is aan de som van de afwijkingen \(x_i - \bar{x}\) voor \(x_i > \bar{x}\).

  • je kan het zien als de locatie zodat de helft van de waarnemingen links ligt en de andere helft rechts. Dit komt overeen met de mediaan.

De mediaan en het gemiddelde zijn dus beiden centrummaten en hebben elk hun eigen interpretatie. Voor het smartphonegebruik zijn ze beiden geschikt, maar we zullen ook voorbeelden tegenkomen waar soms het gemiddelde de voorkeur geniet of soms de mediaan beter geschikt is.

Teken het gemiddelde en mediaan op het staafdiagram om het centrum te visualiseren.

Naast het centrum van de verdeling wensen we ook de spreiding van de verdeling te kwantificeren. Een variabele kan verschillende waarden aannemen en we wensen en idee te krijgen hoe verschillend deze waarden zijn. Spreidingsmaten laten ons toe dit te kwantificeren. Spreidingsmaten hebben ennkele eigenschappen: ze kunnen nooit negatief zijn, ze zijn nul indien er geen spreiding is en ze nemen typisch toe als de spreiding groter wordt.

De eenvoudigste spreidingsmaat is de variatiebreedte die gelijk is aan de grootste min de kleinste waarde. Als er geen spreiding is, dus alle waarden van de variabele in de steekproef zijn gelijk, dan is de variatiebreedte gelijk aan nul. Als er wel spreiding is, dan is de variatiebreedte groter dan nul. De variatiebreedte is een zeer eenvoudige maat, maar wordt in de praktijk nauwelijks gebruikt. De standaarddeviate (ook standaardafwijking genoemd en in het Engels standard deviation) is een maat die wel vaak gebruikt wordt en heeft als symbool \(s_X\) of kortweg \(s\). Ze wordt gegeven door:

\[\begin{equation} s_X = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}. \tag{2.1} \end{equation}\]

Deze complexe uitdrukking wordt pas in detail besproken in Sectie 3.1 en voorlopig leggen we de focus op de interpretatie. Ruwweg kunnen we de standaarddeviatie interpreteren als de gemiddelde afstand tussen een waarde van de variabele en haar steekproefgemiddelde. Als de variabele in de steekproef geen spreiding vertoont, dan zijn alle waarden gelijk aan het gemiddelde en is de gemiddelde afstand tot het gemiddelde nul. Als er geen spreiding is, dan is de standaarddeviatie dus nul. Als de spreiding toeneemt, dan zullen de waarden meer van elkaar verschillen en zullen ze bijgevolg ook meer verschillen ten opzicht van het steekproefgemiddelde. Hierdoor zal de afstand tot het steekproefgemiddelde toenemen waardoor de standaarddeviatie toeneemt. De standaarddeviatie volgt hier dus ook weer de eigenschappen van een spreidingsmaat: ze kan nooit negatief zijn omdat ze verschillen kwadrateert, ze is nul als er geen spreiding is en ze neemt toe als er meer spreiding is.

Uit Tabel 2.4 leren we de spreiding iets groter is tijdens het weekend dan tijdens de week. Het smartphonegebruik verschilt meer tussen de scholieren in het weekend dan in de week.

Twee situaties geven met zelfde gemiddelde en verschillende standaarddevatiatie (klein versus groot). Vb mentaal welzijn gemiddelde is 50. Uitspraak “het mentaal gemiddelde van de jongeren ligt rond 50” is enkel zinvol als de spreiding klein is, want dan liggen de meeste waarden concentreerd rond het gemiddelde. Dit illustreert de nood aan een spreidingsmaat om het gemiddelde te interpreteren.

Een andere maat voor spreiding wordt gegeven door de interkwartielafstand IQR (interquartilerange in het Engels). Om deze maat op te stellen, moeten we eerst twee kwartielen berekenen. Het eerste kwartiel Q1 is de waarde zodat 25% (een kwart) van de waarden kleiner is en 75% van de waarden groter is. Bij het derde kwartiel Q3 is dit net omgekeerde: 75% (driekwart) van de waarden zijn kleiner en 25% van de waarden zijn groter. De interkwartielafstand wordt nu gegeven door het verschil tussen het derde en eerste kwartiel: IQR = Q3 - Q1. Het tweede kwartiel (Q2) komt overeen met de waarde waarvoor twee kwart (de helft) kleiner is. Dit is niets anders dan de mediaan. Het tweede kwartiel en de mediaan zijn dus verschillende benamingen voor dezelfde centrummaat. De interkwartielafstand uit Tabel 2.4 geeft ook aan dat er meer spreiding is in het weekend dan in de week.

  • Centrummaten. Centrummaten kunnen we berekenen voor een variabele uit de steekproef en haar numerieke waarde geeft het centrum van de verdeling weer. Er bestaan verschillende centrummaten afhankelijk van hoe je het centrum definieert. Het gemiddelde en de mediaan zijn de belangrijkste centrummaten.

  • Spreidingsmaten. Spreidingsmaten kwantificeren de spreiding (ook variatie genoemd) van een variabele in de steekproef. Ze nemen de waarde nul aan als er geen spreiding is en nemen toe naarmate er meer spreiding is. Er bestaan verschillende manieren om spreiding te kwantificeren. Wij gebruiken voornamelijk de standaarddeviatie en de interkwartielafstand.

  • Gemiddelde \(\bar{x}\). Centrummaat waarbij \(\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\) voor een variabele \(X\) met waarden \(x_i\), \(i=1,\ldots,n\).

  • Variatiebreedte. Eenvoudige spreidingsmaat de gelijk is aan het verschil tussen het maximale en minimale waarde van een variabele.

  • Standaarddeviatie \(s_X\). Spreidingsmaat waarbij \(s_X = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\) voor een variabele \(X\). Soms nemen we het kwadraat van de standaardeviatie, \(s_X^2\), dit wordt de variantie genoemd.

  • Kwartielen. Als we de elementen in de steekproef ordenen van klein naar groot en ze opdelen in 4 gelijke stukken, dan bekomen we drie kwartielen:

    • het eerste kwartiel (Q1): waarde van de variabele zodat 25% een waarde heeft kleiner dan deze waarde en 75% een waarde heeft groter dan deze waarde.
    • het tweede kwartiel, ook de mediaan genoemd (Q2 of md): waarde van de variabele zodat 50% een waarde heeft kleiner dan deze waarde en 50% een waarde heeft groter dan deze waarde.
    • het derde kwartiel (Q3): waarde van de variabele zodat 75% een waarde heeft kleiner dan deze waarde en 25% een waarde heeft groter dan deze waarde.
  • Interkwartielafstand (IQR): spreidingsmaat die gelijk is aan het derde min het eerste kwartiel.

Figuur 2.2 en Tabel 2.4 laten ons toe inzicht te krijgen in het smartphonegebruik van de scholieren. We sommen enkele inzichten op.

  • Het smartphonegebruik neemt toe in het weekend.

  • De helft van de scholieren gebruikt hun smartphone maximum 2 uur in de week, terwijl dit stijgt naar 3 uur tijdens het weekend.

  • Gemiddeld gebruiken de scholieren hun smartphone 36 minuten langer in het weekend dan in de week.

  • Minstens een kwart van de scholieren gebruik de smartphone minstens 5 uur per dag in de week en 6 uur per dag in het weekend.

  • Een aanzienlijk deel van de scholieren gebruikt de smartphone minstens 7 uur per dag. In het weekend wordt deze groep groter.

  • Het smartphonegebruik tussen scholieren verschilt iets meer in het weekend dan in de week.

  • Staafdiagram aanmaken en samenvattende maten voor het verschil in gebruik in de week en in het weekend (smartphone-week - smarthone_weekend) en deze laten interpreteren.

  • Figuren en samenvattende maten maken voor games, film en computer. Vragen naar interpretatie.

2.3.2.3 Uitkomstvariabele

Histogram

Na het bekijken van de verklarende variabele, staat nu de verdeling van de hoofdvariabele centraal. De variabele mentaal welzijn kan numerieke waarden aannemen tussen 14 en 70 en is een voorbeeld van een continue variabele. Figuur 2.3 visualiseert de variabele via een staafdiagram.

Uit het staafdiagram zien we dat er veel spreiding is en dat een groot deel van de waarnemingen rond de waarde 50 liggen. Niettegenstaande het staafdiagram leerrijk is, is ze vaak niet de beste figuur om de verdeling van een variabele met veel waarden weer te geven (hier valt het nog mee, maar dit komt voornamelijk doordat de steekproef zeer groot is). Vaak zullen we het aantal waarden eerst reduceren door de data te groeperen en vervolgs een (soort van) staafdiagram aan te maken op basis van deze gegroepeerde data. Door de data eerst te groeperen, hebben we minder staven nodig wat de visualisatie vaak ten goede zal komen. Een dergelijke figuur wordt een histogram genoemd en deze wordt weergegeven in Figuur 2.3 rechts. Op deze figuur hebben we ook het gemiddelde gevisualiseerd via een verticale lijn. Uit het histogram leren we dat de verdeling niet symmetrisch oogt: het beeld links van het gemiddelde niet gelijk aan het beeld rechts van gemiddelde. De verdeling lijkt wat op een berg met een minder steile helling links en een vrij steile helling rechts. Een dergelijke verdeling wordt scheef naar links genoemd omdat er een ‘uitloper’ is naar links.

Links: staafdiagram mentaal welzijn. Rechts: histogram mentaal welzijn samen met een verticale ter hoogte van het gemiddelde.Links: staafdiagram mentaal welzijn. Rechts: histogram mentaal welzijn samen met een verticale ter hoogte van het gemiddelde.

Figuur 2.3: Links: staafdiagram mentaal welzijn. Rechts: histogram mentaal welzijn samen met een verticale ter hoogte van het gemiddelde.

Data geven om een histogram en staafdiagram te tekenen en verschillen tussen beide figuren bespreken

  • dataset 1: variabele met bereik 14-70 maar waar geen waarden worden aangenomen tussen 20 en 30. Zal moeilijk zichtbaar zijn in een staafdigram

  • dataset 2: variabele met enkel unieke waarden. Staafdiagram zal niet informatief zijn.

  • dataset 3: mentaal welzijn voor een steekproef van 50 scholieren.

Tabel 2.5 geeft enkele numerieke samenvattingen weer van mentaal welzijn. Het centrum van de verdeling ligt rond 48 en de data vertonen redelijk wat spreiding: het gemiddelde verschil tussen een waarde en het centrum bedraagt ongeveer 10 eenheden.
Tabel 2.5: Samenvattende maten voor mentaal welzijn
gemiddelde mediaan s Q1 Q3 IQR
47.5 48 9.5 42 54 12

Naast het histogram vormt de boxplot een veelgebruikte figuur om data van numerieke continue variabelen te visualiseren. Ze is gebaseerd op drie kwartielen: het eerste kwartiel Q1, het tweede kwartiel (de mediaan) en het derde kwartiel Q3 aangevuld met staarten en eventuele uitschieters (outlier in het Engels).

Figuur 2.4 links geeft een boxplot weer van de score op mentaal welzijn. De onderkant van de rechthoek komt overeen met Q1, de bovenkant met Q3 en de stip in de doos met de mediaan. De stippellijnen worden staarten genoemd lopen tot de kleinste en grootste waarde die geen uitschieter is. Om te bepalen of een waarde een uitschieter is, wordt gebruik gemaakt van een rekenregel. Is de waarde groter dan Q3 + 1.5xIQR of is ze kleiner dan Q1 - 1.5xIQR dan wordt ze een uitschieter genoemd, anders niet.

Als je niet vertrouwd bent met het beeld van een boxplot, kan ze wat vreemd overkomen. Het is een figuur die wat gewenning vraagt. Het is een nuttige figuur omdat ze ons toelaat in een oogopslag een idee te krijgen van de verdeling van de variabele. De rechthoek toont aan waar de de middelste helft van de steekproef zich bevindt, de mediaan toont aan waar het midden zich bevindt, we kunnen uitschieters visueel vastleggen en de figuur laat toe om de vorm van de verdeling te beoordelen:

  • een symmetrische verdeling: de mediaan ligt in het midden van de rechthoek en de staarten zijn ongeveer even lang.
  • een verdeling scheef naar links: de mediaan ligt rechts van het midden van de rechthoek en de staart naar links is langer dan die naar rechts.
  • een verdeling scheef naar rechts: de mediaan ligt links van het midden van de rechthoek en de staart naar links is korter dan die naar rechts. In Sectie 3.2 bespreken we de boxplot in detail.
Boxplot mentaal welzijn.

Figuur 2.4: Boxplot mentaal welzijn.

Oefening aanmaken op geschiktheid van centrummaten en spreidingsmaten (incl. variatiebreedte) voor

  • symmetrische verdeling

  • scheve verdeling

  • verdeling met outliers

  • ordinale variabele

Ook illustreren dat variatiebreedte zeer variabel als we verschillende steekproeven nemen.

  • Symmetrische verdeling. Verdeling waarbij afwijkingen ten opzichte van het centrum een gelijk patroon vertonen voor waarden links en rechts van het centrum. Bij symmetrische verdelingen is de mediaan vaak gelijk aan het gemiddelde, dus beide maten geven een zelfde beeld van het centrum van de verdeling.

  • Scheve verdeling. Als de vorm van de verdeling via een staafdiagram of histogram lijkt op een berg met ongelijke flanken, dan noemen we de verdeling scheef. Als er een uitloper links ligt, dan spreken we over een verdeling ‘scheef naar links’. Indien de verdeling zeer scheef is, zal de mediaan typisch groter zijn dan het gemiddelde. Als de uitloper rechts ligt, spreken we over een verdeling ‘scheef naar rechts’. Indien de verdeling zeer scheef is, zal de mediaan typisch kleiner zijn dan het gemiddelde. Ook via een boxplot kunnen we bepalen of een verdeling scheef is: staarten die niet symmetrisch zijn of een mediaan die niet in het midden van rechthoek ligt, kunnen wijzen op een scheve verdeling.

  • Groeperen van data. Het onderverdelen van de waarden van een variabele in groepen.

  • Histogram. Wanneer een numerieke variabele veel waarden aanneemt, is een staafdiagram niet de ideale figuur. Dit kunnen we verhelpen door de data eerst te groeperen om vervolgens een (soort van) staafdiagram te tekenen. De vorm van het histogram hangt af van de manier waarop de data in groepen zijn opgedeeld.

  • Uitschieters/outliers. Waarden die kleiner zijn dan Q1-1.5xIQR of groter zijn dan Q3+1.5xIQR.

  • Boxplot. Visualisatie op basis van de kwartielen en de minima en maxima die ook toelaat outliers te visualiseren.

Het histogram, de boxplot en de samenvattende maten laten ons toe inzicht te krijgen in het mentaal welzijn.

  • Gemiddeld genomen scoren de scholieren 47.5 op de vragenlijst rond mentaal welzijn.
  • Maar dit gemiddelde is niet representatief voor alle scholieren: de scores vertonen een sterke spreiding rond dit gemiddelde.
  • De afwijkingen van dit gemiddelde zijn niet symmetrisch: de scores van de scholieren die lager dan gemiddeld zijn, zijn meer uitgespreid in vergelijking met de scores die boven het gemiddelde liggen. Dit impliceert dat enkele scholieren veel lager scoren in vergelijking met de andere scholieren, wat we ook terugzien in de outliers op de boxplot. We nemen dus een andere trend waar bij de scores die lager zijn dan gemiddeld in vergelijking met de scores die hoger zijn dan gemiddeld.

2.3.3 Inzicht in de variabelen gezamenlijk

Na de univariate analyses, bespreken we bivariate analyses waar we twee variabelen gezamenlijk bekijken. Dit doen we omdat we een beeld willen krijgen van hun samenhang. Meer specifiek, wensen wij volgende vragen te beantwoorden.

  • Is er een verband tussen de etniciteit en de regio waar een scholier woont?

  • Hoe hangt het smartphonegebruik in de week samen met het gebruik in het weekend?

  • Wat is de samenhang tussen smartphonegebruik en mentaal welzijn?

2.3.3.1 Regio en etniciteit

Kruistabellen

Tabel 2.6 geeft de bivariate verdeling weer voor de binaire variabelen etniciteit en regio. We lezen de tabel als volgt: 16 862 scholieren hebben een andere etniciteit en wonen in een meer achtergestelde regio. Analoog voor de andere cellen. Merk op dat we op basis van de bivariate verdeling steeds de univariate verdeling kunnen opstellen door de rijen en kolommen op te tellen. Inderdaad van alle scholieren met een andere etniciteit wonen er 16 862 in een gedepriveerde regio en 9 096 in een niet-gedepriveerde regio. Er zijn dus in totaal 25 958 scholieren met een andere etniciteit, wat overeenkomt met de waarde uit Tabel 2.2.

Tabel 2.6: Bivariate verdeling voor de variabelen etniciteit en regio.
andere blank
gedepriveerd 16 862 31 474
niet gedepriveerd 9 096 54 721

Tabel 2.7 is een uitbreiding van Tabel 2.6 waar de rij- en kolomtotalen zijn toegevoegd zodat we zowel de bivariate als de univariate verdeling kunnen aflezen op basis van één tabel. Tabellen 2.6 en 2.7 worden ook kruistabellen genoemd omdat we de waarden van de variabelen kruisen met elkaar.

Tabel 2.7: Bivariate verdeling voor de variabelen etniciteit en regio in de steekproef aangevuld met de rij- en kolomtotalen die de univariate verdeling weergeven.
andere blank totaal
gedepriveerd 16 862 31 474 48 336
niet gedepriveerd 9 096 54 721 63 817
totaal 25 958 86 195 112 153

Bij univariate tabellen was het eenduidig hoe we relatieve frequenties konden berekenen: we keken relatief ten opzichte van de totale steekproef. Wiskundig vertaalt zich dat in het delen van de absolute frequentie door de totale steekproefgrootte. Bij een bivariate verdeling hebben we meerdere mogelijkheden omdat we naast de totale steekproefgrootte ook rij- en kolomtotalen hebben. Elk van deze manieren zal resulteren in geldige relatieve frequenties die elk hun eigen interpretatie hebben. We kunnen drie soorten bivariate tabellen opstellen met relatieve frequenties.

  1. Tabel 2.8: we delen door de totale steekproefgrootte. We bekijken de aantallen relatief ten opzichte van het totaal aantal scholieren. We interpreteren dit als volgt: 15% van alle scholieren heeft een andere etniciteit en woont in een gedepriveerde regio. Analoog voor de andere cellen.

  2. Tabel 2.9: we delen door de kolomtotalen. Dit impliceert dat we de scholieren opsplitsen in twee groepen volgens etniciteit en vervolgens de relatieve frequenties berekenen binnen een groep. Van alle scholieren met een andere etniciteit, woont 65% in een gedepriveerde regio. Dit worden ook voorwaardelijke proporties genoemd: het is de proportie scholieren die in een gedepriveerde regio wonen, op voorwaarde dat we enkel scholieren met een andere etniciteit in beschouwing nemen. Merk op dat de kolomtotalen van Tabel 2.9 gelijk zijn aan 100%.

  3. Tabel 2.10: we delen door de rijtotalen. Dit impliceert dat we de scholieren opsplitsen in twee groepen volgens regio. Van alle scholieren die wonen in een gedepriveerde regio heeft 34.9% een andere etniciteit. Dit is ook een voorbeeld van een voorwaardelijke proportie: ze geeft de proportie scholieren weer met een andere etniciteit op voorwaarde dat we enkele scholieren uit gedepriveerde regio’s beschouwen. Merk op dat de rijtotalen van Tabel 2.10 gelijk zijn aan 100%.

Tabel 2.8: Relatieve frequenties ten opzichte van de totale steekproef.
andere blank
gedepriveerd 15.0 28.1
niet gedepriveerd 8.1 48.8
Tabel 2.9: Relatieve frequenties ten opzichte van de kolomtotalen.
andere blank
gedepriveerd 65 36.5
niet gedepriveerd 35 63.5
Tabel 2.10: Relatieve frequenties ten opzichte van de rijtotalen.
andere blank
gedepriveerd 34.9 65.1
niet gedepriveerd 14.3 85.7

Verklaar waarom de kolomtotalen van tabel 2.9 steeds 100 geven. Idem voor tabel 2.10 en de rijtotalen.

Net als bij de univariate verdelingen, kunnen we ook de bivariate verdelingen visualiseren via staafdiagrammen. Figuur 2.5 geeft de visualisatie van Tabellen 2.9 en 2.10.

Links: staafdiagram van regio per etniciteit. Rechts: staafdiagram van etniciteit per regio. Links: staafdiagram van regio per etniciteit. Rechts: staafdiagram van etniciteit per regio.

Figuur 2.5: Links: staafdiagram van regio per etniciteit. Rechts: staafdiagram van etniciteit per regio.

De voorwaardelijke proporties laten ons toe om de samenhang te bestuderen. Indien er geen samenhang is, verwachten we dat de kolommen van Tabel 2.9 ongeveer gelijk zullen zijn. Analoog, verwachten we dat de rijen van Tabel 2.10 gelijk zullen zijn indien er geen samenhang is. Dit stelt ons in staat om verschillende maten voor samenhang op te stellen.

Dit is hier niet het geval. Uit de eerste rij van Tabel 2.9 leren we dat scholieren van een andere etniciteit vaker in een gedepriveerde regio wonen in vergelijking met scholieren met blanke etniciteit. Op basis van de tweede rij kunnen we hetzelfde besluiten: scholieren van een andere etniciteit wonen minder vaak in een niet-gedepriveerde regio in vergelijking met scholieren met blanke etniciteit.

Ook deze tabel geeft aan dat er een samenhang is: scholieren die wonen in een gedepriveerde regio zijn

Deze samenhang wensen we nu te kwantificeren. Er zijn verschillende mogelijkheden om dit te doen op basis van de relatieve frequenties uit Tabel 2.9.

Associatiematen voor kruistabellen

We illustreren de associatiematen voor Tabel 2.9 waar we de kolommen vergelijken. Je kan de associatiematen ook opstellen op basis van Tabel 2.10 door de rijen te vergelijken.

We stellen door \(f_{andere}\) de relatieve frequentie scholieren die in een gedepriveerde regio wonen indien ze een andere etniciteit hebben en \(f_{blank}\) stelt deze relatieve frequentie binnen de groep scholieren met blanke etniciteit.

Het risicoverschil bekomen we door het verschil tussen relatieve frequenties te bekijken: \(f_{andere} - f_{blank} = 0.65 - 0.365 = 0.285\). Het percentage scholieren dat in gedepriveerde regio’s woont, is \(28.5\) procentpunt hoger voor scholieren met een andere etniciteit in vergelijking met scholieren met een blanke etniciteit.

Het relatief risico bekomen we door de verhouding van de relatieve frequenties te bekijken: \(f_{andere}/f_{blank} = 0.65 /0.365 = 1.8\). Het percentage scholieren dat in gedepriveerde regio’s woont, is \(1.8\) keer groter voor scholieren van een andere etniciteit dan voor scholieren met een blanke etniciteit.

De odds ratio bekomen we door de verhouding van de odds bekijken. De odds bekomen we via de formule \(f/(1-f)\). De odds voor een scholier met andere etniciteit om in een achtergestelde regio te wonen is gelijk aan \(0.65/0.35 = 1.9\), terwijl dit voor een scholier met blanke etniciteit gelijk is aan \(0.365/0.635 = 0.6\). De odds ratio wordt nu gegeven door de verhouding van beide odds: \(1.9/0.6 = 3.2.\) De odds om in een achtergestelde regio te wonen is \(3.2\) keer groter voor scholieren met een andere etniciteit dan scholieren met een blanke etniciteit.

Indien er geen samenhang is tussen beide variabelen, verwachten we dat \(f_{andere}\) en \(f_{blank}\) ongeveer even groot zullen zijn, zodat het risicoverschil rond nul ligt en het relatief risico en de odds ratio rond 1. We concluderen dat er een verband is tussen etniciteit en regio waar scholieren met een andere etniciteit vaker in gedepriveerde regio’s wonen in vergelijking met scholieren met een blanke etniciteit.

  • Risicoverschil berekenen op basis van 2e rij en op basis van kolomtotalen samen met interpretatie. Idem relatief risico en odds ratio.

  • Wanneer is risico verschil te verkiezen boven relatief risico?

  • Odds ratio berekenen wanneer \(f_{andere} = f_{blank}\).

  • Relatief risico op basis van kolommen (ipv rijen) van Tabel 2.9. Is dit zinnig? (is odds ipv associatiemaat).

  • Samenhang tussen enerzijds geslacht en anderzijds etniciteit en regio onderzoeken. Voor aanvang van de analyses moeten studenten eerst denken over het type van samenhang dat ze verwachten en dit trachten te verklaren. Nadien onderzoeken op basis van de data.

  • Bivariate verdeling. De verdeling van twee variabelen gezamenlijk.
  • Kruistabel. Tabel waarbij we de waarden van een variabele kruisen. Een kruistabel laat toe de bivariate verdeling van twee categorische variabelen op te stellen. Op basis van een kruistabel kunnen we verschillende relatieve frequenties berekenen: we kunnen delen door de steekproefgrootte, de kolomtotalen of de rijtotalen.

  • Risico verschil. Verschil tussen relatieve frequenties.

  • Relatief risico. Verhouding van twee relatieve frequenties.

  • Odds ratio. Verhouding van twee odds.

Uit de tabellen en maten van samenhang kunnen we besluiten dat er een samenhang is tussen etniciteit en regio. Scholieren met een andere etniciteit wonen vaker in een gedepriveerde regio in vergelijking met scholieren met een blanke etniciteit.

2.3.3.2 Smartphonegebruik in de week en tijdens weekend

We bekijken de bivariate verdeling van twee numerieke variabelen: het smartphonegebruik tijdens de week en het smartphonegebruik tijdens het weekend.

Spreidingsdiagram

Als een numerieke variabele veel verschillende waarden aanneemt, dan is een spreidingsdiagram vaak een nuttige figuur om de samenhang tussen beide variabelen te visualiseren. Figuur 2.6 toont dergelijke spreidingsdiagram. In dit geval geeft ze ons niet veel informatie omdat het smartphonegebruik maar een beperkt aantal waarden kan aannemen en de steekproef zeer groot is. Hierdoor stelt één stip meerdere scholieren voor. Omdat alle stippen even groot zijn, missen we belangrijke informatie. We illustreren dit. De stip bij het punt (7,0) rechtsonder is even groot als de stip bij het punt (0,0) linksonder. Er zijn echter slechts 7 scholieren met minstens 7 uur smartphonegebruik tijdens de week en 0 uur in het weekend, terwijl er 8850 scholieren zijn die geen smartphone gebruiken. Niettegenstaande deze aantallen verschillen, worden ze in Figuur 2.6 weergeven door één stip van dezelfde grootte waardoor er dus belangrijke informatie ontbreekt.

Spreidingsdiagram smartphonegebruik tijdens de week en tijdens het weekend.

Figuur 2.6: Spreidingsdiagram smartphonegebruik tijdens de week en tijdens het weekend.

Hoe kan je uit Figuur 2.6 afleiden dat er informatie ontbreekt? Antw: slechts gelijke 81 stippen, terwijl we informatie hebben over meer dan 100000 scholieren.

We kunnen het spreidingsdiagram verbeteren door de grootte van deze groepen in rekening te brengen, waarbij stippen groter worden als ze meer scholieren vertegenwoordigen. Figuur 2.7 doet dit en geeft ons een beter beeld van de samenhang. We zien een sterke positieve samenhang: scholieren die weinig tijd spenderen op hun smartphone tijdens de week spenderen er doorgaans ook weinig tijd op tijdens het weekend, terwijl scholieren die veel tijd spenderen tijdens de week ook de neiging hebben om veel tijd te spenderen tijdens het weekend.

Spreidingsdiagram smartphonegebruik tijdens de week en tijdens het weekend waarbij de grootte van een stip proportioneel is met het aantal scholieren in die groep

Figuur 2.7: Spreidingsdiagram smartphonegebruik tijdens de week en tijdens het weekend waarbij de grootte van een stip proportioneel is met het aantal scholieren in die groep

Associatiemaat voor het spreidingsdiagram

Net zoals bij de kruistabel, wensen we de samenhang te kwantificeren. We kunnen dit doen via de Pearson correlatiecoëfficiënt \(r_{XY}\) voor de variabelen \(X\) (smartphonegebruik tijdens de week) en \(Y\) (smartphonegebruik tijdens het weekend).

In Sectie 3.5 gaan we dieper in op de formule van de correlatiecoëfficiënten en hier bespreken we enkel hoe we ze kunnen gebruiken. De correlatiecoëfficiënt kan waarden aannemen tussen \(-1\) en \(1\), waarbij negatieve waarden wijzen op negatieve samenhang (grotere waarden van de ene variabele hangen samen met kleiner waarden van de andere variabele) en positieve waarden op een positieve samenhang (grotere waarden van de ene variabele hangen samen met grotere waarden van de andere variabele). Indien er geen samenhang is, zal de correlatiecoëfficiënt rond nul liggen, terwijl ze in absolute waarde groter wordt als de samenhang sterker wordt (op voorwaarde dat ze lineair is - we gaan hier dieper op in in Sectie 3.5).

Als we de correlatiecoëfficiënt berekenen bekomen we \(r_{XY} =0.9\) wat wijst op een sterke positieve samenhang. We kunnen de samenhang verder kwantificeren en visualiseren via de regressierechte. Dit is de rechte die het best past bij de puntenwolk. In Sectie 3.5 behandelen we dit in detail en hier beperken we ons tot de visualisatie van die rechte in Figuur 2.8. De rechte bevestigt de positieve samenhang met haar stijgend verloop en ze helpt ons de positieve trend van de puntenwolk beter te identificeren.

Spreidingsdiagram smartphonegebruik tijdens de week en tijdens het weekend met bijhorende regressierechte

Figuur 2.8: Spreidingsdiagram smartphonegebruik tijdens de week en tijdens het weekend met bijhorende regressierechte

  • Samenhang onderzoeken tussen smartphone week en games week. Is een voorbeeld van zwakke samenhang. Verklaar.

  • Samenhang onderzoeken tussen films in de week en in het weekend.Intercept is stuk groter dan 0, verklaar. (meer tijd om in het weekend naar een film te kijken, ook als je in de week niet kijkt.)

  • Spreidingsdiagram. Tweedimensionale figuur waar we de waarden van twee variabelen uitzetten ten opzichte van elkaar. Ze laat toe de verdeling van twee numerieke variabelen te visualiseren. Indien er veel elementen dezelfde waarden hebben, kan je er voor kiezen om de grootte van de punten evenredig te maken aan het aantal herhalingen.

  • Correlatiecoëfficiënt. Maat voor lineaire samenhang tussen twee numerieke variabelen die waarden tussen \(-1\) en \(1\) aanneemt. Indien er geen samenhang is, zal de waarde rond nul liggen en bij een toenemende lineaire samenhang zal de waarde verder afwijken van nul (dichter naar \(-1\) bij een negatieve samenhang en dichter naar \(1\) bij een positieve samenhang).

  • Regressierechte. De beste passende rechte voor de puntenwolk.

We zien een sterke positieve samenhang tussen smartphonegebruik in de week en in het weekend. We zien dit zowel visueel als numeriek.

2.3.3.3 Smartphonegebruik en mentaal welzijn

We richten ons nu tot de hoofdvraag uit het onderzoek: wat is de samenhang tussen digitaal schermgebruik en mentaal welzijn? Wij beperken ons tot het smartphonegebruik tijdens de week.

Figuur 2.9 links geeft het spreidingsdiagram en de regressierechte weer. De grootte van een stip is proportioneel met het aantal scholieren dat ze voorstelt. We zien een lichte negatieve trend: toenemend smartphonegebruik hangt samen met een lichte afname van het mentaal welzijn. De correlatiecoëfficiënt is gelijk aan \(r_{XY} = -0.17\), wat opnieuw wijst op een lichte negatieve samenhang.

Als alternatief voor het spreidingsdiagram, kunnen we ook een boxplot tekenen per aantal uur smartphonegebruik. Figuur 2.9 rechts geeft dit weer. Op basis van deze figuur leren we het volgende:

  • Als we kijken naar de mediaan (de stip in de doos) dan zien we dat deze licht stijgt van 0 naar 0.5 uur en vanaf 2 uur lichtjes begint te dalen.

  • Voor elke hoeveelheid smartphonegebruik zien we veel variabiliteit:

    • de interkwartielafstand (de lengte van de rechthoek) is rond de 10 eenheden groot,
    • de staarten van de boxplots zijn ‘lang’.
  • Er zijn uitschieters aanwezig bij de lage scores: er zijn scholieren die een uitzonderlijke lage score rapporteren voor mentaal welzijn in vergelijking met de medescholieren met eenzelfde smartphonegebruik.

Links: spreidingsdiagram mentaal welzijn en smartphonegebruik. Rechts: boxplot mentaal welzijn volgens smartphonegebruik.Links: spreidingsdiagram mentaal welzijn en smartphonegebruik. Rechts: boxplot mentaal welzijn volgens smartphonegebruik.

Figuur 2.9: Links: spreidingsdiagram mentaal welzijn en smartphonegebruik. Rechts: boxplot mentaal welzijn volgens smartphonegebruik.

Vergelijk de linker- en rechterfiguur in Figuur 2.9. (links: regressierechte geeft idee van het gemiddelde per groep, we krijgen ook een idee van de spreiding en het aantal scholieren per groep. Boxplot geeft geen informatie over dit aantal, maar toont mediaan en kwartielen en laat toe om een licht niet-lineair verband waar te nemen. )

Ter aanvulling van de boxplots, geeft Tabel 2.11 de gemiddelden en standaardafwijkingen weer. We leiden af dat de hoogste gemiddelde score voorkomt bij de groep die een half uur per dag tijd spendeert op de smartphone. Nadien daalt de gemiddelde score, maar deze daling is beperkt te noemen als je ze vergelijkt met de hoeveel spreiding er is binnen een groep. Het verschil tussen de laagste gemiddelde score (44.7) en de hoogte gemiddelde score (49.5) is een stuk kleiner dan de standaardafwijkingen. Dit hadden we ook al afgeleid uit Figuur 2.9: de medianen vertonen een dalend patroon vanaf 1 uur gebruik, maar de daling is beperkt te noemen als we ze vergelijken ten opzichte van de hoogte van de rechthoeken en de lengte van de staarten.

Tabel 2.11: Gemiddelde en standaarafwijking van het mentaal welzijn volgens smartphonegebruik
smartphonegebruik gemiddelde standaardafwijking
0 48.6 9.6
0.5 49.5 8.9
1 49.1 8.9
2 48.4 8.9
3 47.4 9.3
4 46.7 9.3
5 45.9 9.5
6 45.3 9.6
7 44.7 10.4

Op basis Figuur 2.9, de correlatiecoëfficiënt en Tabel 2.11 kunnen we volgende besluiten formuleren.

  • We nemen een patroon waar in lijn met de ‘Goudlokje-hypothese’: een beperkt gebruik van de smartphone in de week hangt samen met een hogere gemiddelde score op mentaal welzijn, terwijl een toename in het gebruik samenhangt met een afname.

  • Het gemiddelde mentaal welzijn is het hoogst in de groep dat de smartphone een half uur per dag gebruikt.

  • De toe- en afname volgens smartphonegebruik zijn echter beperkt te noemen: ze verklaren slechts een klein deel van de verschillen in mentaal welzijn gelet dat het mentaal welzijn binnen een groep scholieren met hetzelfde smartphonegebruik nog sterk kan variëren.

Twee figuren geven met gemiddeld mentaal welzijn volgens smartphonegebruik. Eerste figuur zoomt sterk in op y-as waardoor effect als groot overkomt. Tweede figuur zoom uit om effect in perspectief te plaatsen. Welke figuur is het meest geschikt en waarom?

We hebben nu al verschillende inzichten verkregen in de samenhang tussen smartphonegebruik en mentaal welzijn. Het is belangrijk om ook te weten wat we niet kunnen besluiten. We kunnen niet besluiten dat elke scholier het best gebaat is met een half uur smartphonegebruik per dag. Waarom kunnen we dit niet besluiten? Er zijn twee redenen.

  • Een half uur gebruik komt overeen met de hoogste score gemiddeld gezien. Dit wil niet zeggen dat dit voor alle scholieren opgaat. Voor sommigen zal een half uur overeenkomen met hun hoogste score, terwijl dit voor anderen niet zo zal zijn. Het is niet omdat iets gemiddeld opgaat, dat dit opgaat voor iedereen en dit is zeker zo als er veel spreiding is.

  • Als je zegt dat een half uur gebruik het beste is voor het mentaal welzijn, geef je een causale interpretatie aan de resultaten. Je zegt dat de gemiddelde maximale score op mentaal welzijn veroorzaakt wordt door een half uur smartphonegebruik. Niettegenstaande causale uitdrukkingen zeer informatief zijn, kunnen we ze voor de huidige studie niet rechtvaardigen. We gaan hier in de volgende paragraaf dieper op in.

2.3.4 Correlatie en causatie

Als onderzoekers wensen we graag causale conclusies te formuleren. Het is zeer waardevol als we weten dat wijzigingen in de ene variabele - denk aan mentaal welzijn - veroorzaakt worden door wijzigingen in een andere variabele - denk aan smartphonegebruik.

Helaas lenen niet alle studies zich tot dergelijke uitspraken. In het bijzonder zal het moeilijk zijn om een causale uitspraak te formuleren op basis van data afkomstig uit observationeel onderzoek zoals de huidige studie. Gelukkig zijn er wel anderen manieren om causale besluiten te trekken - maar deze doen vaak beroep op data afkomstig uit experimenteel onderzoek.

Hoe komt het nu dat data van het ene type van onderzoek niet toelaten om causale inzichten te hebben, terwijl data van andere types van onderzoek dit wel toelaten? Om dit beter te begrijpen, moeten we eerst duidelijker omschrijven wat we precies bedoelen met een causaal verband. We zullen daarbij de vraagstelling wat vereenvoudigen: we willen weten of geen smartphonegebruik na een week zal resulteren in een hogere gemiddelde score op mentaal welzijn in vergelijking met wanneer we dagelijks 5 uur met de smartphone bezig zijn.

Hoe kunnen we dit nu nagaan? Veronderstel dat je volgende week een volledige week je smartphone niet gebruikt en op het einde van de week rapporteer je je mentaal welzijn. De week nadien herhaal je dit, maar gebruik je de smartphone dagelijks 5 uur. Stel dat het mentaal welzijn inderdaad lager is na week 2 in vergelijking met week 1. Kunnen we nu besluiten dat het dagelijks smartphonegebruik van 5 uur de oorzaak was van je verlaagd mentaal welzijn? Neen, dit kunnen we niet met zekerheid besluiten want het kan zijn dat beide weken niet vergelijkbaar waren met elkaar. Misschien had je gewoon een betere week de eerste week, misschien was het weer beter, misschien had je iets leuk gedaan met vrienden, misschien waren er andere onbewuste oorzaken die het verschil kunnen verklaren. Het is mogelijk dat smartphonegebruik de oorzaak was, maar we kunnen het niet met zekerheid zeggen omdat we andere oorzaken niet kunnen uitsluiten.

Om met zekerheid te weten te komen dat het smartphonegebruik de oorzaak is, moeten we alle andere oorzaken kunnen uitsluiten. Dit kunnen we realiseren als het smartphonegebruik het enigste verschil is bij de start van de week. Alle veranderingen die we dan later op het einde van de week waarnemen moeten dan wel veroorzaakt zijn geweest door het smartphonegebruik. Conceptueel gezien moeten we dus op hetzelfde moment de smartphone een week niet gebruiken als ze een week dagelijks 5 uur gebruiken. Dit wordt contrafeitelijk (counterfactual in het Engels) redeneren genoemd en we kunnen het als volgt inbeelden. In het begin van de week wordt je realiteit opgesplitst in twee werelden: in de ene wereld gebruik je je smartphone niet en in de andere wereld gebruik je ze dagelijks 5 uur. Op het einde van de week komen beide werelden weer samen en vergelijk je de scores op mentaal welzijn. Als we nu een wijziging in mentaal welzijn zien, moet ze veroorzaakt geweest zijn door het smartphonegebruik want het was het enigste wat bij aanvang verschillend was tussen beide werelden zodat we andere oorzaken kunnen uitsluiten.

Het is duidelijk dat we voorgaand gedachtenexperiment in de praktijk niet kunnen uitvoeren. Wil dit dan zeggen dat we nooit causale besluiten kunnen trekken? Neen, gelukkig niet. De essentie is de volgende: als je wil weten of het smartphonegebruik de oorzaak is, dan moet je twee groepen vergelijken die bij aanvang van de studie gelijk zijn in alle karakteristieken die kunnen samenhangen met mentaal welzijn. Als je nadien verschillen waarneemt tussen beide groepen, dan weet je dat je deze verschillen kan toeschrijven aan het smartphonegebruik.

Hoe kan je er nu voor zorgen dat groepen vergelijkbaar zijn bij de start van de studie? Het antwoord hierop is randomisatie. We splitsen een groep scholieren willekeurig op waarbij de ene groep geen smartphone mag gebruiken en de andere groep dagelijks 5 uur met de smartphone moet bezig zijn. Omdat we de groepen willekeurig (at random) hebben aangemaakt, heeft elke scholier een gelijke kans om tot een van beide groepen te behoren. Dit impliceert dat we geen systematische verschillen verwachten tussen beide groepen bij aanvang van de studie en dat, als we systematische verschillen waarnemen op het eind van de studie, ze veroorzaakt moeten geweest zijn door het smartphonegebruik. Dit is een voorbeeld van een experimentele studie omdat je als onderzoeker zelf een interventie zal opzetten: de participanten moeten je instructies opvolgen met betrekking tot hun smartphonegebruik en jij verdeelt de participanten onder in groepen.

Dit legt ook het pijnpunt bloot van observationele studies: we observeren zonder te interveniëren. We observeren twee groepen - een groep zonder smartphonegebruik en een groep dat dagelijks 5 uur spendeert - en we hebben geen enkele garantie dat beide groepen vergelijkbaar zijn met elkaar. Als we bij een observationele studie te weten willen komen of een verband causaal is, dan moeten we de karakteristieken van beide groepen vergelijken. Indien beide groepen vergelijkbaar zijn, dan verhoogt dit de waarschijnlijkheid op een causaal verband.

Hoe kunnen we nu de groepen vergelijken? Hier komen de controlevariabele een rol spelen. Laten we eerst kijken naar de controlevariabele geslacht. We stellen ons de vraag: is de groep scholieren die geen smartphone gebruikt vergelijkbaar, in termen van verhouding jongen-meisje, met de groep scholieren die 5 uur de smartphone gebruikt? Deze informatie kunnen we uit de data halen - zie Tabel 2.12.

Tabel 2.12: Percentage jongens-meisjes per aantal uur smartphonegebruik
0 5
jongen 69.4 33.2
meisje 30.6 66.8

We zien dat de verdeling van de variabele geslacht sterk verschillend is voor beiden groepen. De groep zonder smartphonegebruik bestaat voornamelijk bestaat uit jongens terwijl de groep die 5 uur spendeert op de smartphone voornamelijke uit meisjes bestaat. Beide groepen zijn dus niet vergelijkbaar. Dit hoeft echter niet noodzakelijk een probleem te zijn - de groepen moeten enkel vergelijkbaar zijn voor karakteristieken die een samenhang vertonen met mentaal welzijn. We stellen ons de vraag of geslacht samenhangt met mentaal welzijn. Figuur 2.10 geeft ons hier inzicht in. We zien dat meisjes systematisch lager scoren op mentaal welzijn in vergelijking met jongens. Er is dus een samenhang tussen geslacht en mentaal welzijn.

Boxplot mentaal welzijn per geslacht.

Figuur 2.10: Boxplot mentaal welzijn per geslacht.

Laten we nu terugkeren naar de samenhang tussen smartphonegebruik en mentaal welzijn. Het gemiddelde mentaal welzijn voor de groep zonder smartphone is 48.56, terwijl dit voor de groep met 5 uur gebruik gelijk is aan 45.90. Dit verschil kan veroorzaakt worden door het smartphonegebruik, maar we weten nu dat ze ook (deels of volledig) kan veroorzaakt worden door geslacht omdat we ook jongens met meisjes vergelijken en meisjes vaker lager scoren op mentaal welzijn. Beide effecten zitten dus verward (confounded in het Engels) in elkaar en we zeggen dat geslacht een confounder is wanneer we de relatie smartphonegebruik en mentaal welzijn willen onderzoeken.

Gelukkig kunnen we hier iets aan doen: we kunnen het effect van geslacht ‘uitschakelen’ (of ‘controleren’) door jongens met jongens en meisjes met meisjes te vergelijken. Jongens die 0 uur of 5 uur spenderen met de smartphone hebben dezelfde gemiddelde score van 49.5 terwijl dit voor meisjes 46.4 is voor zij die 0 uur spenderen en 44.1 voor zij die 5 uur spenderen. Als we de invloed van geslacht elimineren, zien we dus een ander patroon. Bij de jongens is er geen verschil in gemiddeld mentaal welzijn, terwijl of bij de meisjes wel een verschil is.

Wil dit zeggen dat we nu een causaal verband hebben kunnen waarnemen? Neen - we zijn in staat om de invloed van geslacht te ontwaren van de mogelijke invloed van smartphonegebruik, maar het is mogelijk (en zeer waarschijnlijk) dat andere variabelen optreden als confounder. Indien we deze variabelen gemeten hebben, zoals regio en etniciteit, dan kunnen we ze in rekening brengen, maar als we ze niet gemeten hebben, dan is er weinig wat we kunnen doen.

We illustreren een interpretatie waar we alle controlevariabelen in rekening brengen. We bekijken de groep scholieren die bestaat uit blanke meisjes die wonen in niet-gedepriveerde regio’s en we splitsen deze groep op volgens smartphonegebruik. Voor de scholieren die geen smartphone gebruik is het gemiddeld mentaal wezlijn 48, terwijl dit voor de andere groep 45 is. We zien dus opnieuw een daling in gemiddeld mentaal welzijn met toenemend smartphonegebruik.We weten al dat dit verschil niet wordt veroorzaakt door geslacht, regio en etniciteit omdat deze dezelfde zijn voor beide groepen, maar dit wil niet zeggen dat ze niet door andere factoren kan beïnvloed zijn. We kunnen via de controlevariabelen bepaalde oorzaken uitsluiten, maar omdat we maar een beperkt aantal controlevariabelen hebben, kunnen we niet alle mogelijke invloeden uitsluiten.

Figuur 2.11 toot het gemiddeld mentaal welzijn per smartphonegebruik voor de 8 groepen die we kunnen aanmaken op basis van de controlevariabelen. We merken voor alle groepen een daling in gemiddeld mentaal welzijn bij toenemend smartphonegebruik. Bij de meisjes is de daling meer uitgesproken dan bij de jongens, terwijl we geen grote verschillen zien volgens etniciteit of regio.

De daling wordt niet veroorzaakt door geslacht, regio of etnicitiet, omdat we hiervoor controleren, maar ze kan mogelijks veroorzaakt worden door variabelen die we niet gemeten hebben. We hebben dus al een gedetaileerder beeld van de samenhang, maar dit impliceert niet dat we causale besluiten kunnen trekken.

## Warning in mean.default(mentaal_welzijn ~ smartphone_week
## + geslacht + regio + : argument is not numeric or logical:
## returning NA
Gemiddeld mentaal welzijn per smartphonegebruik voor jongens (zwarte lijn), meisjes (rode lijn) uit een gedepriveerde (volle lijn) of niet gedepriveerde (stippellijn) regio.Gemiddeld mentaal welzijn per smartphonegebruik voor jongens (zwarte lijn), meisjes (rode lijn) uit een gedepriveerde (volle lijn) of niet gedepriveerde (stippellijn) regio.

Figuur 2.11: Gemiddeld mentaal welzijn per smartphonegebruik voor jongens (zwarte lijn), meisjes (rode lijn) uit een gedepriveerde (volle lijn) of niet gedepriveerde (stippellijn) regio.

Samengevat moeten we bij observationele studies samenhang voorzichtig interpreteren. Als we een associatie waarnemen hoeft deze niet noodzakelijk causaal te zijn. Door controlevariabelen in rekening te brengen, weten we al dat deze variabelen niet de oorzaak kunnen zijn. Dit geeft aan dat het bevragen van controlevariabelen belangrijk is.

  • Niet elke variabele is een confounder: moet zowel samenhang vertonen met verklarende variabele als uitkomstvariabele.

  • Hoe meer controlevariabelen je in rekening brengt, hoe kleiner de groepen om te vergelijken. Illustereren.

  • Wat valt er je op wanneer je kijkt naar Figuur 2.11? (meisjes scoren systmatisch lager, voor de andere controlevariabelen zijn de verschillen niet zo uitgesproken.)

  • Causaliteit. Een oorzaak-en-gevolg relatie tussen twee variabelen waar wijzigingen in de ene variabele veroorzaakt wordt door wijzigingen in de andere variabele.

  • Randomisatie. Het willekeurig toekennen van subjecten aan groepen of interventies.

  • Confounder. Een variabele die de relatie tussen twee andere variabelen kan verstoren/verwarren. We kunnen pas spreken over een confounder als de variabele met beide andere variabelen een samenhang vertoont.

Wanneer we de samenhang tussen twee of meerdere variabelen onderzoeken, hebben we snel de reflex om te denken in oorzaak en gevolg. Voor observationele onderzoeken is het echter moeilijk om causale besluiten te trekken, dus moeten we voorzichtig zijn in de formulering van de besluiten. In experimentele studies kan men wel causale besluiten trekken, op voorwaarde dat de studie is uitgevoerd volgens de regels van de kunst waarbij men onder andere gebruik maakt van randomisatie om zo de invloed van confounders uit te schakelen.

2.3.5 Van steekproef naar de populatie

Tot dusver lag de focus op de analyse van de data in de steekproef. Dit impliceert dat onze inzichten betrekking hebben op de scholieren waarvoor we data hebben verzameld. Er bestaan echter statistische technieken die ons toelaten om verder te kijken dan de geobserveerde data. Via deze technieken kunnen we op basis van de data uitspraken doen over de populatie. Dit is een zeer krachtig resultaat: ook al hebben we geen data over een groot deel van de populatie, toch kunnen we uitspraken doen die betrekking hebben op de volledige populatie. Deze meer geavanceerde technieken komen aan bod in Hoofdstuk ???.

2.4 Discussie: wat kunnen we besluiten?

We kunnen besluiten dat we een negatieve samenhang vaststellen tussen smartphonegebruik en mentaal welzijn. De sterkte van de samenhang is beperkt te noemen: de verschillen in gemiddeld mentaal welzijn die we kunnen verklaren via smartphonegebruik zijn een stuk kleiner dan de verschillen in mentaal welzijn tussen scholieren met hetzelfde smartphonegebruik. Het smartphonegebruk verklaart dus maar een klein deel van de variabiliteit in mentaal welzijn. We kunnen geen uitsluitsel geven of smartphonegebruik de oorzaak is van een wijziging in mentaal welzijn. Omdat het een observationele studie is, kunnen confounders het verband verstoren. Wanneer we regio, etniciteit en geslacht in rekening brengen, krijgen we een meer genuanceerd beeld van de samenhang. Meisjes scoren systematisch lager op mentaal welzijn en vertoonden een sterkere daling in vergelijking met de jongens. De verschillen volgens etniciteit of regio waren minder uitgesproken.

Naast deze primaire analyse, hebben we ook enkele secundaire analyses uitgevoerd. De meisjes zijn licht oververtegenwoordigd, de grootste groep scholier identificeert zich als blank en woont niet in een gedepriveerde regio, maar een aanzienlijk deel heeft een andere etniciteit en woont in een gedepriveerde regio. Etniciteit en regio vertoonden ook een samenhang: blanke scholieren wonen minder vaak in gedepriveerde regio’s in vergelijking met scholieren met een andere etniciteit. Ook hier kunnen we geen causaal besluit trekken: de observationele studie laat enkel toe deze samenhang te kwantificeren, zonder inzicht te geven in het onderliggend mechanisme. Tot slot merkten we een sterke positieve samenhang tussen smartphonegebruik in de week en tijdens het weekend.

Dit onderzoek geeft ons inzicht in het mentaal welzijn en haar samenhang met smartphonegebruik en komt overeen met hetgeen we verwachten volgens het ‘Goudlokje-hypothese’: de hoogste gemiddelde score op mentaal welzijn wordt waargenomen bij een beperkt gebruik van de smartphone. We kunnen echter de hypothese niet bewijzen omdat de data afkomstig zijn uit een observationele studie en we daardoor niet kunnen besluiten dat smartphonegebruik de oorzaak is van de wijzigingen in mentaal welzijn. Om hier meer inzicht in te krijgen, kan men in vervolgonderzoek opteren om een experimentele studie uit te voeren om zo de empirische cyclus opnieuw te doorlopen.

2.5 Oefeningen

3 Beschrijvende analyse: enkele technieken uitgelicht

In Hoofdstuk 2 hebben we verschillende statistische technieken geïntroduceerd, beknopt conceptueel uitgelegd en toegepast op het onderzoek rond digitaal schermgebruik en mentaal welzijn. Dit laat toe te illustreren waarom we deze technieken nodig hebben. Het is echter ook belangrijk te weten hoe deze technieken ons toelaten inzicht te krijgen in de data. In dit hoofdstuk bespreken we een selectie van technieken uit het voorgande hoofdstuk in detail. We beperken ons niet tot het onderzoek rond mentaal welzijn en smartphonegebruik en doen vaak beroep op eenvoudige datasets om technieken te illustreren.

3.1 Spreidingsmaten

Een variabele kan verschillende waarden aannemen en via spreidingsmaten willen we deze variatie kwantificeren. Er zijn verschillende spreidingsmaten mogelijk en we bespreken hier slechts enkele voorbeelden: gaande van de meest eenvoudige (de variatiebreedte) tot de meest gebruikte (de standaardafwijking). De spreidingsmaten hebben het volgende gemeenschappelijk: ze kijken naar verschillen tussen waarden. Dit is niet verwonderlijk, want het is net doordat de waarden verschillen van elkaar dat we variatie hebben. Als de data meer variatie vertoont, dan zijn de data meer ‘gespreid’ - vandaar de naam ‘spreidingsmaten’.

Om de maten in detail te bespreken, gebruiken we opnieuw de notatie \(X\) voor de variabele en de kleine letters \(x_1, \ldots, x_n\) voor de waarden die deze variabele aanneemt in een steekproef met \(n\) elementen.

3.1.1 Variatiebreedte

De variatiebreedte \(v_X\) is gelijk aan de grootste waarde min de kleinste waarde. Als de variatiebreedte nul is, wil dit zeggen dat de kleinste waarde gelijk is aan de grootste waarde wat impliceert dat alle waarden gelijk zijn - er is dus geen variatie in de waarden die de variabele aanneemt voor de steekproef.

De variatiebreedte kunnen we interpreteren als het maximale verschil tussen twee waarden in de steekproef. Niettegenstaande haar duidelijke interpretatie en eenvoud, wordt de variatiebreedte zelden gebruikt in de praktijk. Dit komt omdat ze iets te eenvoudig is, waardoor ze soms maar een beperkt beeld van de spreiding weergeeft. We illustreren dit in Figuur 3.1 waar we de staafdiagrammen zien voor de score op 20 op een examen bij twee steekproeven van 5 studenten. Voor beide steekproeven is de minimale score 11 en de maximale score 17 zodat de variatiebreedte gelijk is aan 6. Visueel zien we een verschil in de variatie van de score tussen beide steekproeven, maar dit vertaalt zich niet naar variatiebreedte. De variatiebreedte heeft ook als nadeel dat ze zeer gevoelig is een extreme waarden: indien het minimum of maximum drastisch wijzigt, zal dit een grote impact hebben op de variatiebreedte ook wanneer deze wijziging geen impact heeft op de spreiding van de de meeste observaties.

Staafdiagram voor de score op 20 voor 2 steekproeven van 5 studenten.

Figuur 3.1: Staafdiagram voor de score op 20 voor 2 steekproeven van 5 studenten.

3.1.2 Gemiddelde absolute afwijking

Om de tekortkomingen van de variatiebreedte te overkomen, zullen we naast het minimum en maximum ook andere waarden in rekening brengen. De variatiebreedte zal bijvoorbeeld alle waarden in rekening brengen.

De variatiebreedte wordt vreemd genoeg zelden gebruikt in de praktijk, niettegenstaande het een relatief eenvoudige en duidelijk interpreteerbare spreidingsmaat is. We introduceren ze hier voornamelijk omdat ze ons zal toelaten om de populairste maat, de standaaarddeviatie (die wat complexer is), beter te begrijpen.

Bij de gemiddelde absolute afwijking kijken we ook naar verschillen. In plaats van ons te beperken tot het verschil tussen de grootste en kleinste waarde, zullen we de verschillen van elke waarde ten opzichte van het gemiddelde bekijken:
\[ x_i - \bar{x}. \] Voor elk element in de steekproef bekijken we het verschil van haar waarde ten opzichte van het centrum van de verdeling: \[ x_1 - \bar{x}, \; x_2 - \bar{x}, \; \ldots, \; x_n - \bar{x}. \] Hoe groter deze verschillen, hoe meer spreiding we hebben. We wensen nu graag deze \(n\) verschillen samen te vatten tot 1 getal. Het is verleidelijk om het gemiddelde te nemen van deze verschillen: \[ \frac{(x_1 - \bar{x}) + (x_2 - \bar{x})+ \ldots+(x_n - \bar{x})}{n}. \] Je kan echter eenvoudig aantonen dat dit gemiddelde altijd nul is. Inderdaad, we kunnen voorgaande uitdrukking herschrijven als \[ \frac{(x_1 + x_2 + \ldots + x_n) - n \bar{x}}{n} = \frac{x_1 + x_2 + \ldots + x_n}{n} - \bar{x}= 0. \] Het gemiddelde is steeds nul omdat het steekproefgemiddelde net de waarde is waarvoor de afwijkingen kleiner dan het gemiddelde de afwijkingen groter dan het gemiddelde opheffen (dit was een manier om het centrum van een verdeling vast te leggen). Het probleem dat positieve en negatieve verschillen elkaar opheffen, kunnen we eenvoudig voorkomen door de absolute waarden te nemen van de verschillen: \[ |x_1 - \bar{x}|, \; |x_2 - \bar{x}|, \; \ldots, \; |x_n - \bar{x}|. \] Vervolgens nemen we het gemiddelde van deze waarden om één getal te bekomen: \[ \frac{|x_1 - \bar{x}|+ |x_2 - \bar{x}|+ \ldots + |x_n - \bar{x}|}{n} = \frac{1}{n} \sum_{i=1}^n |x_i - \bar{x}|. \]

Deze spreidingsmaat is de gemiddelde absolute afwijking en heeft als symbool \(ga_X\). Haar waarde interpreteren we als de gemiddelde (absolute) afwijking van de waarden van de variabele ten opzichte van het steekproefgemiddelde. Als de waarden van een variabele dicht rond haar gemiddelde liggen, zal de gemiddelde absolute afwijking klein zijn. Als de waarden van de variabele meer gespreid liggen, zal de gemiddelde absolute afwijking groot zijn.

Als we deze waarde berekenen voor Figuur 3.1 dan bekomen we 2.88 voor het staafdiagram links en 1.84 voor het staafdiagram rechts. De scores voor steekproef 1 vertonen dus gemiddelde gezien meer spreiding ten opzichte van het steekproefgemiddelde in vergelijking met de scores van steekproef 2. Dit is niet verwonderlijk: het gemiddelde voor steekproef 1 bedraagt 14.6 en de waarden liggen niet dicht bij het gemiddelde. Voor steekproef 2 is het gemiddelde 13.8 en de waarden liggen nu als iets meer concentreerd rond dit gemiddelde.

Figuur 3.2 geeft het histogram weer van een variabele in twee steekproeven. Voor welke steekproef zal de gemiddelde absolute afwijking het grootst zijn? Verklaar je antwoord.

Antwoord: voor steekproef 2 is ze het grootst. Bij steekproef 1 liggen de meeste waarden dichter bij het centrum van de verdeling.

Staafdiagram voor de score op 20 voor 2 steekproeven van 5 studenten.

Figuur 3.2: Staafdiagram voor de score op 20 voor 2 steekproeven van 5 studenten.

3.1.3 Standaardafwijking en variantie

De standaardafwijking \(s_X\) is de meest gebruikte spreidingsmaat \[ s_X = \sqrt{\frac{(x_1 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n-1} } = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2}. \] Als we deze uitdrukking vergelijken met de gemiddelde absolute afwijking, dan zien we enkele verschillen:

  • In plaats van absolute waarden, worden de verschillen \(x_i - \bar{x}\) gekwadrateerd. Dit is ook een manier om ervoor te zorgen dat de negatieve en positieve verschillen elkaar niet opheffen, maar heeft als nadeel dat de meeteenheid van de variabele gekwadrateerd wordt (wat moeilijker te interpreteren is). Dit wordt opgelost door de vierkantswortel te nemen om zo een spreidingsmaat te hebben in dezelfde meeteenheid als de variabele. Dit is wat een omslachtige manier dan de absolute waarde te nemen.

  • We delen door \(n-1\) in plaats van door \(n\). Dit heeft een theoretische reden, maar we gaan hier niet dieper op in.

Het lijkt er op dat de standaarddeviatie onnodig complexer is dan de gemiddelde absolute afwijking. Tot op zeker hoogte klopt dit, maar toch zal de standaarddeviatie vaak in de praktijk gebruikt worden omwille van bepaalde theoretische eigenschappen en omdat dit historisch zo gegroeid is. Omwille van de kwadraten en de vierkantswortel is de interpretatie van de standaarddeviatie niet eenvoudig. We zullen hier pragmatisch te werk gaan en ze interpreteren als de gemiddelde absolute afwijking. Dit is technisch gezien niet correct, maar de numerieke waarden van de gemiddelde absolute afwijking en de standaarddeviatie zullen vaak gelijkaardig zijn.

Tot slot hebben we ook een naam voor de gekwadrateerde standaarddeviatie: de variantie, met symbool \(s_X^2\): \[ s_X^2 = \frac{(x_1 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n-1} = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2. \]

We gebruiken vaak de standaarddeviatie in plaats van de variantie omdat de laatste een andere meeteenheid heeft. Als \(X\) bijvoorbeeld de lengte in meter voorstelt, dan stelt \(s_X^2\) de spreiding voor in vierkante meter, wat niet handig is. Toch zal de variantie af en toe gebruikt worden, in het bijzonder wanneer we de spreiding van verschillende groepen willen vergelijken. Dit komt pas later aan bod.

3.2 Boxplot

Een boxplot is een grafische weergave op basis van volgende 5 getallen: het eerste kwartiel, de mediaan, het derde kwartiel en de kleinste en grootste waarde die geen outliers zijn.

Figuur 3.3 kan helpen bij het interpreteren van een boxplot. Het bovenste histogram geeft de scores weer op een leesvaardigheidstoets (op 100) bij 100 studenten. Het histogram geeft ons al een goed beeld van de verdeling, maar ze is ook onderhevig aan de manier waarop de data werden gegroepeerd. De middelste figuur geeft een histogram waarbij de data werden opgedeeld in andere groepen. De vorm van het histogram is dus deels afhankelijk van de wijze waarop de variabele werd gegroepeerd. De onderste figuur is een voorbeeld van een boxplot en in tegenstelling tot het histogram, hoef je de data niet te groeperen. Ze start van de de drie kwartielen (\(Q_1 = 64\), \(Q_2 = 69\), \(Q_3 = 74.25\)), het minimum (\(54\)) en maximum (\(91\)).

De rechthoek start links bij het eerste kwartiel en stopt rechts bij het derde kwartiel en de stip in de rechthoek stelt de mediaan voor. De rechthoek stelt de middelste helft van de observaties voor (want 50% van de observaties liggen tussen het eerste en derde kwartiel).

Vervolgens berekenen we 2 waarden op basis van het eerste en derde kwartiel. De eerste waarde zal bepalen of we uitschieters hebben die ongewoon klein zijn ten opzichte van de andere waarden. Dit zijn de observaties die kleiner zijn dan \(Q_1 - 1.5 \times (Q_3-Q_1)\). We tekenen een stippellijn links van de rechthoek tot de kleinste waarde die geen uitschieter is - dus de kleinste waarde die niet kleiner is dan \(Q_1 - 1.5 \times (Q_3-Q_1)\). Als er waarden zijn die nog kleiner zijn, dit zijn uitschieters, dan visualiseren we ze via stippen. Dit is hier niet het geval gelet dat het minimum gelijk is aan \(54\) en \(Q_1 - 1.5 \times (Q_3-Q_1) = 49\). Analoog kijken we of er uitschieters zijn aan de rechterkant: dit zijn waarden die ongewoon groot zijn ten opzichte van de andere waarden. We tekenen een stippellijn rechts van de rechthoek tot de grootste waarde die niet groter is dan \(Q_3 + 1.5 \times (Q_3-Q_1)\). Indien er waarden zijn die nog groter zijn dan deze grens, uitschieters dus, dan visualiseren we ze via stippen. We zien dat er een uitschieter is: de hoogste score bedraagt \(91\) terwijl \(Q_3 + 1.5 \times (Q_3-Q_1) = 90\). Merk op dat de stippellijn niet loopt tot 90 maar tot de grootst geobserveerde waarde die niet groter is dan 90. Dit is hier 89.

Via een boxplot hebben we dus regels om vast te leggen wat een uitschieter is: het zijn waarden die ver liggen (volgens de \(1.5\times IQR\) regel) van de middelste helft van de observaties (de rechthoek).

Histogrammen en een boxplot voor de scores van 100 studenten. Histogrammen en een boxplot voor de scores van 100 studenten. Histogrammen en een boxplot voor de scores van 100 studenten.

Figuur 3.3: Histogrammen en een boxplot voor de scores van 100 studenten.

Een boxplot laat ons toe om visueel een idee te krijgen over de verdeling van de variabele:

  • het centrum van de verdeling wordt weergegeven door de stip in de rechthoek.
  • de lengte van de rechthoek is gelijk aan de interkwartielafstand en geeft een idee over de spreiding van de verdeling.
  • de helft van de waarnemingen ligt in de rechthoek.
  • ze laat toe te evalueren of de verdeling symmetrisch is. Indien een verdeling symmetrisch is, verwachten we dat de mediaan in het midden van de rechthoek ligt en dat de stippellijnen (ook wel de staarten genoemd) ongeveer even lang zijn.
  • ze visualiseert eventuele uitschieters: dit zijn waarden die ver van de centrale helft van de waarnemingen liggen.

Niettegenstaande de boxplot maar beperkte informatie geeft (ze is gebaseerd op slechts 5 getallen), is ze in de praktijk vaak nuttig (eventueel aangevuld met andere figuren zoals een histogram). In het bijzonder zal een boxplot handig zijn als we de verdeling van groepen wensen te vergelijken. We illusteren dit aan de hand van Figuur 3.4 waar boxplots gegeven worden voor de score op een leesvaardigheidstoets voor twee groepen.

Boxplots voor de scores van twee groepen van 100 studenten.

Figuur 3.4: Boxplots voor de scores van twee groepen van 100 studenten.

Op basis van de figuren komen we tot volgende inzichten:

  • De spreiding van de centrale helft van de observaties is groter in groep 1 in vergelijking met groep 2.
  • De kwartielen voor groep 2 zijn lager dan de kwartielen voor groep 1. De resutlaten van groep 1 zijn dus iets beter dan die van groep 2.
  • De scores in groep 2 komen voor in twee groepen: er zijn enkele studenten die zeer goed scoren, terwijl een groot deel van de studenten wat lager scoren.

Indien de goedscorende studenten uit groep 2 in groep 1 hadden gezeten, zouden hun waarden dan nog steeds als uitschieters worden aanschouwd?

Een boxplot is niet altijd de meest geschikte figuur. Figuur 3.5 geeft een boxplot en een histogram weer van 100 scores. Waarom is een boxplot niet de beste figuur voor deze data?

Boxplots voor de scores van twee groepen van 100 studenten.Boxplots voor de scores van twee groepen van 100 studenten.

Figuur 3.5: Boxplots voor de scores van twee groepen van 100 studenten.

3.3 Gevoeligheid aan uitschieters

Via een boxplot kunnen we de data visueel inspecteren op uitschieters. Uitschieters kunnen soms wijzen op fouten in de data, dus je doet er goed aan om ze nader te inspecteren. Indien datapunten fout zijn (doordat ze verkeerdelijk werden ingegeven bijvoorbeeld, denk aan een negatieve waarde voor de variabele gewicht), dan kan je ze uit de dataset verwijderen. Indien het geen fouten zijn, dan verwijder je de uitschieters niet (het zijn immers geldige datapunten). Het kan echter zijn dat de uitschieters een grote invloed hebben op de centrum- en spreidingsmaten, wat vaak niet wenselijk is. Je doet er dan goed aan om spreidingsmaten te nemen die niet sterk worden beïnvloed door uitschieters.

Het gemiddelde en de standdaardafwijking zijn gevoelig aan uitschieters terwijl de mediaan en de interkwartielafstand hier minder gevoelig aan zijn. Tabel 3.1 illustreert dit: ze geeft de maten weer voor de scores van twee steekproeven van 5 studenten. Merk op dat de scores in beide steekproeven gelijk zijn behalve de laagste score in steekproef 2 (waar het minimum gelijk is aan 2) die een uitschieter is. De mediaan en de interkwartielafstand worden hier niet beïnvloed door de uitschieter, terwijl het gemiddelde en de standaardafwijking wel worden beïnvloed. Vier van de vijf scholieren in steekproef 2 hebben een score die hoger is dan het gemiddelde waardoor dit niet de beste maat is om het centrum van de verdeling te beschrijven. De standaardafwijking is ook zeer groot en ze is niet representatief voor de spreiding van vier van de vijf observaties (waarbij de scores variëren van 14 tot 19).

De mediaan en de interkwartielafstand zijn voor steekproef 2 meer geschikt om het centrum en de spreiding van de verdeling te beschrijven omdat ze niet sterk worden beïnvloed door de uitschieter.

Tabel 3.1: Scores en samenvattende maten voor twee steekproeven van vijf studenten. Enkel de laagste score is verschillend voor beide groepen.
gemiddelde mediaan standaardafwijking IQR
12 14 15 16 19 15 15 3 2
2 14 15 16 19 13 15 7 2

3.4 Scheve en symmetrische verdelingen

Via een boxplot en een histogram kunnen we visueel nagaan of een verdeling (ongeveer) symmetrisch is. Figuur 3.6 illustreert dit: indien we in het midden van de verdeling een verticale lijn trekken, dan is het rechterdeel (ongeveer) gelijk aan het spiegelbeeld van het linkerdeel. Bij een symmetrische verdeling zijn de mediaan en het gemiddelde ongeveer gelijk, wat resulteert in een eenduidig begrip van het centrum van de verdeling. Bij een scheve verdeling naar links is de linkerstaart langer dan de rechterstaart waardoor het gemiddelde typisch kleiner zal zijn dan de mediaan. Figuur 3.6 midden illustreert dit: de uitlopende waarden links (waaronder uitschieters) hebben een grotere impact op het gemiddelde (in vergelijking met de mediaan) waardoor haar waarde lager ligt. Bij een verdeling scheef naar rechts is het beeld omgekeerd: de rechterstaart is langer dan de linkerstaart en het gemiddelde zal hierdoor groter zijn dan de mediaan. Bij scheve verdelingen ligt het centrum niet eenduidig vast, maar vaak zal de mediaan een beter beeld geven van de locatie van de massa van de observaties. We zien ook dat we bij scheve verdelingen vaak uitschieters hebben: in de linkerstaart voor de verdeling scheef naar links en in de rechterstaart voor de verdeling scheef naar rechts.

Boxplots en histogrammen voor een symmetrische verdeling (links), een verdeling scheef naar links (midden) en een verdeling scheef naar rechts (rechts). De zwarte volle lijn geeft het gemidddelde weer en de rode stippellijn de mediaan.Boxplots en histogrammen voor een symmetrische verdeling (links), een verdeling scheef naar links (midden) en een verdeling scheef naar rechts (rechts). De zwarte volle lijn geeft het gemidddelde weer en de rode stippellijn de mediaan.Boxplots en histogrammen voor een symmetrische verdeling (links), een verdeling scheef naar links (midden) en een verdeling scheef naar rechts (rechts). De zwarte volle lijn geeft het gemidddelde weer en de rode stippellijn de mediaan.Boxplots en histogrammen voor een symmetrische verdeling (links), een verdeling scheef naar links (midden) en een verdeling scheef naar rechts (rechts). De zwarte volle lijn geeft het gemidddelde weer en de rode stippellijn de mediaan.Boxplots en histogrammen voor een symmetrische verdeling (links), een verdeling scheef naar links (midden) en een verdeling scheef naar rechts (rechts). De zwarte volle lijn geeft het gemidddelde weer en de rode stippellijn de mediaan.Boxplots en histogrammen voor een symmetrische verdeling (links), een verdeling scheef naar links (midden) en een verdeling scheef naar rechts (rechts). De zwarte volle lijn geeft het gemidddelde weer en de rode stippellijn de mediaan.

Figuur 3.6: Boxplots en histogrammen voor een symmetrische verdeling (links), een verdeling scheef naar links (midden) en een verdeling scheef naar rechts (rechts). De zwarte volle lijn geeft het gemidddelde weer en de rode stippellijn de mediaan.

3.5 Spreidingsdiagram, correlatie en regressie

3.5.1 Spreidingsdiagram

Het spreidingsdiagram laat ons toe de samenhang tussen twee numerieke variabelen te visualiseren. Elk element in de steekproef wordt weergegeven door een stip en de assen laten ons toe om de waarde van beide variabelen af te lezen. Figuur 3.7 illustreert hoe we de scores kunnen aflezen voor een zeer kleine steekproef met 3 elementen: hier 3 studenten waarvoor we de score (op 20) visualiseren op twee testen. De stippellijnen dienen enkel als hulp om de waarden af te lezen en maken geen deel uit van het spreidingsdiagram. De student uiterst links op het diagram, heeft 12 op de eerste test en 13 op de tweede. Als we opschuiven naar rechts, lezen we dat deze student een 14 heeft op de eerste test en 12 op de tweede. De student rechtsboven heeft een 18 voor beide testen.

Illustratie aflezen datapunten van een spreidingsdiagram.

Figuur 3.7: Illustratie aflezen datapunten van een spreidingsdiagram.

3.5.2 Correlatie

De correlatiecoëfficiënt wordt gegeven door

\[ r_{XY} = \frac{1}{n-1} \sum_{i=1}^n \frac{(x_i - \bar{x})(y_i - \bar{y})}{s_X s_Y} \] met \(x_i\) de score op test 1 en \(y_i\) de score op test 2 voor student \(i\). De correlatiecoëfficiënt kunnen we ook uitdrukken via de covariantie: \[\begin{equation} r_{XY} = \frac{cov_{XY}}{s_X s_Y} \quad \text{met} \quad cov_{XY} = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}). \tag{3.1} \end{equation}\] Het is de covariantie die een maat is voor de samenhang tussen beide variabelen. We leggen dit eerst in detail uit en nadien keren we terug naar de correlatiecoëfficiënt. Figuur 3.8 geeft het spreidingsdiagram weer waarbij we ter hoogte van de gemiddelde score op test 1 (\(\bar{x} = 14.7\)) een verticale lijn hebben getrokken en ter hoogte van de gemiddelde score op test 2 (\(\bar{y} = 14.3\)) een horizontale lijn hebben getrokken. Beide lijnen samen delen de figuur op in vier genummerde stukken, kwadranten genoemd.

Spreidingsdiagram met de vier kwadranten.

Figuur 3.8: Spreidingsdiagram met de vier kwadranten.

Vervolgens bekijken we welk teken \((x_i - \bar{x})(y_i - \bar{y})\) aanneemt in elk kwadrant.

  • Kwadrant 1: hier kunnen waarden liggen waarvoor \(x_ i < \bar{x}\) en \(y_i > \bar{y}\) waardoor \((x_i - \bar{x})(y_i- \bar{y})\) negatief is.
  • Kwadrant 2: hier kunnen waarden liggen waarvoor \(x_ i > \bar{x}\) en \(y_i > \bar{y}\) waardoor \((x_i - \bar{x})(y_i- \bar{y})\) positief is.
  • Kwadrant 3: hier kunnen waarden liggen waarvoor \(x_ i > \bar{x}\) en \(y_i < \bar{y}\) waardoor \((x_i - \bar{x})(y_i- \bar{y})\) negatief is.
  • Kwadrant 4: hier kunnen waarden liggen waarvoor \(x_ i < \bar{x}\) en \(y_i < \bar{y}\) waardoor \((x_i - \bar{x})(y_i- \bar{y})\) positief is.

Kwadranten 2 en 4 noemen we de positieve kwadranten, terwijl kwadranten 1 en 3 de negatieve kwadranten zijn.

De covariantie neemt de som over de termen \((x_i - \bar{x})(y_i - \bar{y})\). Hoe meer observaties er liggen in kwadranten 2 en 4, hoe groter deze som wordt (want we tellen positieve waarden op). Hoe meer observaties in kwadranten 1 en 3, hoe kleiner de som wordt (want we tellen negatieve waarden op).

De positie van het punt draagt ook bij tot de waarde van de covariantie. De term \(x_i-\bar{x}\) kan je zien als de basis van een rechthoek en \(y_i - \bar{y}\) als de hoogte van een rechthoek zoals geïllustreerd in Figuur 3.9 voor het punt linksonder. De oppervlakte van de rechthoek is gelijk aan \((x_i-\bar{x})(y_i-\bar{y})\). Punten die verder weg liggen van het centrum \((\bar{x}, \bar{y})\) zullen dus meer doorwegen bij de berekening van de covariantie in vergelijking met punten die dichter bij het centrum liggen. Dit komt doordat hun oppervlakte, en dus de term \((x_i - \bar{x})(y_i - \bar{y})\), groter zal zijn.

Visualisatie van de waarde $(x_i-\bar{x})(y_i-\bar{y})$ voor het punt uiterst links.

Figuur 3.9: Visualisatie van de waarde \((x_i-\bar{x})(y_i-\bar{y})\) voor het punt uiterst links.

Voor de scores van de 3 studenten bekomen we \(cov_{XY} = 8.7\). De waarde is positief omdat de 3 punten in de positieve kwadranten voorkomen.

Punten in kwadranten 2 en 4 wijzen op een positieve samenhang (want grotere waarden voor \(x_i\) hangen samen met grotere waarden voor \(y_i\)) en deze resulteren in een positieve waarde van de covariantie. Punten in kwadranten 1 en 3 wijzen op een negatieve samenhang (want grotere waarden voor \(x_i\) hangen samen met kleinere waarden voor \(y_i\)) en deze resulteren in een negatieve waarde van de covariantie. Indien de punten willekeurige verspreid liggen over de vier kwadranten, kunnen de positieve en negatieve waarden elkaar opheffen waardoor de covariantie rond nul kan liggen. Figuur 3.10 illustreert dit voor drie steekproeven.

Spreidingsdiagram met de vier kwadranten voor drie fictieve steekproeven. De figuren illustreren een positieve samenhang (bovenaan), een negatieve samenhang (midden) en geen samenhang (onderaan).Spreidingsdiagram met de vier kwadranten voor drie fictieve steekproeven. De figuren illustreren een positieve samenhang (bovenaan), een negatieve samenhang (midden) en geen samenhang (onderaan).Spreidingsdiagram met de vier kwadranten voor drie fictieve steekproeven. De figuren illustreren een positieve samenhang (bovenaan), een negatieve samenhang (midden) en geen samenhang (onderaan).

Figuur 3.10: Spreidingsdiagram met de vier kwadranten voor drie fictieve steekproeven. De figuren illustreren een positieve samenhang (bovenaan), een negatieve samenhang (midden) en geen samenhang (onderaan).

De covariantie vormt een maat voor lineaire samenhang. Dit wil zeggen dat ze geschikt is wanneer de puntenwolk een lineair patroon vertoont. We bedoelen hiermee dat de puntenwolk beschreven kan worden door een rechte lijn. Figuur 3.11 toont een spreidingsdiagram waarvoor de puntenwolk geen lineair verband vertoont (er is eerst een daling en dan een stijging). De covariantie bedraagt 0 wat onterecht zou wijzen op geen samenhang (terwijl we visueel duidelijk een patroon zien). Dit komt doordat er punten voorkomen in alle kwadranten waardoor de positieve termen in de covariantie worden opgehoffen door negatieve termen. De covariantie is dus geen geschikte maat voor de samenhang voor een puntenwolk zoals weergegeven in Figuur 3.11. Het is daarom belangrijk om de data steeds te visualiseren voordat je de covariantie interpreteert als een maat voor de samenhang.

Spreidingsdiagram met de vier kwadranten voor een niet-lineair verband. De covariantie is geen goede maat om deze samenhang te kwantificeren.

Figuur 3.11: Spreidingsdiagram met de vier kwadranten voor een niet-lineair verband. De covariantie is geen goede maat om deze samenhang te kwantificeren.

In de praktijk gebruiken we meestal de correlatiecoëfficiënt in plaats van de covariantie. Dit komt doordat de covariantie niet begrensd is: ze kan gelijk welke waarde aannemen. Dit maakt het moeilijk om in te schatten wanneer de waarde van een covariantie groot of klein is - dit hangt immers af van de schaal van de variabelen. We illustreren dit voor de scores van de 3 studenten uit Figuur 3.7: indien we de punten op 20 omzetten naar een score op 100, dan wijzigt de covariantie van 8.7 naar 216.7. De covariantie is dus gewijzigd, terwijl de samenhang dezelfde is gebleven, wat je visueel kan zien in Figuur 3.12. Dit is onwenselijk en daarom zullen we de covariantie delen door de standaarddeviaties om tot een maat van samenhang te komen die onafhankelijk is van de meetschaal. Het delen van de covariantie door de standaarddeviaties geeft de correlatiecoëfficiënt uit formule (3.1).

Het delen door de standaarddeviaties zorgt er ook voor dat de correlatiecoëfficiënt begrensd is: ze ligt steeds tussen \(-1\) en \(1\). Wanneer het verband sterk lineair negatief is, dan neemt de correlatiecoëfficiënt waarden aan in de buurt van \(-1\). Wanneer er geen verband is, neemt ze waarden aan in de buurt van \(0\), terwijl bij een sterk positief lineair verband ze waarden aanneemt in de buurt van \(1\). Bij een perfect lineair verband liggen alle punten op een rechte en neemt de correlatiecoëfficiënt de waarde \(-1\) aan bij een negatief verband en de waarde \(1\) bij een positief verband. In de praktijk komen perfecte lineaire verbanden echter zelden voor waardoor de correlatiecoëfficiënt in absolute waarden typisch kleiner zal zijn dan \(1\).

Links: de scores op 20, rechts: de scores op 100.Links: de scores op 20, rechts: de scores op 100.

Figuur 3.12: Links: de scores op 20, rechts: de scores op 100.

Figuur 3.13 toont enkele spreidingsdiagrammen met verschillende correlaties. Het is niet eenvoudig om de waarde van de correlatiecoëfficiënt in te schatten op basis van het spreidingsdiagram (behalve bij perfecte lineaire verbanden).

Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.Scatterplots en de bijhorende correlatiecoëfficiënten.

Figuur 3.13: Scatterplots en de bijhorende correlatiecoëfficiënten.

Verschillende figuren geven alsook de correlaties en deze aan elkaar laten koppelen.

De meerwaarde van de correlatiecoëfficiënt komt ook naar voor in Figuur 3.14. Beide spreidingsdiagrammen geven dezelfde data weer, maar de assen verschillen. De figuur rechts geeft de indruk dat de samenhang minder sterk in vergelijking met de figuur links. De correlatiecoëfficiënt helpt ons deze fout niet te maken.

Twee spreidingsdiagrammen op basis van dezelfde data.Twee spreidingsdiagrammen op basis van dezelfde data.

Figuur 3.14: Twee spreidingsdiagrammen op basis van dezelfde data.

Tot slot merken we op dat de correlatiecoëfficiënt tussen \(X\) en \(Y\) dezelfde is als die tussen \(Y\) en \(X\), \(r_{XY} = r_{YX}\). De volgorde van de variabelen heeft dus geen invloed op de waarde van de correlatie.

3.5.3 Regressie

De regressierechte stelt de rechte voor die het beste bij de punten past. Dit wil niet zeggen dat de rechte door alle punten gaat, want dit zal vaak niet mogelijk zijn. Figuur 3.15 illustreert dit: we kunnen geen rechte trekken die door elk punt loopt (probeer dit zelf eens), dus kiezen we voor de rechte waarvoor de som van de gekwadrateerde horizontale afstand (de stippellijnen) van elk punt tot de regressierechte minimaal is. Dit noemen we de ‘best passende rechte’ of de ‘kleinste kwadratenrechte’ (omdat ze de rechte is met de kleinste gekwadrateerde horizontale afstand tot de punten).

Spreidingsdiagram met regressierechte met een illustratie van de horizontale afstand van de rechte tot de punten (stippellijnen).

Figuur 3.15: Spreidingsdiagram met regressierechte met een illustratie van de horizontale afstand van de rechte tot de punten (stippellijnen).

Wiskundig noteren we de regressierechte als \(\hat{y}_i = a + b x_i\) met \(x_i\) de waarde van \(X\) voor individu \(i\) en \(\hat{y}_i\) de voorspelde waarde van \(Y\). We gebruiken nieuwe notatie voor de voorspelling, omdat ze kan afwijken van de observatie in de steekproef, i.e. \(y_i\) en \(\hat{y}_i\) kunnen verschillen. De coefficienten \(a\) en \(b\) kunnen we relatief snel berekenen. Er geldt dat \[ b = r_{XY}\frac{s_Y}{s_X} \quad \quad a = \bar{y} - b\bar{x}. \] De coëfficiënt \(a\) wordt het intercept genoemd en \(b\) de richtingscoëfficiënt of helling. Merk op dat, in tegenstelling tot de correlatiecoëfficiënt, de keuze van \(Y\) en \(X\) een invloed heeft op de waarden van \(a\) en \(b\). We kiezen voor \(Y\) de uitkomstvariabele en voor \(X\) de verklarende variabele (ook wel voorspellende variabele of predictor genoemd). Indien het niet eenduidig is uit de context dat er een uitkomst- en verklarende variabele is, kies je zelf welke variabele \(Y\) is en welke \(X\). Na wat rekenwerk bekomen we \(a = 0.7\) en \(b = 0.9\).

Je kan de rechte tekenen door twee waarden van de predictor in te vullen, de bijhorende voorspellingen te berekenen en vervolgens deze punten met een rechte lijn verbinden. Figuur 3.16 illustreert dit voor de waarden 13 en 17 voor test 1 waarvoor de voorspellingen gelijk zijn aan \(0.7 + 0.9 \times 13 = 12.4\) en \(0.7 + 0.9 \times 17 = 16\).

Illustratie van het tekenen van de regressierechte op basis van twee voorspellingen.

Figuur 3.16: Illustratie van het tekenen van de regressierechte op basis van twee voorspellingen.

Tot slot introduceren we het residu. Dit is het verschil tussen de geobserveerde waarde en haar voorspelling: \(e_i = y_{i} - \hat{y}_i\). Een residuendiagram zet deze waarden uit ten opzichte van \(X\), zoals weergegeven in Figuur 3.17. We zullen verder zien wat we kunnen leren uit deze figuur.

Residuenplot met een horizontale rechte door de oorsprong die perfecte predicties weergeeft.

Figuur 3.17: Residuenplot met een horizontale rechte door de oorsprong die perfecte predicties weergeeft.

We bekijken enkele eigenschappen van de regressierechte in detail. We gebruiken hiervoor een nieuwe dataset waar we voor 100 studenten de score hebben op een tussentijdse test (\(X\) op 20) en de score op het eindexamen (\(Y\) op 100). Door beide variabelen te bestuderen wensen we enerzijds inzicht te krijgen in hoe de prestatie op de tussentijdse test samenhangt met de prestatie op het eindexamen en anderzijds trachten we de prestatie op het eindexamen te voorspellen op basis van het resultaat op de tussentijdse test.

Figuur 3.18 toon het spreidingsdiagram en de regressierechte die wordt gegeven door
\[ \hat{y}_i = 17.3 + 3.2 x_i. \] We zien een positieve samenhang: studenten die beter scoren op de tussentijdse test, scoren doorgaans ook beter op het examen. De correlatiecoëfficiënt bevestigt dit \(r_{XY} = 0.74\).

Spreidingsdiagram en de regressierechte.

Figuur 3.18: Spreidingsdiagram en de regressierechte.

We weten reeds dat de voorspellingen van de regressierechte niet noodzakelijk gelijk zullen zijn aan de observaties. Figuur 3.19 visualiseert dit voor de studenten die een \(14\) hebben voor de tussentijdse test: voor deze groep varieert de score op het examen van \(44\) tot \(84\), terwijl de voorspelling van het regressiemodel een score van \(17.3 + 3.2 \times 14 = 62.1\) geeft. Dit komt doordat studenten die dezelfde score op de tussentijdse test hadden, verschillende scores op het examen kunnen behalen. Je kan aantonen dat, indien de regressierechte de trend van de puntenwolk goed beschrijft, de voorspelling van het regressiemodel kan geïnterpreteerd worden als de gemiddelde score op het examen voor alle studenten die een bepaalde score (hier \(14\)) op de tussentijdse test hebben.

De rechthoek toont de scores op het examen voor de studenten met een 14 op de tussentijdse test.

Figuur 3.19: De rechthoek toont de scores op het examen voor de studenten met een 14 op de tussentijdse test.

Nu we een voorspelling kunnen interpreteren als een gemiddelde score, kunnen we de interpretatie van het intercept en de helling bekijken.

  • Intercept. Indien we \(x_i = 0\) invullen, bekomen we \(\hat{y} = a + b\times 0 = a\). Het intercept, hier \(a = 17.3\), geeft de voorspelde gemiddelde score op het examen voor studenten die een 0 hadden op de tussentijdse test. Merk op dat we in de steekproef geen studenten hebben met een 0 op de tussentijdse test, waardoor deze voorspelling een extrapolatie is: we doen een voorspelling voor een waarde die buiten het geobserveerd gebied van de verklarende variabele ligt. Het is mogelijk dat de regressierechte geen goede beschrijving is in dit gebied en doordat we geen observaties hebben om dit na te gaan, trachten we extrapolaties te vermijden. Soms kan het ook zijn dat het intercept geen interpretatie heeft, denk aan een voorbeeld waarbij je het gewicht in kilogram wil voorspellen op basis van de lengte van een persoon in centimeter. Het intercept geeft dan het gemiddeld gewicht voor personen die 0 centimeter groot zijn, wat onzinnig is. In dergelijke gevallen berekenen we het intercept (want we hebben ze nodig om de regressierechte te tekenen en om voorspellingen te maken), maar we interpreteren ze niet.

  • Helling. Om de helling te interpreteren, bekijken we twee groepen studenten. Studenten met een score \(x\) op de tussentijdse test en studenten die 1 punt hoger scoren, een score \(x+1\) dus. Voor de eerste groep geeft de regressierechte een voorspelde score op het examen van \(a + bx\), terwijl dit voor de tweede groep gelijk is aan \(a +b(x+1) = a+bx +b\). Het verschil in beide voorspellingen is gelijk aan \(b\) (en dit geldt voor elke waarde die je kan invullen voor \(x\)). De helling geeft dus het verschil in voorspelde gemiddelde score op het examen indien de score op de tussentijdse test met 1 punt stijgt. Toegepast op het voorbeeld krijgen we \(b = 3.2\): studenten die 1 punt hoger scoren op de tussentijdse test, scoren gemiddeld 3.2 punten hoger op het examen.

  • Oefening extrapolatie: regressierechte voor lengte in functie van leeftijd voor 6-14 jarigen en dan deze rechte gebruiken om lengte te voorspellen van een volwassene. Illustreert dat extrapolatie mis kan zijn, ook indien de rechte past bij de geobserveerde punten.

Als we de regressierechte gebruiken om de samenhang tussen twee variabelen beter te begrijpen, is het belangrijk dat de rechte een goede beschrijving geeft van de puntenwolk. Figuur 3.20 geeft een extreem voorbeeld waar de regressierechte niet geschikt is. Je kan de geschiktheid van de regressierechte visueel inspecteren op het spreidingsdiagram of door gebruik te maken van het residuendiagram. Deze laatste figuur heeft als voordeel dat je sneller afwijkingen zal opmerken. Figuur 3.21 illstreert dit: indien de regressierechte een goede beschrijving vormt, verwacht je dat de residuen geen patroon vertonen. Bij de figuur rechts is de afwijking makkelijker op te merken dan in de figuur links. Figuur 3.22 geeft het residuendiagram voor de scores op de tussentijdse test en het examen van de 100 studenten. We merken geen patroon op, dus we kunnen besluiten dat de regressierechte adequaat de gemiddelde score op het examen voorspelt op basis van de tussentijdse test.

Spreidingsdiagram met regressierechte voor een niet-lineair verband. De regressierechte geeft geen goede beschrijving van de puntenwolk.

Figuur 3.20: Spreidingsdiagram met regressierechte voor een niet-lineair verband. De regressierechte geeft geen goede beschrijving van de puntenwolk.

Links: spreidingsdiagram met regressierechte. Rechts: overeenkomstig residuendiagram.Links: spreidingsdiagram met regressierechte. Rechts: overeenkomstig residuendiagram.

Figuur 3.21: Links: spreidingsdiagram met regressierechte. Rechts: overeenkomstig residuendiagram.

Residuendiagram voor de regressierechte waarbij we de score op het examen voorspellen op absis van de score op de tussentijdse test.

Figuur 3.22: Residuendiagram voor de regressierechte waarbij we de score op het examen voorspellen op absis van de score op de tussentijdse test.

Dankzij de regressierechte kunnen we ook de waarde van de correlatiecoëfficiënt beter begrijpen. In het bijzonder zullen we kijken naar de gekwadrateerde correlatiecoëfficiënt \(r_{XY}^2\). Je kan aantonen dat ze volgende interpretatie heeft: \(r_{XY}^2\) geeft de proportie van de totale variantie in de uitkomstvariabele dat kan verklaard worden door wijzigingen in de voorspelde score op basis van de regressierechte. We bedoelen hiermee het volgende: als we kijken naar de scores op het eindexamen, dan zien we dat ze varieert. De variantie is gelijk aan 197.8. Via het regressiemodel kunnen we deze scores voorspellen en deze voorspellingen zullen ook variëren. Je kan aantonen dat de voorspellingen minder zullen variëren dan de geobserveerde waarden, tenzij de voorspellingen exact samenvallen met de observaties (wat enkel kan bij een perfecte samenhang). De variantie van de voorspellingen is gelijk aan 109.6. Als we de verhouding bekijken tussen beide varianties, bekomen we \(109.6 / 197.8 = 0.55\) wat (op tussenafrondingen na) gelijk is aan de gekwadrateerde correlatiecoëfficiënt \(cor_{XY} = 0.744^2 = 0.55\). We kunnen dus via het regressiemodel \(55\%\) van de variantie in de score op het eindexamen verklaren. Of anders uitgedrukt: de voorspellingen op basis van de score op de tussentijdse test verklaren \(55\%\) van de variantie in de score op het eindexamen. We kunnen geen 100% verklaren (er zijn verschillende factoren die je score op het eindexamen kunnen beïnvloeden), maar we kunnen toch een groot deel van de variantie verklaren aan de hand van de prestatie op de tussentijdse test. Omwille van deze interpretatie, geven we \(r_{XY}^2\) een speciale naam: de determinatiecoëfficiënt.

Figuur 3.23 toont verschillende spreidingsdiagrammen samen met de regressierechte, correlatie- en determinatiecoëfficiënten. We zien dat bij een sterke samenhang, de punten dichter bij de rechte liggen (we kunnen immers meer variantie verklaren via de regressierechte) terwijl bij een minder sterke samenhang, de punten meer verspreid zullen liggen (we kunnen slechts een kleiner deel van de variantie verklaren).

Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.

Figuur 3.23: Scatterplots, regressierechten en de bijhorende correlatie- en determinatiecoëfficiënten.

3.5.4 Uitschieters

Figuur 3.24 links bovenaan toont een spreidingsdiagram waar de laagste score op de tussentijdse test een uitschieter is. De figuur toont de regressierechte op basis van alle punten (volle lijn) en wanneer de uitschieters niet in rekening wordt gebracht (rode stippellijn). Beide rechten verschillen niet sterk omdat het punt de trend van de puntenwolk volgt. Het punt heeft ook een beperkte invloed op de correlatiecoëfficiënt: 0.8 op basis van alle data en 0.82 wanneer we de uitschieter niet in rekening brengen. Bij de figuur in het midden verschillen beide rechten wel sterk omdat het punt de trend van de puntenwolk niet volgt: volgens de puntenwolk verwacht je een lagere score op het examen als je score op de tussentijdse test slechts 2 op 20 is. De regressierechte zal de som van de gekwadrateerde verticale afstanden minimaliseren en omdat dit punt zo ver weg ligt, zal het als het ware de rechte deels naar zich toe trekken. Dit vertaalt zich ook in de correlatiecoëfficiënt: 0.8 op basis van alle data en 0.51 wanneer we de uitschieter niet in rekening brengen. Bij de figuur rechts is er ook een punt dat de trend van de puntenwolk niet volgt bij een score van 11 op 20 voor de tussentijdse test. De impact van deze observatie op de regressierechte is echter beperkt omdat de waarde van de predictor meer centraal ligt. Als de rechte dichter naar dit punt wil komen, zal je horizontaal moeten verschuiven in plaats van te kantelen zoals in de middelste figuur. Als we ze horizontaal verschuiven zal de afstand tot alle andere punten echter groter worden, waardoor ze niet langer de rechte zal zijn met de kleinste gekwadrateerde verticale afstand. De correlatiecoefficient wijzigt ook niet veel 0.8 op basis van alle punten en 0.75 wanneer we de outlier negeren.

De residuendiagrammen onderaan Figuur 3.24 laten ons ook toe om in te schatten of de regressierechte goed bij de puntenwolk past. Voor de residuenplot links en rechts liggen de residuen symmetrisch rond nul, terwijl bij de figuur in het midden meer residuen negatief zijn omdat de rechte de puntenwolk niet goed beschrijft. Bij de figuur rechts vertonen de residuen weer een symmetrisch patroon rond nul.

Het punt in de middelste figuur is een invloedrijke observatie omdat ze een grote impact heeft op de regressierechte, terwijl dit niet het geval is voor de uitschieter in de figuren links en rechts. Vaak is het niet wenselijk dat een enkele observatie een grote impact heeft op de regressierechte. Dit impliceert niet dat we invloedrijke observaties gaan verwijderen uit de dataset. Indien het correcte datapunten zijn, laten we ze in de data, maar het is belangrijk dat we bewust zijn van de invloed van de observatie op de regressierechte (en eventueel voeren we twee analyses uit: een met alle observatie en een zonder de invloedrijke observaties).

Bovenaan: spreidingsdiagrammen met de regressierechte op basis van alle punten (volle lijn) en wanneer de rode observatie (driehoek) wordt verwijderd (rode stippellijn). Onderaan: bijhorende residuendiagrammen op basis van alle datapunten.Bovenaan: spreidingsdiagrammen met de regressierechte op basis van alle punten (volle lijn) en wanneer de rode observatie (driehoek) wordt verwijderd (rode stippellijn). Onderaan: bijhorende residuendiagrammen op basis van alle datapunten.Bovenaan: spreidingsdiagrammen met de regressierechte op basis van alle punten (volle lijn) en wanneer de rode observatie (driehoek) wordt verwijderd (rode stippellijn). Onderaan: bijhorende residuendiagrammen op basis van alle datapunten.Bovenaan: spreidingsdiagrammen met de regressierechte op basis van alle punten (volle lijn) en wanneer de rode observatie (driehoek) wordt verwijderd (rode stippellijn). Onderaan: bijhorende residuendiagrammen op basis van alle datapunten.Bovenaan: spreidingsdiagrammen met de regressierechte op basis van alle punten (volle lijn) en wanneer de rode observatie (driehoek) wordt verwijderd (rode stippellijn). Onderaan: bijhorende residuendiagrammen op basis van alle datapunten.Bovenaan: spreidingsdiagrammen met de regressierechte op basis van alle punten (volle lijn) en wanneer de rode observatie (driehoek) wordt verwijderd (rode stippellijn). Onderaan: bijhorende residuendiagrammen op basis van alle datapunten.

Figuur 3.24: Bovenaan: spreidingsdiagrammen met de regressierechte op basis van alle punten (volle lijn) en wanneer de rode observatie (driehoek) wordt verwijderd (rode stippellijn). Onderaan: bijhorende residuendiagrammen op basis van alle datapunten.

3.6 Correlatie en causatie

In Hoofdstuk 2 hebben we reeds besproken dat we niet zomaar causale besluiten kunnen trekken wanneer we een samenhang waarnemen tussen twee variabelen \(X\) en \(Y\). Soms kan een samenhang ontstaan door een derde variabele, die een confounder wordt genoemd en die we noteren met de letter \(Z\). We spreken over een confounder indien de variabele zowel een samenhang vertoont met \(X\) en een samenhang met \(Y\). Figuur 3.25 visualiseert dit: we zien een samenhang tussen \(X\) en \(Y\), maar we weten niet of ze causaal is gelet dat (een deel van) de samenhang veroorzaakt wordt door \(Z\).

Een schematische weergave van een confounder $Z$ die (deels) de oorzaak kan zijn van de associatie tussen $X$ en $Y$.

Figuur 3.25: Een schematische weergave van een confounder \(Z\) die (deels) de oorzaak kan zijn van de associatie tussen \(X\) en \(Y\).

In Sectie 2.3.4 hebben we reeds gezien dat de samenhang tussen smartphonegebruik en mentaal welzijn deels veroorzaakt wordt door de confounder geslacht. Geslacht vertoon een samenhang met smartphonegebruik (meisjes spenderen meer tijd op de smartphone) en met mentaal welzijn (meisjes rapporteren lagere scores dan jongens). In dit voorbeeld is de confounder een binaire variabele. De confounder kan ook een numerieke variabele zijn. Figuur 3.26 illustreert dit voor het voorbeeld waar we de samenhang tussen de tussentijdse test en de score op het examen onderzoeken. Deze samenhang kan deels verklaard worden door een derde variabele die het gemiddeld aantal uur per week weergeeft dat de student tijdens het jaar heeft gestudeerd voor het vak. Studenten die meer studeren halen doorgaans hogere scores op zowel de tussentijdse test als het examen.

Spreidingsdiagrammen van het gemiddeld aantal uur studeren per week, de score op een tussentijdse test en de score op het examen.Spreidingsdiagrammen van het gemiddeld aantal uur studeren per week, de score op een tussentijdse test en de score op het examen.Spreidingsdiagrammen van het gemiddeld aantal uur studeren per week, de score op een tussentijdse test en de score op het examen.

Figuur 3.26: Spreidingsdiagrammen van het gemiddeld aantal uur studeren per week, de score op een tussentijdse test en de score op het examen.

Confounders kunnen er voor zorgen dat de samenhang wordt omgedraaid. Figuur 3.27 links illustreert dit voor het verband tussen de score op het examen en het gemiddeld aantal uur dat een student gestudeerd heeft per week. We zien een zwakke negatieve trend waar studenten die meer studeren lagere scores behalen. De figuur bevat de scores voor twee vakken en Figuur 3.27 rechts laat ons toe de samenhang per vak te bekijken. We zien per vak een positieve samenhang. Het vak is hier een confounder: ze hangt samen met studietijd (studenten spenderen meer tijd aan vak 1) en met de score (de score van vak 2 ligt hoger). Dit is een voorbeeld van Simpsons’s paradox waar de samenhang van richting wijzigt als we gegeven van verschillende groepen (hier de vakken) combineren.

Links: Spreidingsdiagrammen van het gemiddeld aantal uur studeren per week en de score op het examen. Rechts: spreidingsdiagram met aanduiding van het vak.Links: Spreidingsdiagrammen van het gemiddeld aantal uur studeren per week en de score op het examen. Rechts: spreidingsdiagram met aanduiding van het vak.

Figuur 3.27: Links: Spreidingsdiagrammen van het gemiddeld aantal uur studeren per week en de score op het examen. Rechts: spreidingsdiagram met aanduiding van het vak.

Hoe kan je uit Figuur 3.27 rechts afleiden dat vak een samenhangt vertoont met zowel de studietijd als de score?

3.7 Aan de slag met R

We illustreren een selectie van analyses in R waarbij we in detail de syntax en output leren ‘lezen’.

We starten met het inlezen van de data die beschikbaar op (https://users.ugent.be/~jrdeneve/Datasets/Data_DST_MWB.csv).

Via het commando read.table() geven we R de opdracht om naar de url te gaan, de data te downloaden en op te slaan in een object met de naam Data. Na het uitvoeren van deze syntax kunnen we verder werken met Data die de gegevens van alle scholieren in de steekproef bevat.

Data <- read.table(
  "https://users.ugent.be/~jrdeneve/Datasets/Data_DST_MWB.csv")

We vragen in R het aantal rijen en kolommen op van de dataset. Dit wordt ook de dimensie van de dataset genoemd, wat in R overeenkomt met het commando dim().

dim(Data)
## [1] 112153     12

We krijgen drie getallen terug: het eerste getal [1] kan je negeren, het tweede getal geeft het aantal rijen weer en het derde getal het aantal kolommen. Het aantal rijen komt overeen met het aantal scholieren en het aantal kolommen met het aantal variabelen in de dataset. Dit is de conventionele manier om data weer te geven: elke rij bevat informatie over één element uit de steekproef en de variabelen worden weergegeven in de verschillende kolommen.

Vervolgens bekijken we de namen van de variabelen in de dataset via het commando names().

names(Data)
##  [1] "mentaal_welzijn"    "film_week"         
##  [3] "film_weekend"       "games_week"        
##  [5] "games_weekend"      "computer_week"     
##  [7] "computer_weekend"   "smartphone_week"   
##  [9] "smartphone_weekend" "etniciteit"        
## [11] "regio"              "geslacht"

R geeft ons de namen van de 12 variabelen. De getallen tussen vierkante haakjes kan je opnieuw negeren. De eerst variabele is de uitkomstvariabele, gevolgd door de 8 verklarende variabelen en de 3 controlevariabelen. De benaming van de variabelen kan iets anders zijn in R dan in het handboek. Er komen geen spaties voor en vaak zullen de namen iets korter zijn.

Tot slot kunnen we eens kijken naar een stukje van de dataset via het commando head(). We geven hierbij de opdract aan R om het ‘hoofd’ van de dataset te tonen. Dit wil zeggen: toon de waarden van de eerste 6 rijen.

head(Data)
##   mentaal_welzijn film_week film_weekend games_week
## 1              56       2.0            4        0.5
## 2              57       1.0            4        0.0
## 3              44       1.0            3        0.0
## 4              56       3.0            4        0.0
## 5              54       1.0            2        0.0
## 6              50       0.5            2        0.0
##   games_weekend computer_week computer_weekend
## 1           0.5           0.5                2
## 2           0.0           1.0                2
## 3           0.0           0.5                1
## 4           0.5           1.0                2
## 5           0.0           3.0                1
## 6           0.0           1.0                1
##   smartphone_week smartphone_weekend etniciteit
## 1             0.5                1.0      blank
## 2             1.0                3.0      blank
## 3             0.5                0.5      blank
## 4             1.0                2.0      blank
## 5             1.0                2.0      blank
## 6             0.5                0.5      blank
##               regio geslacht
## 1 niet gedepriveerd   meisje
## 2 niet gedepriveerd   meisje
## 3 niet gedepriveerd   meisje
## 4 niet gedepriveerd   meisje
## 5 niet gedepriveerd   meisje
## 6 niet gedepriveerd   meisje

Voor de eerste zes scholieren in de dataset kunnen we hun waarden voor de 12 variabelen aflezen.

Een sterkte van R is dat ze uitbreidbaar is via het laden van zogenaamde packages. Via het commando install.packages() kan je het pakket downloaden van het web (je moet dit maar één keer doen) en via het commando library() kan je het pakket inladen in R zodat we ze kunnen gebruiken. We doen dit voor het pakket mosaic dat speciaal werd ontworpen om te leren werken met R.

install.packages("mosaic")
library("mosaic")

We zijn nu klaar om enkele analyses uit te voeren op de data. We starten met de univariate verdeling van geslacht. Omdat geslacht binair is, zullen we een frequentietabel opstellen. Dit kunnen we in R doen via het commando tally() (wat staat voor ‘tellen’) waarbij we twee argumenten opgeven: een argument ~ geslacht dat aangeeft dat we de variabele geslacht willen onderzoeken en de naam van de dataset waar R informatie kan vinden over deze variabele.

tally(~ geslacht, data = Data)
## geslacht
## jongen meisje 
##  53273  58880

We lezen het aantal jongens en meisjes af in de steekproef. Verschillende commando’s die we zullen gebruiken, volgen onderstaand patroon:

objectief( ~ x, data = mijndata)

Om een frequentietabel te bekomen, moeten we tellen wat we kunnen doen via het commando ‘tally()’. We wensen dit te doen voor de variabele geslacht, dus wijzigen we ‘x’ hierdoor. Het gebruik van de tilde ‘~’ lijkt wat vreemd, maar ze zal iets verder van pas komen als we wensen analyses te doen voor specifieke groepen.

We kunnen voorgaande syntax eenvoudig aanpassen om de frequentietabel voor regio te bekomen.

tally(~ regio, data = Data)
## regio
##      gedepriveerd niet gedepriveerd 
##             48336             63817

Om bivariate verdelingen te bekomen, moeten we het eerste argument in tally() uitbreiden met de naam van beide variabelen die we wensen te onderzoeken samen met het + teken.

tally( ~ geslacht + regio, data = Data)
##         regio
## geslacht gedepriveerd niet gedepriveerd
##   jongen        22521             30752
##   meisje        25815             33065

We kunnen exact dezelfde tabel bekomen viageslacht ~ regio wat je kan lezen als ‘voor de analyses uit op geslacht opgedeeld volgens regio’.

tally(geslacht ~ regio, data = Data)
##         regio
## geslacht gedepriveerd niet gedepriveerd
##   jongen        22521             30752
##   meisje        25815             33065

Als je de kolom- en rijtotalen wenst, kan je dit meegeven als een extra argument margins.

tally( ~ geslacht + regio, data = Data, margins = TRUE)
##         regio
## geslacht gedepriveerd niet gedepriveerd  Total
##   jongen        22521             30752  53273
##   meisje        25815             33065  58880
##   Total         48336             63817 112153

Merk op dat we een andere tabel krijgen als we geslacht ~ regio als argument nemen.

tally(geslacht ~ regio, data = Data, margins = TRUE)
##         regio
## geslacht gedepriveerd niet gedepriveerd
##   jongen        22521             30752
##   meisje        25815             33065
##   Total         48336             63817

We krijgen enkel de kolomtotalen wat hier overeenkomt met het aantal scholieren per regio. Dit houdt steek, want via geslacht ~ regio geven we aan in R dat we de analyse (hier een frequentietabel) per regio wensen uit te voeren. Als we de volgorde omdraaien naar regio ~ geslacht dan krijgen we als kolomtotalen het aantal jongens en meisjes.

tally(regio ~ geslacht, data = Data, margins = TRUE)
##                    geslacht
## regio               jongen meisje
##   gedepriveerd       22521  25815
##   niet gedepriveerd  30752  33065
##   Total              53273  58880

Het verschil in de argumenten ~ geslacht + regio, geslacht ~ regio, regio ~ geslacht zit voornamelijk in de berekening van de relatieve frequenties. Herinner je dat we in paragraaf 2.3.3.1 drie verschillende mogelijkheden hebben gezien om relatieve frequenties te bereken op basis van een kruistabel. Voor elke van de mogelijkheden gebruiken we het argument format = 'percent'.

De relatieve frequenties op basis van het totaal aantal scholieren bekomen we via

tally( ~ geslacht + regio, data = Data, margins = TRUE, format = 'percent')
##         regio
## geslacht gedepriveerd niet gedepriveerd     Total
##   jongen     20.08060          27.41969  47.50029
##   meisje     23.01766          29.48205  52.49971
##   Total      43.09827          56.90173 100.00000

Als we de relatieve frequenties van geslacht opgedeeld volgens regio wensen te weten, kan dit via

tally(geslacht ~ regio, data = Data, margins = TRUE, format = 'percent')
##         regio
## geslacht gedepriveerd niet gedepriveerd
##   jongen     46.59260          48.18779
##   meisje     53.40740          51.81221
##   Total     100.00000         100.00000

De verdeling van regio opgedeeld via geslacht bekomen we via

tally(regio ~ geslacht, data = Data, margins = TRUE, format = 'percent')
##                    geslacht
## regio                  jongen    meisje
##   gedepriveerd       42.27470  43.84341
##   niet gedepriveerd  57.72530  56.15659
##   Total             100.00000 100.00000

Via de totalen kan je afleiden hoe de relatieve frequenties werden berekend.

Stel de (relatieve en absolute) bivariate verdelingen op voor etniciteit en regio. Maar hierbij gebruik van R en de startcode onderaan.

library("mosaic")
Data <- read.table("https://users.ugent.be/~jrdeneve/Datasets/
Data_DST_MWB.csv")
tally( ~ etniciteit + regio, data = Data, margins = TRUE)
tally( ~ etniciteit + regio, data = Data, margins = TRUE,
 format = 'percent')

Via het commando bargraph() kunnen we een staafdiagram aanmaken.

bargraph(~ geslacht, data = Data)

We gaan nu verder met de variabele die het smartphonegebruik in de week weergeeft: smartphone_week. Om gemiddelde te berekenen, gaan we analoog te werk als bij de frequentietabel, maar we vervangen tally() door mean().

mean(~ smartphone_week, data = Data)
## Warning in mean.default(~smartphone_week, data = Data):
## argument is not numeric or logical: returning NA
## [1] NA

We kunnen dit gemiddelde ook berekenen voor jongens en meisjes afzonderlijk via het argument smartphone_week ~ geslacht.

mean(smartphone_week ~ geslacht, data = Data)
## Warning in mean.default(smartphone_week ~ geslacht, data =
## Data): argument is not numeric or logical: returning NA
## [1] NA

De standaarddeviaties kunnen we bereken via het commando sd(). We kunnen dit doen voor alle scholieren of per geslacht.

sd(~ smartphone_week, data = Data)
## [1] 2.337813
sd(smartphone_week ~ geslacht, data = Data)
##   jongen   meisje 
## 2.176104 2.343141

We kunnen ook gebruik maken van het commando favstats() om onze ‘favoriete statistieken’ op te vragen.

favstats(~ smartphone_week, data = Data)
##  min Q1 median Q3 max     mean       sd      n missing
##    0  1      2  5   7 2.913141 2.337813 112153       0

We krijgen het minimum, de kwartielen, het maximum, het gemiddelde, de standaarddeviatie, het aantal scholieren en het scholieren waarvoor we geen waarnemingen hebben.

We kunnen deze gegevens ook opvragen voor jongens en meisjes afzonderlijk.

favstats(smartphone_week ~ geslacht, data = Data)
##   geslacht min  Q1 median Q3 max     mean       sd     n
## 1   jongen   0 0.5      2  4   7 2.305859 2.176104 53273
## 2   meisje   0 1.0      3  5   7 3.462593 2.343141 58880
##   missing
## 1       0
## 2       0

Een boxplot of histogram kunnen we opstellen via de commando’s bwplot() (wat staat voor ‘box and whisker plot’, maar de ‘whisker’ laten we vaak achterwege in de praktijk) en histogram(). We illustreren dit voor de variabele mentaal welzijn.

bwplot(~ mentaal_welzijn, data = Data)

histogram(~ mentaal_welzijn, data = Data)

We kunnen ook figuren aanmaken voor verschillende groepen

bwplot(mentaal_welzijn ~ geslacht, data = Data)

Een spreidingsdiagram bekomen we via het commando xyplot()

xyplot(mentaal_welzijn ~ smartphone_week, data = Data)

Het opstellen van een spreidingsdiagram waarbij de grootte van de punten proportioneel is met de grootte van de groep, is vrij complex en behandelen we niet.

Tot slot illustreren we hoe we in R de correlatie en de regressierechte kunnen berekenen.

De correlatie bekomen we via het commando cor().

cor(mentaal_welzijn ~ smartphone_week, data = Data)
## [1] -0.1688012

De regressierechte, ook wel een lineair model genoemd, bekomen we via lm().

lm(mentaal_welzijn ~ smartphone_week, data = Data)
## 
## Call:
## lm(formula = mentaal_welzijn ~ smartphone_week, data = Data)
## 
## Coefficients:
##     (Intercept)  smartphone_week  
##         49.5079          -0.6859

Het eerste getal geeft het intercept weer, terwijl het tweede getal de richtingscoëfficiënt weergeeft.

3.8 Oefeningen

  • Oefening aanmaken met digitaal schermgebruik in de week en weekend. Voor sommigen zal dit meer zijn dan 24u. Hoe komt dit? (verkeerde rapportage + simultaan gebruik van toestellen. )
  • scatterplot maken met totale tijd aan tv en games (minder simultaan dan smartphone of een computer) en correlatie bekijken tussen week en weekend. Ook correlatie bekijken met mentaal welzijn.
## (Intercept) 
##     5.97472
## [1] 6.00106

## [1] 0.8284887
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    3.00    5.00    5.53    7.00   14.00
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   2.000   3.000   3.585   5.000  14.000

4 Morele intuïtie: een inductieve analyse

4.1 Introductie

In het voorgaande hoofdstuk hebben we de gegevens van meer dan honderdduizend scholieren geanalyseerd. Dit was een voorbeeld van een beschrijvende analyse: we beschrijven de gegevens voor de personen in de steekproef. Bij deze beschrijvende analyses speelt variabiliteit een belangrijke rol.

  • Omwille van variabiliteit hebben we het begrip verdeling geïntroduceerd. Deze verdeling vatten we dan numeriek samen via centrum- en spreidingsmaten en visualiseren we via figuren zoals een staafdiagram, boxplot of histogram.

  • Bij het bestuderen van de samenhang tussen twee variabelen, trachten we variabiliteit in de ene variabele te verklaren via de variabiliteit in de andere variabele. De correlatiecoëfficiënt en het spreidingsdiagram samen met de regressierechte helpen ons om de samenhang te onderzoeken.

Er is echter nog een andere vorm van variabiliteit die we nog niet in rekening hebben gebracht: variabiliteit afkomstig door toeval.

  • Toeval afkomstig door de toevalstrekking van de steekproef: de scholieren die we bevraagd hebben, werden geselecteerd op basis van toeval. Als we de studie zouden herhalen, zal de steekproef (deels of volledig) bestaan uit andere scholieren, wat kan resulteren in andere data.

  • Toeval afkomstig door de momentopname bij de dataverzameling: bij een herhaling van de bevraging van dezelfde scholieren bekomen we mogelijks andere gegevens.

Deze vorm van variabiliteit zal zich pas manifesteren bij een herhaling van de studie. Wanneer we nieuwe scholieren bevragen of dezelfde scholieren op een ander tijdstip, bekomen we andere data. We maken dit wat concreter door middel van een voorbeeld, waarbij we focussen op het gemiddelde, maar een gelijkaardig redenering gaat op voor andere maten (mediaan, standaardafwijking, correlatie, etc.).

Het gemiddeld mentaal welzijn voor de scholieren in de steekproef bedraagt 47.5. Voor deze ene dataset is deze waarde constant: ze ligt vast en varieert niet. We weten echter dat deze waarde deels onderhevig is aan toeval: scholieren werden op willekeurige wijze geselecteerd en werden slechts op één moment bevraagd. Als we de studie zouden herhalen (we selecteren een nieuwe steekproef uit de populatie en bevragen deze scholieren waarbij we het protocol volgen), dan zullen we andere data bekomen die aanleiding zullen geven tot een andere waarde van het gemiddeld mentaal welzijn. Het steekproefgemiddelde varieert dus bij een herhaling van de studie. Of anders uitgedrukt: het steekproefgemiddelde is een variabele wanneer we de studie herhalen. Deze vorm van variabiliteit wensen we mee te nemen in onze analyses. In het ideale geval is deze variabiliteit klein. Dit impliceert dat het gemiddeld mentaal welzijn bij een herhaling van de studie niet te sterk zal verschillen van de waarde die we hebben bekomen in de beschrijvende analyse. Dit komt de reproduceerbaarheid van de conclusies op basis van de beschrijvende analyse ten goede. Als de variabiliteit groot zou zijn, dan is het mogelijk dat we bij een herhaling van de studie een sterk verschillende waarde voor het gemiddeld mentaal welzijn bekomen. Dit brengt de generaliseerbaarheid van de beschrijvende analyses in het gedrang: als we bij een herhaling van de studie totaal verschillende waarden bekomen, hoe waardevol zijn de inzichten dan op basis van één studie?

Helaas hebben we vaak niet de middelen om een studie meerdere malen te herhalen. Echter, dankzij ingenieuze statistische technieken kunnen we inzicht krijgen in deze bron van variabiliteit zonder dat we de studie hoeven te herhalen. We maken hierbij gebruik van statistische modellen die ons toelaten om, bij bepaalde veronderstellingen, een vereenvoudigde versie van de werkelijkheid te modelleren. Deze modellen stellen ons in staat om in te schatten wat er zou gebeuren indien we de studie zouden herhalen, zonder dat we dit daadwerkelijk moeten doen. Statistische analyses die rekening houden met deze variabiliteit worden inductieve analyses genoemd.

Samengevat kunnen we stellen dat bij beschrijvende analyses de variabiliteit binnen een studie centraal staat, terwijl bij inductieve analyses de variabiliteit tussen herhalingen van de studie centraal staat. Dankzij inductieve analyses kunnen we de variabiliteit tussen studies bestuderen zonder dat we de studie daadwerkelijk moeten herhalen.

Via een inductieve analyse zullen we kunnen inschatten of de conclusie van een beschrijvende analyse stand houdt bij een herhaling van de studie onder gelijkaardige condities. Om dit te realiseren, zullen we de verkregen data zien als een momentopname van een toevalsproces. We bedoelen hiermee dat er een eindeloze reeks van mogelijke observaties zijn (wanneer we de studie herhaaldelijk opnieuw zouden uitvoeren) en onze data vormen een momentopname van deze reeks (doordat de studie één keer werd uitgevoerd).

Een toevalsproces kan eenvoudig zijn, denk aan volgende ‘studie’: je werpt een geldstuk tien keer op een je telt het aantal keer munt. Dit aantal zal verschillen als je de studie herhaaldelijk uitvoert en een momentopname bestaat uit één reeks van 10 worpen.

Een toevalsproces kan ook complexer zijn zoals de studie rond mentaal welzijn waarbij een gestratificeerde steekproef wordt getrokken en data worden verzameld via het invullen van vragenlijsten.

Beide voorbeelden hebben het volgende gemeenschappelijk: als we de studie herhalen, dan verwachten we andere data waar te nemen omdat een deel van het proces onderhevig is aan toeval. De uitkomsten van een toevalsproces kunnen we niet met zekerheid voorspellen, maar we kunnen wel patronen waarnemen die ons inzicht geven in het onderliggend proces.

  1. Bij het toevalsproces waarbij we een geldstuk tien keer opwerpen, kunnen we de vraag stellen of het geldstuk eerlijk is. Door herhaaldelijk tien keer het geldstuk op te werpen en te tellen hoe vaak we munt gooien, kunnen we patronen onderzoeken. Als we systematisch meer munt dan kop werpen, hebben we inzicht in het onderliggend proces en is het waarschijnlijk dat het geldstuk niet eerlijk is.

  2. Bij het toevalsproces dat aanleiding geeft tot de data over mentaal welzijn en smartphonegebruik, kunnen we ons de vraag stellen of er een samenhang is tussen beide variabelen. Door herhaaldelijk de studie opnieuw uit te voeren, kunnen we patronen onderzoeken. Als we systematisch een zwakke positieve samenhang observeren, hebben we inzicht in het onderliggend proces en is het waarschijnlijk dat we deze conclusie kunnen extrapoleren naar alle scholieren in de populatie.

Het gebruik van statistische modellen zal ons helpen om patronen te ontwaren in toevalsprocessen. Omdat de data van de studie rond mentaal welzijn vrij rijk zijn, zullen we gebruik moeten maken van relatief complexe statistische modellen. We stellen deze analyses daarom even uit tot Hoofdstuk ???. In dit hoofdstuk staat de inductieve analyse van een nieuw onderzoek centraal waar we slechts één binaire variabele zullen observeren. Dergelijke eenvoudige data kunnen we vrij makkelijk statistische modelleren en laat ons toe om in dit hoofdstuk de focus te leggen op de kernbegrippen van een inductieve analyse.

  • Beschrijvende analyse Een statistische analyse waarbij de variabiliteit binnen een steekproef centraal staat.

  • Toevalsproces. Een oneindige reeks van potentiële observaties noemen we een proces. Een toevalsproces is een herhaalbaar proces met ongekende individuele uitkomsten, maar met patronen op lange termijn. We veronderstellen dat de geobserveerde data een representatief beeld geven van het gedrag van het proces op lange termijn. Niettegenstaande we de observaties niet op voorhand kunnen weten, kunnen we de relatieve frequentie dat een observatie voorkomt op lange termijn wel voorspellen.

  • Inductieve analyse Een statistische analyses waarbij de variabiliteit tussen steekproeven centraal staat.

  • Statistische modellen. Een model kan je zien als een vereenvoudigde versie van de werkelijkheid die in ons in staat zal stellen om de werkelijkheid beter te begrijpen. Een model mag niet te eenvoudig zijn (want dan zien we mogelijks belangrijke aspecten over het hoofd) en niet te complex (want dan is het moeilijk om het model te begrijpen). Bij statistische modellen maken we gebruik van modellen die toelaten de rol van toeval in het toevalsproces te incorporeren. We zullen deze modellen gebruiken om data te genereren die we nadien vergelijken met de werkelijke data afkomstig van het onderzoek dat we bestuderen.

4.2 Onderzoek naar morele intuïtie bij baby’s

Het onderzoek van Hamlin, Wynn, and Bloom (2007) naar morele intuïtie bij baby’s staat centraal en deze kan je hier raadplegen. We beschrijven ze kort in deze paragraaf.

4.2.1 Introductie

De capaciteit om anderen te taxeren is essentieel om te navigeren in de sociale wereld. We moeten in staat zijn om acties en intenties van anderen in te schatten en om beslissing te nemen wie goede of kwade bedoelingen heeft. Volwassenen zullen snel anderen taxeren en evalueren op basis van zowel gedrag als lichamelijke eigenschappen. De ontwikkelingsgeschiedenis hiervan is echter niet volledig duidelijk. Om hier meer inzicht in te krijgen, wordt een studie opgezet waar de morele intuïtie van baby’s wordt onderzocht. Centraal staat de onderzoeksvraag ‘Verkiezen baby’s een pop die een goede daad slelt boven een pop die een slechte daad stelt?’.

4.2.2 Methode

Steekproeftrekking

Baby’s en hun ouders werden gerecruteerd in New Haven - de stad waar de onderzoekers werken. Voor het experiment dat wij zullen bespreken, namen zestien 10-maand oude baby’s deel. We kunnen hieruit afleiden dat de zestien baby’s de eenheden vormen en dat de steekproefgrootte gelijk is aan \(n=16\). Waar we in het vorig hoofdstuk spraken over observationele eenheden, spreken we nu eerder over experimentele eenheden omdat de onderzoekers een experimentele studie opzetten (wat we verder bespreken).

We merken enkele verschillen op in vergelijking met de steekproeftrekking uit het voorgaande hoofdstuk.

  • Er is geen populatie vastgelegd. Uit de introductie kan je impliciet afleiden dat de onderzoekers fundamentele eigenschappen van de mens willen onderzoeken. We kunnen de populatie omschrijven als “alle 10-maand oude baby’s”. Deze populatie is enerzijds zeer groot en anderzijds vrij abstract gedefinieerd. Zijn het de baby’s die vandaag 10 maand oud zijn of omvat het alle baby’s die ooit 10 maand oud geweest zijn? Niettegenstaande het expliciet vastleggen van de populatie wenselijk is, wordt het niet altijd gedaan en moet de lezer trachten af te leiden wat de populatie kan zijn.

  • Men heeft geen toevalstrekking op basis van een steekproefkader uitgevoerd, maar men heeft gekozen voor een gemakshalve steekproeftrekking door participanten te rekruteren uit de buurt van de universiteit. We weten dus niet of de steekproef representatief is voor de populatie. Men kan argumenteren dat morele intuïtie bij 10-maand oude baby’s zo fundamenteel is, dat een gemakshalve steekproeftrekking tot reprentatieve data zal leiden. Dit is een aanname die we moeten maken, zonder dat we ze kunnen staven. De onderzoekers zijn zich zonder twijfel bewust van deze beperkingen en mogelijks zijn hun keuzes ingegeven uit praktische overwegingen. De baby’s zullen een poppenspel te zien krijgen en dan is het praktisch interessant dat de baby’s en hun ouders in de buurt wonen van de universiteit waar het poppenspel doorgaat.

New Haven is de stad in de VS waar Yale University ligt. Deze universiteit is de grootste werkgever in de stad. Kan je redenen bedenken waarom de steekproef niet noodzakelijk representatief is voor bepaalde populaties?

Metingen

De onderzoekers hebben verschillende experimenten opgezet, maar wij beperken ons tot het beschrijven van één experiment. De baby’s kregen een poppenspel te zien waarbij een houten speelgoedpop (de ‘klimmer’) een berg wil opklimmen. Bij sommige taferelen werd de klimmer geholpen door een andere houten speelgoedpop (de ‘helper’), terwijl in andere taferelen een derde houten speelgoedpop (de ‘lastpost’) de klimmer tegenwerkt. Figuur 4.1 illustreert deze taferelen. Nadat de baby’s verschillende van deze taferelen hadden gezien, werd hen de mogelijkheid gegeven om te kiezen tussen de helper of de lastpost: beide speelgoedpopjes werden aangeboden en men keek naar welke pop de baby greep.

Link: tafereel waarbij de helper (gele driehoek) de klimmer helpt. Rechts: tafereel waarbij de lastpost (blauw vierkant) de klimmer tegenwerk. Figuur overgenomen uit @HamlinEtAl2007.

Figuur 4.1: Link: tafereel waarbij de helper (gele driehoek) de klimmer helpt. Rechts: tafereel waarbij de lastpost (blauw vierkant) de klimmer tegenwerk. Figuur overgenomen uit Hamlin, Wynn, and Bloom (2007).

De variabele die centraal staat, kunnen we omschrijven als ‘voorkeur’ en ze kan de waarden ‘helper’ of ‘lastpost’ aannemen. Dit is de uitkomstvariabele en tevens ook de enige variabele. Deze variabele weerspiegelt het moraliteitsbesef van de baby en wordt geoperationaliseerd via een sterk vereenvoudigde voorstelling van de werkelijkheid waarbij goed en kwaad worden geïntroduceerd aan de hand van twee poppen met elk een ander doel. De pop waar de baby naar grijpt, wordt geïnterpreteerd als de keuze van baby.

Het is duidelijk dat men sterke veronderstellingen moet maken om de koppeling te maken tussen de studie en het moraliteitsbesef bij baby’s: het grijpen van de pop wordt gezien als een keuze maken tussen goed en kwaad. Het maken van dergelijke veronderstellingen is eigen aan het opzetten van studies en illustreert ook waarom we niet kunnen verwachten de onderzoeksvraag perfect te beantwoorden op basis van één enkele studie. Bij het opzetten van een studie is het objectief vaak bescheidener: we proberen inzicht te verwerven in de onderzoeksvraag zonder dat we pretenderen dat we met volledig zekerheid en in alle situaties de vraag kunnen beantwoorden. Dit komt terug in het grondschema van de empirische cyclus: door verschillende onderzoeken uit te voeren (een cyclus) zullen we stapsgewijs de onderzoeksvraag beter en beter kunnen beantwoorden.

Deze studie is een voorbeeld van een experimentele en cross-sectionele studie gelet dat de onderzoekers via het poppenspel een interventie opzetten en de keuze slechts op één specifiek moment in de tijd observeren.

  • Wat zijn mogelijke beperkingen van het ontwerp van deze studie?

  • Kan je oorzaken bedenken die de keuze van de baby kunnen beïnvloeden?

  • Kan je meer realistische experimenten bedenken om vroege morele intuïtie te onderzoeken? Wat zijn de voor- en nadelen in vergelijking met het poppenspel?

Causaliteit

De helper en de lastpost verschillen van elkaar in de daad die ze stellen. Er zijn echter nog verschillen tussen beide poppen: de helper staat altijd onderaan de berg en de lastpost bovenaan, de helper wordt voorgesteld door een gele driehoek en de lastpost door een blauw vierkant, etc. Als de onderzoekers zouden merken dat meer baby’s kiezen voor de helper, willen ze hebben dat dit komt door de daad die de helper stelt en niet door andere oorzaken. Ze willen dat de daad van de pop de oorzaak vormt voor de keuze die de baby maakt.

Om andere oorzaken uit te sluiten hebben de onderzoekers tijdens het experiment de rol van de helper en de lastpost omgewisseld: voor de helft van de baby’s was de gele driehoek de helper, terwijl voor andere helft de blauwe vierkant de helper was. De volgorde van het poppenspel werd ook afgewisseld: de helft van de baby’s kreeg eerst de helper te zien, de andere helft eerst de lastpost. De volgorde van aanbieden van de poppen werd ook omgewisseld: bij de helft van de baby’s lag de helper links en bij de andere helft rechts. Dit wordt het balanceren van mogelijke confounding variabelen genoemd: de waarden van de variabele worden gelijk verdeeld over de experimentele eenheden.

Bij het moment dat de baby’s konden grijpen naar een pop, zaten ze op de schoot bij een van de ouders die zijn/haar ogen moest sluiten om (mogelijks onbewuste) beïnvloeding te vermijden.

De onderzoeksleider die na het poppenspel beide poppen aanbood, wist niet welke pop (gele driehoek of blauw vierkant) de helper of lastpost was. Dit wordt blinderen genoemd en heeft als doel om ongewenste (en vaak onbewuste) invloeden te elimineren.

De onderzoekers hebben ook extra exerimenten opgezet waarbij de klimmer een neutraal object voorstelt (een houten cirkel zonder ogen). Via deze experimenten wou men uitsluiten dat baby’s een voorkeur hadden voor opwaartse of neerwaarste bewegingen wanneer er geen sociale evaluatie was (i.e. zonder dat er een ‘goede’ of ‘slechte’ daad werd gesteld). Ze merkten dat baby’s ongeveer evenveel grepen naar de helper dan naar de lastpost.

Je merkt dat het opzetten van een experimentele studie heel wat denkwerk vraagt waarbij je tracht mogelijke confounders te elimineren.

  • Experimentele eenheden. De eenheden (vaak personen) die men in een experimentele studie zal bestuderen en waarvoor men data zal verzamelen.

  • Balanceren. Het balanceren van een variabele bekomen we door de waarden van een variabele gelijk te verdelen over de experimentele eenheden. Dit wordt vaak gedaan om mogelijke confounders uit te schakelen.

  • Blinderen. Bij het blinderen wordt bepaalde informatie tijdens de studie achtergehouden voor personen betrokken bij de studie om zo ongewenste (en mogelijks onbewuste) invloeden te elimineren. Blinderen komt vaak voor bij klinische studies, waar men een nieuw medicijn wil vergelijken met een placebo. Zowel de proefpersonen als de arts weten niet welke welke pil het nieuw medicijn is en welke de placebo (de onderzoekers die niet betrokken zijn bij de interventie weten dit wel uiteraard). Dit wordt een dubbel-geblindeerde studie genoemd.

4.3 Beschrijvende analyse

We gaan nu over naar de beschrijvende analyse: we bespreken de data die werden geobserveerd.

Figuur 4.2 geeft de verdeling weer van de variabele. We zien dat veertien van de zestien baby’s gekozen hebben voor de helper. Dit komt overeen met een relatieve frequentie van \(14/16 = 87.5\%\) en een odds van \(14/2 = 7\). De odds interpreteren we als volgt: voor elke zeven baby’s die kiezen voor de helper, kiest er één baby voor de lastpost.

Staafdiagram van de variabele voorkeur.

Figuur 4.2: Staafdiagram van de variabele voorkeur.

Veronderstel dat we een nieuwe studie hebben uitgevoerd en Figuur 4.3 geeft het staafdiagram weer. Liggen de resultaten van deze studie in de lijn met de oorspronkelijke studie? Wat valt je op als je de figuur vergelijkt met Figuur 4.2?

Staafdiagram van de variabele voorkeur voor een nieuwe studie.

Figuur 4.3: Staafdiagram van de variabele voorkeur voor een nieuwe studie.

De beschrijvende analyse voor dit onderzoek is vrij beknopt omdat we slechts één variabele gemeten hebben. Op basis van deze analyse besluiten we dat de helper vaker werd gekozen. We gaan nu over naar de inductieve analyse. We starten met de hypothesetoets. We doen dit eerst informeel zodat de onderliggende ideeën duidelijk zijn en nadien bespreken we ze formeel en in detail. In tegenstelling tot de beschrijvende analyse is de inductieve analyse conceptueel complexer omdat we te weten willen komen of we bewijs hebben in de data dat de helper ook vaker zal gekozen worden indien we de studie herhalen. Dit is een ambitieuzer objectief dan louter samen te vatten hoe vaak de helper werd gekozen voor de ene studie die werd uitgevoerd.

4.4 Hypothesetoets: informeel

Bij een hypothesetoets stellen we een hypothese voorop die we vervolgens gaan toetsen aan de data. Als de data in lijn zijn met de hypothese, dan zullen we de hypothese als plausibel bestempelen. Als de data niet in lijn zijn, dan zullen we de hypothese niet als plausibel beschouwen en zullen we ze verwerpen.

Op basis van de onderzoeksvraag, werken we eerst de hypothese uit die we willen toetsen. Meer specifiek wensen we het effect te onderzoeken van de acties van de poppen (helpen of hinderen) op de keuze van de baby. Bij een hypothesetoets vertrekken we van de hypothese dat er geen effect is: de acties van de poppen hebben geen invloed op de keuze van de baby. De hypothese die we naar voor schuiven stelt dat de baby’s willekeurig een pop kiezen. Dit wordt ook de nulhypothese genoemd. Merk op dat deze hypothese betrekking heeft op het proces waarvan we slechts een snapshot data hebben waargenomen via de keuzes van de zestien baby’s in de steekproef. We kunnen de hypothese als volgt interpreteren: wordt de helper even vaak gekozen als de lastpost indien we de studie vele malen herhalen volgens dezelfde procedure (ouders en baby’s rekruteren in de buurt van de universiteit, het poppenspel tonen en de baby’s laten kiezen)?

Op basis van de data (de keuzes van de zestien baby’s) zullen we een uitspraak doen over deze hypothese. Dit verklaart het inductieve in inductieve analyses: op basis van het bijzondere (de data die we hebben waargenomen) trachten we een conclusie te formuleren over het algemene (het proces, wat je kan zien als het herhaaldelijk uitvoeren van de studie onder gelijkaardige condities).

Om de hypothesetoets uit te voeren, starten we onze redenering met te veronderstellen dat de nulhypothese waar is: baby’s kiezen lukraak een pop zonder een voorkeur te hebben. We stellen ons de vraag hoe waarschijnlijk het is dat 14 van de 16 baby’s de helper kiezen wanneer ze geen voorkeur hebben. Als dit onwaarschijnlijk is, interpreteren we dit als bewijs tegen de nulhypothese.

Hoe kunnen we nu te weten komen welke uitkomsten waarschijnlijk zijn als baby’s geen voorkeur hebben? Via statistische modellering kunnen we hier inzicht in krijgen. Meer specifiek zullen we het keuzeproces wanneer er geen voorkeur is, statistisch modelleren. Dit zal ons in staat stellen in te schatten hoe vaak de helper wordt gekozen bij 16 keuzes indien er geen voorkeur is. Door hier inzicht in te krijgen, zullen we ook inzicht krijgen of het plausibel is dat toevallig 14 van de 16 baby’s hebben gekozen voor de helper. Als dit weinig waarschijnlijk is, kunnen we toeval uitsluiten als verklaring en hebben we evidentie dat er andere oorzaken moeten zijn die aan de basis liggen van de keuze van de baby.

Statistische modellering klinkt misschien complex, maar besef dat het in dit geval vrij eenvoudig is: we kunnen het toevalsproces wanneer er geen voorkeur is, simuleren (nabootsen) door 16 keer een geldstuk op te werpen. Het gooien van ‘munt’ kunnen we zien als het kiezen van de helper. Later zullen we zien dat de binomale verdeling het statistisch model is dat hieronder ligt, maar voorlopig volstaat het dit te zien als het opwerpen van een geldstuk. We doen dus beroep op een model om de werkelijkheid wanneer baby’s geen voorkeur hebben, na te bootsen. Verder in de hoofdstuk zullen we zien dat het een vereenvoudigde versie van de werkelijkheid is, omdat we bepaalde veronderstellingen moeten maken om de uitkomsten van het opwerpen van een geldstuk te kunnen interpreteren als de keuze van de baby’s wanneer ze geen voorkeur hebben.

Figuur 4.4 geeft het aantal keer munt weer bij 16 worpen als we dit proces vele malen herhalen. Probeer dit zelf eens uit: werp een geldstuk 16 keer op, noteer het aantal keer munt en herhaal dit. Als je een staafdiagram opstelt van deze data, dan zal ze goed lijken op Figuur 4.4 (toch als je dit proces duizend maal zou herhalen).

Staafdiagram het aantal keer munt bij 16 worpen met een geldstuk.

Figuur 4.4: Staafdiagram het aantal keer munt bij 16 worpen met een geldstuk.

Werp een geldstuk 16 keer op en noteer het aantal keer munt. Herhaal dit 5 keer en verklaar waarom dit aantal varieert.

Figuur 4.4 is afkomstig van het statistisch model en gekoppeld aan de context van het onderzoek kunnen we ze interpreteren (als bepaalde veronderstellingen opgaan) als de mogelijke waarden voor het aantal baby’s dat kiest voor de helper wanneer ze in werkelijkheid geen voorkeur hebben. We hebben dus een statistisch model (het opwerpen van een geldstuk) gebruikt om een bepaalde werkelijkheid (de werkelijkheid wanneer baby’s geen voorkeur zouden hebben) na te bootsten en Figuur 4.4 geeft de verdeling weer van een samenvattende maat (de absolute frequentie in dit geval) indien we de studie vele malen herhalen. Figuur 4.4 geeft ons dus inzicht in de variabiliteit van de absolute frequentie bij een herhaling van de studie en in de veronderstelling dat de baby’s geen voorkeur hebben (en zonder dat we de studie daadwerkelijk hebben moeten herhalen).

We zien dat de waarden in de buurt van acht het vaakst voorkomen en dat waarden die hier verder van liggen, minder vaak voorkomen. Dit is niet veronderlijk: als er geen voorkeur is tussen beide poppen zullen ze ongeveer even vaak gekozen worden. Dit hoeft niet steeds exact de helft te zijn, want de uitkomsten van een toevalsproces zijn onderhevig aan toeval (als je 16 keer een geldstuk opwerpt, zal je ook niet altijd 8 keer munt werpen).

In een laatste stap van de hypothesetoets vergelijken we de data van de studie, waar 14 baby’s kozen voor de helper, met Figuur 4.4. We zien dat het weinig waarschijnlijk is dat de waarde 14 wordt aangenomen als de baby’s geen voorkeur hebben: veruit de meeste waarden in Figuur 4.4 zijn kleiner dan 14. De waarde 14 is ongewoon groot om zich voor te doen als baby’s geen voorkeur hebben. Deze waarde is dus niet in lijn met de nulhypothese waardoor we bewijs hebben verzameld tegen deze hypothese. De bewijskracht is hier vrij sterk: de kans dat een waarde zo groot als 14 wordt aangenomen wanneer er geen voorkeur is, is zeer klein.

We besluiten dat we bewijs hebben gevonden in de data dat het onwaarschijnlijk is dat de helper even vaak wordt gekozen als de lastpost. We kunnen dit besluiten omdat het toevalsproces waarbij baby’s geen voorkeur hebben, resulteert in data die systematisch verschillen van de geobserveerde data.

Dankzij de beschrijvende analyses wisten we al dat de baby’s in de studie systematisch de helper verkozen. Dankzij de hypothesetoets kunnen we dit besluit ook trekken voor het toevalsproces. Als we de studie herhalen onder gelijkaardige condities, verwachten we met een grote waarschijnlijkheid dat de baby’s vaker de helper zullen verkiezen.

We hebben zonet onze eerste hypothesetoets uitgevoerd,deze wordt de binomiaaltoets genoemd. We vatten bovenstaande stappen nog eens samen.

  • We observeren dat 14 baby’s van de 16 kiezen voor de helper.

  • We simuleren data die zich kan voordoen wanneer er geen voorkeur is. We kunnen dit doen dankzij een statistisch model, hier het opwerpen van een geldstuk.

  • We bekijken hoe waarschijnlijk het is dat de geobserveerde data zich voordoen wanneer er geen voorkeur is. We doen dit door de geobserveerde data te vergelijken met de gesimuleerde data.

  • De geobserveerde data zijn niet compatibel met de gesimuleerde data. Dit levert bewijs dat het weinig waarschijnlijk is dat beide poppen even vaak worden gekozen.

  • Nulhypothese. De hypothese die stelt dat er geen effect is en die we wensen te toetsen aan de data.

  • Inductie. Op basis van het bijzondere het algemene besluiten.

  • Simuleren. Het artificieel nabootsen van een toevalsproces. Vaak zullen we hier gebruik maken van statistische modellen om (een vereenvoudigde versie van) de werkelijkheid na te bootsen.

  • Inductieve analyse. Bij een inductieve analyse willen we inschatten hoe veralgemeenbaar de resultaten van de studie zijn indien we de studie opnieuw zouden kunnen uitvoeren onder gelijkaardige condities. Het toevalsproces dat aanleiding geeft tot de data staat hierbij centraal en dit toevalsproces gaan we statistisch modelleren. Bij een hypothesetoets modelleren we dit proces in de veronderstelling dat de nulhypothese waar is.

  • Binomiale verdeling. Binomiale verdeling is een statistisch model dat toelaat de kans te berekenen om een aantal keer munt te werpen bij 16 worpen. De binomiale verdeling kan ook gebruikt worden voor tal van andere toepassingen.

  • Binomiaal toets. Bijzonder geval van een hypothesetoets dat beroep doet op de binomiale verdeling.

4.5 Hypothesetoets: formeel

We beschrijven nu voorgaande toets formeel en in detail.

Stap 1: hypotheses formuleren

Bij een hypothesetoets starten we met het formuleren van de hypotheses (de veronderstellingen) die we wensen te toetsen aan de verkregen data. Meer specifiek zullen er twee hypotheses zijn: de nulhypothese \(H_0\) en de alternatieve hypothese \(H_A\). Toegepast op het onderzoek wordt dit \(H_0:\) de helper wordt even vaak gekozen als de lastpost en \(H_A:\) de helper wordt vaker gekozen dan de lastpost. De formulering van de hypotheses gebeurt op basis van de onderzoeksvraag waarbij de nulhypothese stelt dat er geen effect is en de alternatieve hypothese stelt dat er wel een effect is van de interventie (hier het poppenspel waarbij de poppen elk hun rol spelen).

We stellen de voorkeur van een baby \(i\) voor door de variabele \(Y_i\), waarbij \(Y_i=1\) staat voor het kiezen van de helper en \(Y_i=0\) voor het kiezen van de lastpost. We hebben hier de twee waarden (helper of lastpost) numeriek gecodeerd. Dit zal handig zijn als we straks de absolute frequentie compact willen neerschrijven.

Door \(P(Y_i = 1)\) stellen we de kans voor dat de helper wordt gekozen. Met kans bedoelen we hier de relatieve frequentie van de keuze voor de helper wanneer we het toevalsproces eindeloos zouden kunnen observeren (dus als we de studie eindeloos zouden herhalen). De kans \(P(Y_i = 1)\) wordt ook een parameter genoemd van het proces genoemd. Dit is een eigenschap van het toevalsproces dat we willen bestuderen. Deze kans zullen we beknopt schrijven via \(p\), dus \(p = P(Y_i = 1)\). Of in woorden: \(p\) is de kans dat de baby de helper kiest.

We kunnen de hypotheses compact schrijven als \[ H_0: p = 0.5 \quad \text{versus} \quad H_A: p > 0.5. \] In woorden stelt de nulhypothese dat de kans dat de helper wordt gekozen gelijk is aan 50%, terwijl de alternatieve hypothese stelt dat deze kans groter is dan 50%.

Stap 2: toetsingsgrootheid vastleggen

In een volgende stap maken we een toetsingsgrootheid \(T\) aan: de toetsingsgrootheid vat informatie uit de data samen en moet aansluiten bij de hypotheses die je wenst te toetsen en is een bijzonder voorbeeld van een statistiek. Omdat de hypotheses geformuleerd zijn in termen van de kans dat een baby kiest voor helper, vormt de relatieve frequentie van baby’s die de helper hebben gekozen in de steekproef een natuurlijke keuze. Deze relatieve frequentie kan je interpreteren als een schatting van de parameter \(p\) en noteren we als \(\hat{p}\) zodat het duidelijk is wat de parameter voorstelt en wat een schatting is die we berekend hebben op basis van de data. Voor de huidige studie is \(\hat{p} = 14/16 = 0.875\).

Een andere mogelijkheid bestaat er in om het aantal baby’s dat de helper heeft gekozen te nemen als toetsingsgrootheid - de absolute frequentie. We hebben hier dus twee keuzes en beide keuzes zullen steeds leiden tot dezelfde conclusies. We kiezen er voor om te werken met de de absolute frequentie omdat de uitwerking van de statistische toets dan iets eenvoudiger zal zijn. Dankzij de numerieke codering van \(Y_i\) kunnen we de toetsingsgrootheid compact neerschrijven als: \[ T = \sum_{i=1}^n Y_i. \] We schrijven de toetsingsgrootheid met een hoofdletter \(T\) omdat ze een variabele is wanneer we de studie herhalen. De absolute frequentie kan wijzigen als we de studie herhalen. Als we toetsingsgrootheid berekenen voor de geobserveerde data, dan noemen we dit de geobserveerde toetsingsgrootheid en schrijven we dit met een kleine letter. Toegepast op onze studie wordt dit \(t=14\).

Stap 3: het toevalsproces statistisch modelleren via een kansmodel

In deze stap wensen we het toevalsproces dat aanleiding geeft tot \(T\) te modelleren door middel van een kansmodel. Meer specifiek willen we de steekproevenverdeling van de toetsingsgrootheid \(T\) modelleren. We bedoelen hiermee: welke waarden kan \(T\) aannemen indien we de studie vele malen herhalen? Met andere woorden: wat is de verdeling van \(T\) indien we verschillende steekproeven hebben. De steekproevenverdeling geeft hierop het antwoord.

We zullen deze steekproevenverdeling statistisch kunnen modelleren via een kansmodel als we enkele assumpties maken. We veronderstellen dat

  • de kans dat de baby de helper kiest dezelfde is voor elke baby.

  • de keuze van de baby’s onafhankelijk zijn van elkaar.

Deze tweede assumptie kan voldaan te zijn omdat de baby’s afzonderlijk het poppenspel te zien te krijgen. We kunnen echter geen volledige zekerheid hebben of deze assumptie voldaan is. Als bijvoorbeeld de helft van de baby’s het poppenspel te zien krijgen door een eerste proefleider en de andere helft door een tweede proefleider en indien de proefleider een onbewuste invloed heeft op de keuze, dan is er niet voldaan aan deze assumpties. De eerste assumptie kunnen we ook niet makkelijk nagaan: misschien kiezen sommige baby’s systematisch voor de helper en anderen systematisch voor de lastpost waardoor de kansen kunnen verschillen van baby tot baby.

Heel veel statistische technieken zullen assumpties maken en vaak zal het niet eenvoudig zijn om te ‘bewijzen’ dat de assumpties voldaan zijn. Het is daarom belangrijk om steeds de assumpties te rapporteren. Indien de assumpties niet voldaan zouden zijn, stelt ons statistisch model een vereenvoudiging van de werkelijkheid voor. We hopen dan dat deze vereenvoudiging toch nog waardevolle inzichten oplevert.

Als de assumpties voldaan zijn, kan je de mogelijke waarden van \(T\) bij een herhaling van de studie onder dezelfde condities modelleren via de biomiale verdeling. Dit kansmodel geeft de kansen weer dat \(T\) een bepaalde waarde aanneemt. De formule wordt gegeven door \[\begin{equation} P(T = k) = \frac{n!}{k!(n-k)!} p^{k} (1-p)^{n-k}, \quad k=0,1,\ldots,n, \tag{4.1} \end{equation}\] met \(n\) de steekproefgrootte en \(!\) de wiskundige bewerking ‘faculteit’. Het rechterlid in (4.1) geeft dus een wiskundige formule weer die ons in staat stelt de kans te berekenen dat \(k\) van de \(n\) baby’s kiezen voor de helper.

Symbolisch stellen we de binomiale verdeling voor als \(B(n,p)\). Via de notatie \(T\sim B(n,p)\) geven we beknopt weer dat de variabele \(T\) een binomiale verdeling volgt. Voor onze studie is \(n=16\), dus de steekproevenverdeling van de toetsingsgrootheid is bij benadering gelijk aan \(B(16,p)\), of beknopt: \(T\sim B(16,p)\).

Vergelijking (4.1) is veelbelovend: we kunnen het gedrag van het toevalsproces modelleren via een kansmodel en dit kansmodel kunnen we uitdrukken via een wiskundige formule. Er is echter een probleem: als we de vergelijking willen gebruiken om berekeningen te maken, moeten we weten welke waarde \(p\) aanneemt. We moeten dus de kans weten dat een baby kiest voor de helper. Deze kans kennen we niet en we voeren net de hypothesetoets uit om iets te kunnen zeggen over deze kans. Vergelijking (4.1) geeft ons dus een wiskundige formule voor de steekproevenverdeling, maar we kunnen ze helaas niet direct gebruiken omdat \(p\) ongekend is. De nulverdeling zal ons uit deze impasse helpen.

Stap 4: de nulverdeling opstellen

De nulverdeling is gelijk aan de steekproevenverdeling van \(T\) wanneer we veronderstellen dat de nulhypothese opgaat. Als de nulhypothese opgaat dan is \(p=0.5\) en kunnen we dit invullen in formule (4.1).

De nulverdeling van \(T\) geeft dus weer met welke kans \(T\) bepaalde waarden kan aannemen aannemen als de nulhypothese waar is. We illustreren de berekening op basis van formule (4.1) voor twee keuzes van \(k\): \(k=0\) en \(k=7\) \[ P(T=0) = \frac{16!}{0!(16-0)!} 0.5^{0} (1-0.5)^{16-0} = 0.5^{16} \approx 0, \] \[ P(T = 7) = \frac{16!}{7!(16-7)!} 0.5^{7} (1-0.5)^{16-7} = 16\times 0.5 \times 0.5^{15} \approx 0.17, \] waarbij we gebruik hebben gemaakt van de eigenschap dat \(n! = 1\times2\times3\times\ldots\times n\), \(0!=1\), \(p^0 = 1\) en \((1-p)^0=1\). Uit deze berekeningen leren we dat, als baby’s geen voorkeur vertonen, het

  • zeer onwaarschijnlijk is dat geen enkele van de 16 baby’s kiest voor de helper.

  • er 17% kans is dat 7 van de 16 baby’s voor de helper kiezen.

Deze waarden kunnen we ook aflezen van het staafdiagram in Figuur 4.4 en worden ook weergegeven in Tabel 4.1.

Tabel 4.1: Kansen \(P(T=k)\) (uitgedrukt in percentages) voor verschillende waarden van \(k\) wanneer \(T\) een binomiale verdeling volgt met \(p=0.5\) en \(n=16\).
\(k\) \(P(T=k)\)
0 0
1 0
2 0
3 1
4 3
5 7
6 12
7 17
8 20
9 17
10 12
11 7
12 3
13 1
14 0
15 0
16 0

We gebruiken de notatie \(T \overset{H_0}{\sim} B(16, 0.5)\) om aan te duiden dat de toetsingsgrootheid \(T\) een binomiale verdeling volgt met \(n=16\) en \(p=0.5\) als de nulhypothese waar is.

Stap 5: de p-waarde berekenen en interpreteren

We weten al dat de nulverdeling de verdeling van de toetsingsgrootheid weergeeft als de nulhypothese waar is. Of anders uitgedrukt: de nulverdeling geeft aan met welke kans het toevalsproces bepaalde waarden kan aannemen als de nulhypothese waar is. Of nog anders uitgedrukt: de nulverdeling geeft weer, wanneer we de studie herhalen, hoeveel baby’s er zullen kiezen voor de helper indien ze geen voorkeur hebben.

Als de alternatieve hypothese opgaat - dus als de kans om de helper te kiezen groter is dan 50% - dan verwachten we dat er meer baby’s zullen kiezen voor de helper dan wanneer de nulhypothese opgaat. Wanneer de alternatieve hypothese waar zou zijn, verwachten we dus toetsingsgrootheden die groter zullen zijn dan wanneer de nulhypothese waar zou zijn. Dit stelt ons nu in staat om het bewijs in de data tegen de nulhypothese en in het voordeel van de alternatieve hypothese te kwantificeren: we berekenen de kans om een waarde te bekomen groter dan of gelijk aan de geobserveerde toetsingsgrootheid in de veronderstelling dat de nulhypothese waar is. Deze kans wordt de p-waarde genoemd. Formeel kunnen we de p-waarde schrijven als \(P(T \geq 14 \mid H_0)\) waarbij je de notatie \(P(A \mid H_0)\) leest als de kans op \(A\) als \(H_0\) waar is. Toegepast op \(P(T \geq 14 \mid H_0)\) wordt dit: de kans dat de toetsingsgrootheid minstens 14 bedraagt indien de nulhypothese waar is. Omdat \[\begin{equation} P(T \geq 14 \mid H_0) = P(T =14 \mid H_0) + P(T = 15 \mid H_0) + P(T = 16 \mid H_0), \tag{4.2} \end{equation}\] kunnen we deze kans berekenen door de kansen af te lezen uit Tabel 4.1 en vervolgens op te tellen. We kunnen de p-waarde ook visualiseren op de nulverdeling: ze is gelijk aan de som van de hoogtes van de staven horende bij de toetsingsgrootheden 14, 15 en 16 - Figuur 4.5 visualiseert dit.

Visualisatie van de p-waarde: ze is gelijk aan de som van de hoogtes van de rode staven.

Figuur 4.5: Visualisatie van de p-waarde: ze is gelijk aan de som van de hoogtes van de rode staven.

We bekomen \(P(T \geq 14 \mid H_0) \approx 0\) (zonder tussenafrondingen is deze kans gelijk aan 0.21%). Indien de nulhypothese waar is, dus indien de baby’s geen voorkeur vertonen, dan verwachten we bijna nooit dat 14 of meer baby’s zullen kiezen voor de helper. Omdat deze kans zeer klein is, besluiten we dat de geobserveerde toetsingsgrootheid ongewoon groot is om zich voor te doen als de nulhypothese waar is. De p-waarde kwantificeert de bewijskracht in de steekproef tegen de nulhypothese: hoe kleiner de p-waarde, hoe minder waarschijnlijk het is dat de steekproef zich voordoet als de nulhypothese waar is. Hoe kleiner de p-waarde, hoe meer bewijskracht we dus hebben tegen de nulhypothese. Of anders gezegd: hoe kleiner de p-waarde, hoe minder plausibel de nulhypothese is in het licht van de geobserveerde data en de alternatieve hypothese.

Tabel 4.2 geeft richtlijnen die je kunnen helpen bij het interpreteren van de p-waarde als de mate van bewijskracht tegen de nulhypothese.

Tabel 4.2: Richtlijnen interpretatie p-waarde als bewijskracht tegen \(H_0\)
0.10 \(<\) p-waarde weinig bewijskracht tegen \(H_0\)
0.05 \(<\) p-waarde \(≤ 0.10\) matige bewijskracht tegen \(H_0\)
0.01 \(<\) p-waarde \(≤ 0.05\) sterke bewijskracht tegen \(H_0\)
p-waarde \(≤0.01\) zeer sterke bewijskracht tegen \(H_0\)

Andere keuzes voor de alternatieve hypothese

De alternatieve hypothese \(H_A: p > 0.5\) is een voorbeeld van een eenzijdige hypothese: we zoeken enkel bewijs tegen \(H_0\) die erop wijst dat de helper vaker gekozen wordt. We kijken dus maar naar afwijking van \(H_0\) in één richting: de richting waar de helper vaker wordt gekozen. Maar wat als zou blijken dat de lastpost vaker wordt gekozen? Via \(H_A: p> 0.5\) zal de hypothesetoets niet in staat zijn om dit bewijs tegen \(H_0\) te detecteren.

We illustreren dit met een voorbeeld. Veronderstel dat slechts 3 van de 16 baby’s de helper hebben gekozen (en dus 13 baby’s de lastpost hebben gekozen). Dit wijst in de richting van een voorkeur voor de lastpost - dus in de richting \(p < 0.5\) in plaats van \(p > 0.5\) (herinner je dat \(p\) de kans voorstelt dat de helper wordt gekozen).

De p-waarde horende bij \(H_A: p> 0.5\) wordt gegeven door de kans \(P(T \geq 3 \mid H_0) = P(T = 3 \mid H_0) + \ldots + P(T = 16 \mid H_0) = 1\). Je kan zelf dit narekenen via Tabel 4.1. De p-waarde is zeer groot waaruit we besluiten dat we geen bewijs hebben gevonden tegen \(H_0: p = 0.5\). Dus niettegenstaande 13 van de 16 baby’s kiezen voor de lastpost, concluderen we dat we geen bewijs vinden in de data dat baby’s een voorkeur hebben. Dit is een vreemd besluit en komt dus doordat we bewijs zoeken in de data in de verkeerde richting.

Als je verwacht dat de lastpost vaker zal worden gekozen (en de helper dus minder vaak) dan moet je de alternatieve hypothese ook afstemmen op deze verwachting. De alternatieve hypothese \(H_A: p < 0.5\) laat dit toe. Ze stelt dat de helper minder vaak zal gekozen worden dan de lastpost (en dus dat de lastpost vaker wordt gekozen dan de helper). Een wijziging van alternatieve hypothese heeft een impact op de manier waarop de p-waarde wordt berekend. Ze kwantificeert immers de bewijskracht in de data tegen de nulhypothese in het voordeel van de alternatieve hypothese.

Als \(H_A: p< 0.5\) waar is, verwachten we dat \(T\) (het aantal baby’s dat kiest voor de helper) vaak kleiner zal zijn dan wanneer \(H_0\) waar is. De p-waarde wordt bijgevolg gegeven door

\[ P(T \leq 3 \mid H_0) = P(T = 0 \mid H_0) + \ldots +P(T = 3 \mid H_0) = 0.01 \]

Als we \(H_0: p = 0.5\) versus \(H_A: p < 0.5\) toetsen, vinden we dus zeer sterk bewijs in de data tegen \(H_0\) in het voordeel van \(H_A\) wanneer 3 van de 16 baby’s kiezen voor de helper.

Bij het opstellen van de alternatieve hypothese is het dus belangrijk om de juiste richting aan te geven. Geef je de verkeerde richting aan, dan zal je geen bewijs tegen de nulhypothese vinden zelfs indien deze zou aanwezig zijn in de data (weliswaar in de andere richting). Dit brengt een moeilijkheid met zich mee: hoe weet je welke richting van de alternatieve hypothese de juiste is? Je mag deze keuze niet laten afhangen van de data, want dit is in strijd met het grondschema van de empirisch cyclus dat stelt dat je nieuw feitenmateriaal moet gebruiken om een hypothese te bevestigen of te ontkrachten. Je mag dus niet even snel kijken naar de data om dan te beslissen welke alternatieve je zal toetsen.

In de praktijk zal men eenzijdige alternatieve hypotheses maar gebruiken indien men vrij zeker is wat de juiste richting is (bijvoorbeeld op basis van voorgaand onderzoek). Wanneer men dit niet zeker weet, dan zal men opteren voor de tweezijdige alternatieve hypothese \(H_A: p \neq 0.5\) die bewijs zoekt in de data tegen de nulhypothese en dit in beide richtingen (dus zowel in de richting waar baby’s de helper verkiezen als de richting waar de baby’s de lastpost verkiezen). De tweezijdige alternatieve hypothese kan je dus zien als een veilige keuze en wordt in de praktijk vaak gebruikt. We betalen wel een kleine prijs voor deze voorzichtigheid: het blijkt dat eenzijdige toetsen beter in staat zijn om bewijs te vinden tegen \(H_0\) in vergelijking met de tweezijdige, als je tenminste in de juiste richting kijkt. Dit zal zich vertalen in de p-waarde: voor de tweezijdige toets zal deze groter zijn (ongeveer een factor 2) in vergelijking met de eenzijdige toets (wanneer de alternatieve hypothese van de eenzijdige de juiste richting aangeeft).

Hoe bereken je nu de p-waarde horende bij de tweezijdige alternatieve hypothese? Het bewijs in de data tegen de nulhypothese kan nu twee richting uitgaan. De kans dat 3 baby’s kiezen voor de helper indien \(H_0\) opgaat, wordt gegeven door 0.01 - zie Tabel 4.1. De tweezijdige p-waarde bekomen we nu door alle kansen op te tellen die maximaal 0.01 zijn en dus minstens even onwaarschijnlijk zijn als \(H_0\) opgaat. Dit zijn de kansen \(P(T = 0 \mid H_0), \ldots, P(T = 3 \mid H_0)\) in de ene richting en \(P(T = 13 \mid H_0) , \ldots, P(T = 16 \mid H_0)\) in de andere richting. Als we deze kansen optellen bekomen we een p-waarde van 0.02. We hebben bewijs gevonden tegen \(H_0\) in het voordeel van de tweezijdige alternatieve. Merk op dat de p-waarde groter is dan die horende bij de alternatieve \(H_A: p < 0.5\) (we hebben dus minder bewijskracht), maar wel een accurater beeld geeft dan die horende bij \(H_A: p > 0.5\) (het is een veilige keuze die vermijdt dat we in de verkeerde richting kijken).

Waarom berekenen we de p-waarde horende bij \(H_A: p<0.5\) als \(P(T \leq t \mid H_0)\) en niet als \(P(T \geq t \mid H_0)\)?

  • Parameter. Een eigenschap van het toevalsproces dat we wensen te bestuderen.

  • Kans. De kans op een gebeurtenis is gelijk aan de relatieve frequentie van die gebeurtenis als we het proces een oneindig aantal keer herhalen onder gelijkaardige condities. Symbolisch stellen we dit voor als P(A), wat je leest je als “de kans dat gebeurtenis A zich voordoet”. Als A het werpen van munt voorstelt, dan is P(A) = P(munt werpen) = 0.5. Als we een geldstuk vele malen na elkaar opwerpen, zullen we in de helft van de gevallen munt werpen. Als A het werpen van 4 is met een dobbelsteen, dan is P(A) = P(4 werpen) = 1/6. Als we een dobbelsteen vele malen na elkaar opwerpen, zullen we in een zesde van de gevallen een 4 werpen. De kans op een gebeurtenis is een voorbeeld van een parameter.

  • Nulhypothese en alternatieve hypothese. De hypotheses die we met elkaar contrasteren op basis van de data. We zoeken bewijs in de data tegen de nulhypothese dat wijst in de richting van de alternatieve hypothese. Het is de conventie om de nulhypothese steeds te schrijven in termen van een gelijkheid en de alternatieve in termen van een ongelijkheid (groter dan, kleiner dan of verschillend van). We gebruiken de notatie \(H_0\) voor de nulhypothese en \(H_A\) voor de alternatieve hypothese.

  • Statistiek. Een statistiek is een getal dat gegevens uit een steekproef samenvat. Voorbeelden van statistieken zijn de absolute frequentie, de relatieve frequentie, het gemiddelde, de standaarddeviatie, de correlatiecoëfficiënt, etc.

  • Toetsingsgrootheid. Een statistiek die informatie geeft over de hypotheses die we wensen te toetsen.

  • Schatting. Een schatting van de parameter op basis van de data. Als de parameter een kans is, is de relatieve frequentie in de steekproef de schatting van deze kans.

  • Geobserveerde toetsingsgrootheid. De toetsingsgrootheid die we berekenen op basis van de data.

  • Steekproevenverdeling. De verdeling van de toestingsgrootheid wanneer de studie herhaaldelijk uitvoeren.

  • Model. Een wiskundige benadering van de werkelijkheid die ons kan helpen de werkelijkheid beter te begrijpen. Een model zal altijd bepaalde veronderstellingen maken die mogelijks niet correct kunnen zijn.

  • Kansmodel. Een bijzonder geval van een statistisch model dat ons in staat stelt om kansen te berekenen. We gebruiken een kansmodel om de steekproevenverdeling te modelleren. Zo krijgen we inzicht in de steekproevenverdeling zonder dat we de studie herhaaldelijk moeten uitvoeren. Kansmodellen maken typisch verschillende assumpties en als deze assumpties niet voldaan zijn, beschrijven ze een vereenvoudigde versie van de werkelijkheid.

  • Binomiale verdeling. Bijzondere verdeling wanneer een variabele twee waarden kan aannemen (vaak ‘succes’ en ‘geen succes’ genoemd) die toelaat de kans te berekenen op \(k\) successen bij \(n\) onafhankelijke herhalingen. De formule om deze kansen te berekenen wordt gegeven door (4.1).

  • Assumpties. De binomiale verdeling zal een goede beschrijving van de werkelijkheid geven indien aan twee assumpties voldaan zijn:

    • De kans \(p\) is dezelfde voor elke herhaling.
    • De uitkomsten van de herhalingen zijn onafhankelijk van elkaar.
  • Nulverdeling. De verdeling van de toetsingsgrootheid wanneer we veronderstellen dat de nulhypothese waar is.

  • p-waarde. De kans, wanneer de nulhypothese waar is, om een toetsingsgrootheid te observeren die minstens even extreem is als de geobserveerde toetsingsgrootheid in de richting van de alternatieve hypothese. Deze kans interpreteren we als een maat van bewijskracht tegen de nulhypothese en in het voordeel van de alternatieve hypothese. Hoe kleiner de p-waarde, hoe sterker dit bewijs.

  • eenzijdige en tweezijdige alternatieven. De nulhypothese wordt altijd geformuleerd als een gelijkheid \(p=p_0\) (met \(p_0\) een vooropgesteld getal - we gaan hier later dieper op in), terwijl de alternatieve hypothese wordt geformuleerd als een ongelijkheid. We hebben drie keuzes voor de alternatieve hypothese:

    • de tweezijdige \(H_A: p \neq p_0\)
    • de eenzijdige \(H_A: p < p_0\). Dit wordt ook de linkszijdige alternatieve genoemd (de waarden van \(p\) liggen links van \(p_0\) als we ze uitzetten op een as).
    • de eenzijdige \(H_A: p > p_0\). Dit wordt ook de rechtszijdige alternatieve genoemd (de waarden van \(p\) liggen rechts van \(p_0\) als we ze uitzetten op een as).

4.6 Hypothesetoets: algemeen

In de voorgaande paragraaf hebben we de hypothesetoets formeel geïntroduceerd, maar enkel voor het geval dat je de kans \(p = 0.5\) wenst te toetsen. De binomiaal toets laat echter toe om waarden verschillend van 0.5 te toetsen. Meer algemeen kunnen we de nul- en alternatieve hypothese schrijven als \[ H_0: p = p_0 \quad \text{versus} \quad H_A: p > p_0, \] waarbij \(p_0\) de waarde is die je wenst te toetsen (0.5 in de voorgaande paragraaf). Net zoals bij de keuze van de alternatieve hypothese, mag je de keuze van \(p_0\) niet laten afhangen van de data en moet ze voortkomen uit de onderzoeksvraag. De uitwerking van de toets is analoog als in de voorgaande paragraaf, waarbij je in formule (4.1) \(p\) vervangt door \(p_0\). De andere eenzijdige alternatieve \(H_A: p< p_0\) of de tweezijdige alternatieve \(H_A: p \neq p_0\) zijn ook mogelijk.

Wanneer we \(p_0 = 0.5\) kiezen, kunnen we de nulverdeling interpreteren als de waarschijnlijkheid om een aantal keer munt te werpen bij \(n\) herhalingen. Het opwerpen van een geldstuk stelde conceptueel het toevalsproces voor als de nulhypothese waar is omdat we 50% kans hebben om munt te werpen. Bij een andere keuze van \(p_0\) kunnen we dit niet langer gebruiken, maar kunnen we andere kansmodellen bedenken. Voor \(p_0 = 0.9\) bijvoorbeeld, kunnen we denken aan een proces waarbij we willekeurig een bal trekken uit een trommel van 10 ballen waar er één rood is en negen wit zijn. Als we dit proces \(n\) keer herhalen en we tellen hoe vaak we een witte bal hebben getrokken (en we steeds de bal terugleggen), hebben we data gesimuleerd van het toevalsproces wanneer de nulhypothese \(H_0: p = 0.9\) waar is. In de praktijk hoeven we dit niet uit te voeren, omdat formule (4.1) toelaat om de nodige kansen te berekenen, maar de voorstelling kan helpen om het statistisch model onderliggend aan de nulverdeling beter te begrijpen.

Bedenk een kansmodel (zoals het opwerpen van een geldstuk of het trekken van een witte bal) dat toelaat de binomiale verdeling te conceptualiseren wanneer \(n=10\) en \(p = 0.75\).

4.7 Impact op de p-waarde

De p-waarde meet de bewijskracht in de data tegen de nulhypothese in het voordeel van de alternatieve hypothese. We weten al dat de p-waarde wordt beïnvloed door de keuze van alternatieve hypothese (eenzijdig of tweezijdig). Ze wordt ook nog beïnvloed door twee andere keuzes die we nu bespreken.

Verschil tussen \(p_0\) en \(\hat{p}\)

Veronderstel even dat de onderzoekers bij aanvang van de studie al sterke vermoedens hadden dat een groot deel van de baby’s zal kiezen voor de helper en dat ze de nulhypothese \(H_0: p = 0.75\) versus \(H_A: p > 0.75\) willen toetsen. Als ze deze nulhypothese kunnen verwerpen, hebben ze een sterker resultaat dan wanneer ze \(H_0: p = 0.5\) zouden toetsen. Inderdaad, als ze bewijs hebben dat meer dan driekwart van de baby’s kiest voor de helper dan is dit meer overtuigend om morele intuïtie te demonstreren dan wanneer je enkel kan zeggen dat je bewijs hebt dat meer dan de helft kiest voor de helper.

De p-waarde die hoort bij \(H_0:p = 0.75\) en wanneer 14 van de 16 baby’s kiezen voor de helper, wordt gegeven door uitdrukking (4.2) waarbij we de kansen in het rechterdeel berekenen via formule (4.1) waar we \(p\) vervangen door \(0.75\). Er volgt dat

\[ P(T =14 \mid H_0) = \frac{16!}{14!(16-14)!} 0.75^{14} (1-0.75)^{16-14} = 0.13, \] \[ P(T =15 \mid H_0) = \frac{16!}{15!(16-15)!} 0.75^{15} (1-0.75)^{16-15} = 0.05, \] \[ P(T =16 \mid H_0) = \frac{16!}{16!(16-16)!} 0.75^{16} (1-0.75)^{16-16} = 0.01. \] De p-waarde is bijgevolg gelijk aan \(0.13+0.05+0.01 = 0.19\). We hebben geen bewijs gevonden in de data tegen de nulhypothese. Dit demonstreert dat het bewijs in de data relatief gezien moet worden ten opzichte van de nulhypothese: tegen de éne nulhypothese kan er sterk bewijs gevonden worden, terwijl tegen de andere geen bewijs wordt gevonden. Meer specifiek zal men meer bewijs vinden in de data tegen de nulhypothese indien de relatieve frequentie sterker verschilt van de waarde onder de nulhypothese. Als 14 van de 16 baby’s kiezen voor de helper, komt dit overeen met een relatieve frequentie van \(14/16 = 0.875\). Het verschil met \(H_0: p = 0.5\) bedraagt 0.375 terwijl het verschil met \(H_0: p = 0.75\) slechts 0.125 bedraagt, wat de mindere bewijskracht verklaart.

De keuze van \(p_0\) laten afhangen van de data en de waarde kiezen waarvoor we de meeste bewijskracht kunnen bekomen, is ‘not done’ in de statistiek. Kan jij verklaren waarom het niet zinnig is om dit te doen?

Steekproefgrootte

Tot nu toe hebben we data geanalyseerd van een relatief kleine steekproef waar \(n=16\). We zullen zien dat als de steekproefgrootte toeneemt, we in de data sneller bewijs tegen de nulhypothese kunnen vinden. Dit is niet verwonderlijk, want hoe groter de steekproef, hoe meer informatie we hebben over het toevalsproces.

We kunnen dit illustreren door de nulverdeling te bekijken bij verschillende keuzes van \(n\). Het is deze nulverdeling die we gebruiken om de p-waarde te berekenen. Figuur 4.6 toont de nulverdeling bij \(H_0: p = 0.5\) voor verschillende waarden van \(n\) - we bekomen dit door formule (4.1) in te vullen per \(n\) en waarbij \(k\) loopt van 0 tot \(n\). Conceptueel zien we dit als het aantal keer dat we munt werpen bij \(n\) worpen.

Nulverdeling voor verschillende keuzes van $n$.Nulverdeling voor verschillende keuzes van $n$.Nulverdeling voor verschillende keuzes van $n$.

Figuur 4.6: Nulverdeling voor verschillende keuzes van \(n\).

Veronderstel even dat voor alle drie de studies 62% van de baby’s koos voor de helper. De relatieve frequentie \(\hat{p}\) is dus gelijk voor de drie studies. Bij \(n=16\) komt dit overeen met 10 baby’s, voor \(n=50\) zijn dit 31 baby’s en voor \(n=200\) zijn dit 125 baby’s. Deze aantallen worden op Figuur 4.6 weergegeven met een rode lijn. De som van de hoogte van de staven rechts van de rode lijn geeft de p-waarde horende bij de alternatieve \(H_0: p > 0.5\) weer. Als we ze berekenen, krijgen we

  • p-waarde = 0.23 voor \(n=16\)
  • p-waarde = 0.06 voor \(n=50\)
  • p=waarde \(<\) 0.001 voor \(n=200\).

Niettegenstaande voor elke studie hetzelfde percentage baby’s gekozen heeft voor de helper, zien we toch een sterk verschil in bewijskracht tegen de nulhypothese. Voor \(n=16\) vinden we geen bewijs tegen \(H_0\), voor \(n=50\) matig bewijs en voor \(n=200\) sterk bewijs. Dit komt doordat bij \(n=16\) het vrij waarschijnlijk is dat minstens 10 van de 16 baby’s kiezen voor de helper als ze geen voorkeur hebben. Bij \(n=50\) is het al een stuk minder waarschijnlijk is dat minstens 31 baby’s kiezen voor de helper indien ze voorkeur hebben. Tot slot is het bij \(n=200\) heel onwaarschijnlijk dat minstens 125 baby’s van de 200 kiezen voor de helper indien ze geen voorkeur hebben. Visueel zien we dit in Figuur 4.6 door de rode lijn die, bij toenemende \(n\), verder naar rechts opschuift weg van de massa van observaties. Dit drukt uit dat de waarden vanaf de rode lijn minder waarschijnlijk worden bij toenemende \(n\) als \(H_0\) waar is. Hoe groter de steekproef, hoe sneller je de mogelijkheid \(p=0.5\) kan uitsluiten als oorzaak. Dus hoe groter de steekproef, hoe sneller je bewijs kan vinden tegen de nulhypothese (als het bewijs aanwezig is).

4.8 Beslissingen op basis van een hypothesetoets

De hypothesetoets laat ons reeds toe om de bewijskracht in de data tegen de nulhypothese en in het voordeel van de alternatieve hypothese te kwantificeren. Deze bewijskracht kunnen we nu gebruiken om een besluit te nemen: verwerpen we de nulhypothese op basis van de data of verwerpen we ze niet? De beslissingsregels die we hanteren doen beroep op een significantieniveau dat we noteren met \(\alpha\). Dit significantieniveau leggen we op voorhand vast en is vaak klein. In de praktijk gebruikt men vaak \(\alpha=0.05\), maar andere keuzes zijn ook mogelijk. De beslissingsregels zijn dan als volgt:

  • indien p-waarde \(\leq \alpha\): verwerp de nulhypothese. We beslissen dat we in de data voldoende bewijs gevonden hebben tegen de nulhypothese zodat we besluiten dat de nulhypothese niet waar is.

  • indien p-waarde \(> \alpha\): verwerp de nulhypothese niet. We beslissen dat we in de data onvoldoende bewijs hebben gevonden tegen de nulhypothese, zodat we niet kunnen besluiten dat de nulhypothese niet waar.

Wanneer we de nulhypothese verwerpen, spreken we over een statistisch significant resultaat. We bedoelen hiermee dat het, op het \(\alpha\) significantieniveau, onwaarschijnlijk is dat het kansmodel met \(p=p_0\) het toevalsproces goed beschrijf. Als we de nulhypothese niet verwerpen, dan zeggen we dat het kansmodel plausibel is om het toevalsproces te beschrijven.

Merk op dat we doelbewust bij een p-waarde groter dan \(\alpha\) niet besluiten dat de nulhypothese waar is. We kunnen enkel besluiten dat we onvoldoende bewijs hebben tegen de nulhypothese. Het kan immers zijn dat andere waarden van \(p\) ook resulteren in grote p-waarden, zodat we ook voor deze andere waarden onvoldoende bewijs hebben om ze te verwerpen. Dus onvoldoende bewijs tegen een specifieke nulhypothese \(H_0: p = p_0\) sluit niet uit dat andere waarden voor \(p\) mogelijk zijn en daardoor kunnen we niet besluiten dat \(H_0\) waar is - we kunnen enkel besluiten dat we geen bewijs tegen \(H_0\) hebben gevonden.

We illustreren dit met een analogie waarbij je de hypothese naar voor schuift dat alle zwanen wit zijn. Als je rondloopt in een park en alle zwanen die je tegenkomt zijn wit (deze vormen de data), dan heb je enerzijds geen bewijs tegen je hypothese, maar anderzijds bewijst dit je hypothese ook niet. Het is goed mogelijk dat je toevallig geen zwarte zwaan bent tegengekomen. Het gebrek aan bewijs tegen een hypothese kunnen we dus niet interpreteren als bewijs dat de hypothese waar is. Je vraagt je nu misschien af waarom we bij het verwerpen van de nulhypothese deze ambiguïteit niet hebben. We keren hiervoor even terug naar de analogie: als je een zwarte zwaan bent tegengekomen, heb je bewijs tegen je hypothese. Ze laat ook verschillende opties open (misschien zijn 1% van alle zwanen zwart of misschien is dit 10%), maar we besluiten enkel dat we bewijs hebben dat niet alle zwanen wit zijn (en we spreken ons niet uit over het percentage zwarte zwanen).

De nulhypothese en alternatieve hypothese verschillen fundamenteel van elkaar: de nulhypothese stelt dat de parameter gelijk is aan één specifieke waarde (wat moeilijk te bewijzen, maar makkelijk te ontkrachten is via data) terwijl de alternatieve hypothese oneindig veel mogelijke waarden voor \(p\) naar voor schuift (wat minder informatief is, maar makkelijker te bewijzen is). Aantonen dat niet alle zwanen wit zijn, is dus makkelijker dan aantonen dat alle zwanen wit zit.

  • Veronderstel dat 6 op 8 baby’s kiezen voor de helper. Bepaal de p-waarde horende bij \(H_0: p = 0.5\) en \(H_A: p > 0.5\).
  • Herhaal dit voor \(H_0: p = 0.6\) en \(H_A: p > 0.6\).
  • Gebruik voorgaande berekening om te illustreren dat we bij een grote p-waarde niet kunnen besluiten dat \(H_0\) waar is. Gebruik \(\alpha = 0.05\) bij de beslissingsregels.

Tabel 4.3 geeft de vier mogelijkheden weer die zich kunnen voordoen als we een hypothesetoets en significantieniveau gebruiken om een beslissing te maken. In twee scenario’s maken we een correct besluit:

  • \(H_0\) is waar en op basis van de data verwerpen we \(H_0\) niet.

  • \(H_A\) is waar en op basis van de data verwerpen we \(H_0\).

Er zijn ook twee andere scenario’s waar we een foutief besluit nemen:

  • \(H_0\) is waar en op basis van de data verwerpen we \(H_0\). Dergelijke fout wordt een fout van de eerste soort genoemd, of kortweg een type 1 fout.

  • \(H_A\) is waar en op basis van de data verwerpen we \(H_0\) niet. Dergelijke fout wordt een fout van de tweede soort genoemd, of kortweg een type 2 fout.

Tabel 4.3: De vier mogelijke uitkomsten wanneer we een hypothesetoets uitvoeren.
Besluit op basis van de toets
\(H_0\) niet verwerpen \(H_0\) verwerpen
\(H_0\) is correct correct besluit type 1 fout
Werkelijkheid \(H_A\) is correct type 2 fout correct besluit

We kunnen de twee soorten fouten ook vertalen naar de context van het onderzoek waar we \(H_0: p=0.5\) en \(H_A: p > 0.5\) toetsen. We maken een type 1 fout als we ten onrechte besluiten dat baby’s vaker de helper kiezen. We maken een type 2 fout als we ten onrechte besluiten dat we geen bewijs gevonden hebben dat baby’s de helper verkiezen.

Het is evident dat we de kansen op een correct besluit willen maximaliseren en de kansen op fouten willen minimaliseren. De kans om \(H_0\) niet te verwerpen wanneer ze waar is, wordt de betrouwbaarheid van de toets genoemd. De kans om \(H_0\) te verwerpen wanneer \(H_A\) waar is, wordt het onderscheidingsvermogen of de power van de toets genoemd. De betrouwbaarheid en de kans op een type 1 fout hangen nauw samen, alsook de power en de kans op een type 2 fout. Dit lichten we eerst toe.

Als \(H_0\) waar is, zijn er maar twee mogelijke uitkomsten: of we verwerpen \(H_0\) (en we maken een type 1 fout) of we verwerpen \(H_0\) niet (we maken een correct besluit). Dit impliceert dat de som van de betrouwbaarheid en de kans op een type 1 fout is steeds 1 (net zoals dat de som van de kans op het werpen van munt en de kans op het werpen van kop bij één worp ook gelijk aan 1 is). We kunnen dit in compacte notatie schrijven als \[ P(\text{verwerp } H_0 | H_0 \text{ is waar}) + P(\text{verwerp } H_0 \text{ niet} | H_0 \text{ is waar}) = 1. \] Hieruit kunnen we afleiden dat \[ P(\text{verwerp } H_0 \text{ niet} | H_0 \text{ is waar}) = 1 - P(\text{verwerp } H_0 | H_0 \text{ is waar}). \] In woorden uitgedrukt: de betrouwbaarheid is gelijk aan 1 min de kans op een type 1 fout.

Analoog kunnen we afleiden dat \[ P(\text{verwerp } H_0 | H_A \text{ is waar}) = 1 - P(\text{verwerp } H_0 \text{ niet} | H_A \text{ is waar}) \] In woorden: de power is gelijk aan 1 min de kans op een type 2 fout.

De voorgaande inzichten leren ons al dat we enkel moeten focussen op het minimaliseren van de kansen op een type 1 en 2 fout. Als deze afnemen, zullen de betrouwbaarheid in de power automatisch toenemen.

Een hypothesetoets heeft een bijzonder eigenschap: de kans op een type I fout is gelijk aan het significantieniveau. We kunnen dus deze kans controleren via onze keuze van \(\alpha\). Als we \(\alpha=0.05\) kiezen, dan is de kans op een type I fout gelijk aan 5%. Dit is een zeer sterke eigenschap van een hypothesetoets. Je vraagt je misschien af waarom we het signifcantieniveau niet gelijkstellen aan nul, dan is het immers onmogelijk om een type 1 fout te maken. We doen dit niet, omdat een type 1 en type 2 fout ook samenhangen met elkaar: als de kans op de ene fout afneemt, dan neemt de kans op de andere fout toe. We kunnen dit verklaren door te kijken naar de beslissingsregels. Stel dat we \(\alpha=0\) kiezen, dan zullen we de nulhypothese bijna nooit verwerpen, ook al is de p-waarde zeer klein (maar groter dan nul). Deze toets zal dus de nulhypothese dus bijna nooit verwerpen, ook indien de alternatieve hypothese waar is. Dus als de alternatieve hypothese waar is, zullen we zeer vaak een fout besluit nemen (door de nulhypothese niet te verwerpen). De kans op een type 2 fout is bijgevolg zeer groot. De exacte relatie tussen de kans op een type 1 en type 2 fout is complex en bespreken we niet verder. Het volstaat te weten dat deze kansen samenhangen en als je de kans op een type 1 fout laat afnemen door \(\alpha\) kleiner te kiezen, dan zal de kans op een type 2 fout toenemen. Omwille van die reden zal men \(\alpha\) vaak niet te klein kiezen.

Hoe kunnen we nu de kans op een type 2 fout klein houden eenmaal we \(\alpha\) hebben vastgelegd? Het antwoord is de steekproefgrootte: door meer data te verzamelen, zal de kans op een type 2 fout afnemen. We kennen al de relatie tussen de steekproefgrootte en de p-waarde: hoe groter de steekproef, hoe sneller we bewijs tegen de nulhypothese kunnen vinden en dus hoe kleiner de p-waarde zal worden. Doordat de p-waarde kleiner wordt, zullen we de nulhypothese sneller verwerpen wanneer de alternatieve opgaat. De power van de toets zal dus groter worden, waardoor de kans op een type 2 fout zal dalen (want opgeteld zijn beide kansen steeds gelijk aan 1). Je kan de kans op een 2 fout berekenen via de binomiale verdeling, maar omdat de berekening vrij complex is, gaan we hier niet verder op in.

Tot slot staan we nog even stil bij de interpretatie van de kansen. Veronderstel dat \(\alpha=0.05\), dan is de kans op een type 1 fout gelijk aan 5%. Maar wat is de betekenis van deze kans? Als we een hypothesetoets uitvoeren is ons besluit ofwel juist ofwel fout - waarop heeft deze 5% dan betrekking? De kansen hebben betrekking op het toevalsproces en niet op de specifieke studie die we onderzoeken. Veronderstel even dat de nulhypothese waar is en dat we de studie herhaaldelijk opnieuw uitvoeren en per studie een besluit nemen (\(H_0\) verwerpen of \(H_0\) niet verwerpen). Een kans op een type 1 fout betekent dat we bij 5% van deze studies het verkeerde besluit zullen nemen: bij 5% van deze studies zullen we \(H_0\) verwerpen (en bij 95% van de studies nemen we het juiste besluit). De kansen hebben dus betrekking op het toevalsproces, net zoals dit het geval is bij het opwerpen van een geldstuk: de kans op het gooien van munt heeft geen betrekking op één worp (ofwel gooi je munt ofwel gooi je kop) maar op het relatief aantal keer dat je munt hebt gegooid bij het herhaaldelijk opwerpen.

Veronderstel dat de kans op een type 2 fout gelijk is aan 16%. Geef een interpretatie aan deze kans.

  • Beslissingsregels. Op basis van een hypothesetoets kunnen we via de beslissingsregels een besluit trekken over de hypotheses:

    • als de p-waarde \(\leq \alpha\) verwerpen we \(H_0\).
    • als de p-waarde > \(\alpha\) verwerpen we \(H_0\) niet.

    \(\alpha\) stelt het significantieniveau van de hypothesetoets voor en ze is de grenswaarde om vast te leggen hoe klein de p-waarde moet zijn om \(H_0\) te verwerpen.

  • Statistisch significant. Een waarde voor \(p\) is statistisch significant voor een bepaalde keuze van \(\alpha\) als we haar nulhypothese kunnen verwerpen.

  • Type 1 fout. Indien in werkelijkheid de nulhypothese waar is, maar we verwerpen ze op basis van de data, maken we een type 1 fout. De kans op een type 1 fout is gelijk aan \(\alpha\).

  • Type 2 fout. Indien in werkelijkheid de alternatieve hypothese waar is, maar we verwerpen de nulhypothese niet op basis van de data, maken we een type 2 fout. De kans op een type 2 fout kan je berekenen, maar deze berekening is niet eenvoudig.

  • Betrouwbaarheid. De kans om terecht de nulhypothese niet te verwerpen.

  • Onderscheidingsvermogen/power. De kans om terecht de nulhypothese te verwerpen.

4.9 Betrouwbaarheidsintervallen

Tot dusver stond de hypothesetoets centraal. Ze laat ons toe de bewijskracht in de data tegen een nulhypothese in het voordeel van een alternatieve hypothese te kwantificeren en ze laat ons toe om een besluit te nemen via een significantieniveau. Als 14 van de 16 baby’s kiezen voor de helper, dan hebben we sterke bewijskracht tegen de nulhypothese dat baby’s geen voorkeur hebben en we verwerpen we de ‘geen voorkeur’ hypothese op het 5% significantieniveau. We hebben dus bewijs dat baby’s vaker de helper zullen verkiezen. Een logische volgende vraag is: ‘hoe sterk is de voorkeur?’. Is de werkelijke kans om de helper te kiezen maar een klein beetje groter dan 50%? - wat kan wijzen op een zwakke voorkeur. Of is deze kans een stuk groter dan 50%? - wat kan wijzen op een sterke voorkeur.

We willen een idee krijgen over de werkelijke waarde van \(p\), de kans om de helper te kiezen. Herinner je dat \(p\) de relatieve frequentie voorstelt van het aantal keer dat de helper wordt gekozen bij het toevalsproces. Dus indien we de studie herhaaldelijk uitvoeren, geeft \(p\) het percentage van baby’s weer dat gekozen heeft voor de helper. Wij hebben gegevens over één herhaling van de studie waarbij 14 van de 16 baby’s kozen voor de helper. Een logische keuze is om \(p\) te schatten op basis van de relatieve frequentie in de data \(\hat{p} = 14/16 = 0.875\). Niettegenstaande deze schatting informatief is om een uitspraak te doen over \(p\), ontbreekt er iets: ze houdt geen rekening met de variabiliteit afkomstig van het toevalsproces. Als we de studie zouden herhalen, verwachten we dat \(\hat{p}\) wat zal wijzigen. Deze vorm van variabiliteit willen terugzien bij het beantwoorden van de vraag ‘hoe sterk is de voorkeur?’ of meer algemeen ‘wat is de waarde van \(p\)?’. Een betrouwbaarheidsinterval zal ons hier een gepast antwoord op geven door een interval te geven van waarden voor \(p\) die compatibel zijn met de data.

We beschouwen een waarde van \(p\) als compatibel indien we geen bewijs vinden in de data tegen deze waarde. We zullen dus een reeks van hypothesetoetsen uitvoeren \(H_0: p=p_0\) voor verschillende waarden van \(p_0\) en we behouden alle waarden van \(p_0\) waartegen we geen bewijs hebben gevonden in de data, waarbij we de beslissingsregels uit paragraaf 4.8 hanteren. Dus als de p-waarde groter is dan \(\alpha\) dan besluiten we dat de bijhorende keuze van \(p_0\) compatibel is met de data. Als de p-waarde kleiner dan of gelijk is aan \(\alpha\), dan besluiten we de \(p_0\) niet compatibel is. Het betrouwbaarheidsinterval wordt het \((1-\alpha)\)-betrouwbaarheidsinterval genoemd. Als we 5% nemen als significantieniveau, bekomen we een 95% betrouwbaarheidsinterval.

De conventie is om de tweezijdige alternatieve te gebruiken \(H_A: p\neq p_0\) bij de berekening van de p-waarde. Eenzijdige alternatieven kunnen ook, maar deze worden zelden gebruikt om betrouwbaarheidsintervallen op te stellen.

Tabel 4.4 illustreert voorgaande redenering: voor verschillende waarden van \(p_0\) zien we de p-waarde wanneer 14 van de 16 baby’s kiezen voor de helper. Door de p-waarde te vergelijken met \(\alpha = 0.05\) besluiten we of \(p_0\) compatibel is met de data. De vierde kolom (kolommen drie en vijf hebben we pas later nodig en kan je voorlopig negeren) geeft aan dat de keuzes \(p_0 = 0.63\) tot \(p_0 = 0.97\) allemaal compatibel zijn met de data: hun p-waarden zijn groter dan \(0.05\). Waarden kleiner dan \(0.63\) of groter dan \(0.97\) zijn niet compatibel omdat hun p-waarde kleiner is dan \(0.05\). Het 95% betrouwbaarheidsinterval wordt bijgevolg gegeven door \([0.63, 0.97]\).

Tabel 4.4: Resultaten van verschillende keuzes van \(p_0\) bij het tweezijdig testen van \(H_0: p=p_0\) voor het 1%, 5% en 10% significantieniveau.
\(p_0\) p-waarde Compatibel \(1\%\) Compatibel \(5\%\) Compatibel \(10\%\)
0.53 0.0052 Nee Nee Nee
0.54 0.0097 Nee Nee Nee
0.55 0.0101 Ja Nee Nee
0.62 0.0392 Ja Nee Nee
0.63 0.066 Ja Ja Nee
0.64 0.066 Ja Ja Nee
0.65 0.0679 Ja Ja Nee
0.66 0.1096 Ja Ja Ja
0.96 0.1327 Ja Ja Ja
0.97 0.0818 Ja Ja Nee
0.98 0.0399 Ja Nee Nee
0.99 0.0109 Ja Nee Nee
1 0 Nee Nee Nee

Uit Tabel 4.4 leren we dat de p-waarde groter is dan 5% voor \(p_0=0.63\) en \(p_0=0.97\). Welke eigenschap van de binomiaaltoets zorgt ervoor dat we hieruit kunnen besluiten dat de p-waarde horende bij \(0.63 \leq p_0 \leq 0.97\) ook groter dan 0.05 zal zijn?

Wanneer 14 van de 16 baby’s kiezen voor de helper, zijn de alle waarden voor \(p\) vanaf 63% tot 97% compatibel met de data. Dit geeft ons een idee over de waarde van \(p\) waarbij we in rekening brengen dat er onzekerheid is omwille van variabiliteit die inherent is aan het toevalsproces. Of anders uitgedrukt: door een interval te geven, erkennen we dat de resultaten van één studie onderhevig zijn aan toeval. We kunnen nog steeds leren uit de data - het is immers dankzij de data dat we een interval kunnen opstellen - maar we kunnen niet met zekerheid zeggen wat de werkelijke waarde van \(p\) is.

Het \((1-\alpha)\)-betrouwbaarheidsinterval kunnen we interpreteren als alle waarden voor \(p\) die compatibel zijn met de data op het significantieniveau \(\alpha\). Toegepast op de studie wordt dit: alle waarden voor de kans dat de baby kiest voor de helper die compatibel is wanneer 14 van de 16 baby’s kiezen voor de helper.

We kunnen ook een interpretatie geven aan het niveau van betrouwbaarheid. Als \(\alpha=0.05\) dan bekomen we een 95% betrouwbaarheidsinterval. Maar wat is de betekenis van die 95% betrouwbaarheid? Net zoals bij de hypothesetoets, heeft deze interpretatie betrekking op het toevalsproces. Indien we de studie vele malen herhalen en per studie het 95% betrouwbaarheidsinterval berekenen (en deze intervallen wijzigen van studie tot studie omdat de data wijzigen), dan zullen 95% van die intervallen de werkelijke waarde omvatten.

  • compatibel. Een waarde voor de parameter \(p\) wordt compatibel genoemd op het \(\alpha\) signficantieniveau indien de tweezijdige p-waarde horende bij die waarde groter is dan \(\alpha\). In regels uitgedrukt wordt dit:
    • tweezijdige p-waarde horende bij \(H_0: p=p_0\) is groter dan \(\alpha\): \(p_0\) is compatibel met de data.
    • tweezijdige p-waarde horende bij \(H_0: p=p_0\) is kleiner dan of gelijk aan \(\alpha\): \(p_0\) is niet compatibel met de data.

4.10 Impact op het betrouwbaarheidsinterval

Betrouwbaarheid

Afhankelijk van de keuze van significantieniveau \(\alpha\) kunnen we verschillende betrouwbaarheidsintervallen berekenen. Op basis van Tabel 4.4 is voor \(\alpha=0.01\) het 99% betrouwbaarheidsinterval gelijk aan \([0.55, 0.99]\), voor \(\alpha = 0.05\) is het 95% betrouwbaarheidsinterval gelijk aan \([0.63, 0.97]\), terwijl voor \(\alpha=0.1\) het 99% betrouwbaarheidsinterval gelijk is aan \([0.66, 0.96]\). We merken dat bij toenemende \(\alpha\) (en dus afnemende betrouwbaarheid) het interval smaller wordt. Dit komt doordat minder p-waarden groter zullen zijn dan \(\alpha\) wanneer \(\alpha\) toeneemt, waardoor er minder waarden van \(p_0\) compatibel zullen zijn met de data. Een smaller interval is wenselijk omdat we dan een meer nauwkeurige uitspraak kunnen doen over \(p\). We moeten echter een prijs betalen wanneer we \(\alpha\) laten toenemen: voor \(\alpha=0.1\) besluiten we dat een waarde van \(p_0\) die resulteert in een p-waarde kleiner dan of gelijk is aan 0.1 niet compatibel is met de data. Tabel 4.2 geeft echter aan dat een p-waarde tussen 0.1 en 0.05 maar matige bewijskracht levert. Dit zal resulteren in een grotere kans dat we waarden van \(p_0\) ten onrechte labelen als niet compatibel, wat resulteert in een lagere betrouwbaarheid. Als we de studie herhalen dan zal de parameter \(p\) met een kans van 90% in het 90% betrouwbaarheidsinterval liggen - dit is lager dan de kans bij een 95% of 99% betrouwbaarheidsinterval.

Samengevat kan je het betrouwbaarheidsinterval smaller maken (wat een meer nauwkeurige uitspraak over \(p\) toelaat) door het significantieniveau te laten toenemen, maar dit resulteert in een minder betrouwbaar interval (de kans is kleiner dat ze de werkelijke waarde zal omvatten). In de praktijk zal men vaak kiezen voor \(\alpha=0.05\) om zo een 95% betrouwbaarheidsinterval te bekomen.

Steekproefgrootte

Als de steekproefgrootte toeneemt, dan zullen we sneller bewijs vinden tegen de nulhypothese waardoor de p-waarde zal afnemen, zie paragraaf 4.7. Als de p-waarde daalt zullen dus minder waarden van \(p_0\) compatibel zijn met de data wat resulteert in smallere betrouwbaarheidsintervallen.

We hernemen de setting uit paragraaf 4.7 waar we 3 steekproeven hebben met grootte \(n=16\), \(n=50\) en \(n=200\) en voor elke studie kiest 62% voor de helper. De 95% betrouwbaarheidsintervallen worden gegeven door

  • \([0.35, 0.85]\) voor \(n=16\)

  • \([0.47, 0.75]\) voor \(n=50\)

  • \([0.55, 0.69]\) voor \(n=200\)

Dit illustreert het belang van de grootte van de steekproef: hoe groter ze is, hoe nauwkeuriger we een uitspraak kunnen doen over de parameter \(p\) van het onderliggende proces zonder dat we moeten inboeten aan betrouwbaarheid. De uitspraak is meer nauwkeurig omdat het interval kleiner is doordat we meer data hebben over het toevalsproces waarover we een uitspraak wensen te doen.

4.11 Betrouwbaarheidsintervallen en beslissingsregels via formules

De constructie van een betrouwbaarheidsinterval via het nagaan welke waarden voor \(p\) compatibel zijn met de data laat toe te begrijpen wat een betrouwbaarheidsinterval precies is: ze geeft ons alle waarden voor de parameter \(p\) die compatibel zijn met de data op een bepaald signficantieniveau. Het berekenen van het interval is echter omslachtig: we moeten vrij veel p-waarden berekenen om na te gaan wanneer waarden niet meer compatibel zijn om zo de eindpunten van het interval vast te leggen. Softwarepaketten maken gebruik maken van slimme algoritmes om het interval te bekomen zonder veel rekenkracht, maar deze software heb je niet altijd bij de hand. In deze paragraaf zien we daarom een eenvoudige formule die ons zal toelaten een benadering te geven van het betrouwbaarheidsinterval. Deze formule dient twee doelen:

  • ze laat ons toe om handmatig het betrouwbaarheidsinterval te benaderen.

  • ze geeft ons inzicht in bepaalde eigenschappen van het betrouwbaarheidsinterval.

De formule heeft de vorm \[\begin{equation} [\hat{p} - \text{kritische waarde} \times \hat{SE}, \hat{p} + \text{kritische waarde} \times \hat{SE}], \tag{4.3} \end{equation}\] waarbij de kritische waarde een getal is dat afhangt van \(\alpha\) en wordt gegeven in Tabel 4.5 voor drie keuzes van \(\alpha\). \(SE\) staat voor standaardfout (standard error in het Engels) en is de naam voor de standaardafwijking van \(\hat{p}\) als we de studie herhaaldelijk zouden uitvoeren. Per herhaling bekomen we een andere waarde van \(\hat{p}\) (omwille van het toevalsproces) en indien we veel herhaling uitvoeren en de standaardafwijking op \(\hat{p}\) bereken via formule (2.1) bekomen we de standaardfout van \(\hat{p}\). De standaardfout geeft dus aan hoe sterk \(\hat{p}\) zal variëren als we de studie herhaaldelijk zouden uitvoeren.

De werkelijke waarde van de standaardfout kennen we niet omdat we in de praktijk de studie niet herhaaldelijk uitvoeren. Je kan echter aantonen dat we deze waarde kunnen schatten op basis van de data: \(\hat{SE} = \sqrt{\hat{p}(1-\hat{p})/n}\). We kunnen dus inschatten hoe sterk de schatting \(\hat{p}\) zal variëren indien we de studie herhaaldelijk opnieuw uitvoeren zonder dat we dit daadwerkelijk moeten doen.

Tabel 4.5: Kritische waarde voor verschillende keuzes van het significantienive
Significantieniveau Kritische waarde
0.10 1.64
0.05 1.96
0.01 2.58

Als we dit toepassen wanneer 14 van de 16 baby’s kiezen voor de helper, dan wordt het 95% betrouwbaarheidsinterval benaderd door \[ [0.875 - 1.96 \times \sqrt{0.875(1-0.857)/16}, 0.875 + 1.96 \times \sqrt{0.875(1-0.857)/16}] = [0.70, 1.04]. \] Omdat de kans \(p\) niet groter kan zijn dan 1 (de formule houdt hier geen rekening mee), herschrijven we interval als \([0.70, 1]\). Dit ligt in de buurt van het oorspronkelijk interval \([0.63, 0.97]\), maar de benadering is hier niet zo goed. Dit komt door de kleine steekproefgrootte \(n=16\). Je kan aantonen dat de benadering beter wordt als \(n\) toeneemt. Wanneer \(n=200\) en 62% kiest voor de helper, is het exacte betrouwbaarheidsinterval \([0.55,0.69]\). Via de formules krijgen we \[ [0.62 - 1.96 \times \sqrt{0.62(1-0.62)/200}, 0.62 + 1.96 \times \sqrt{0.62(1-0.62)/200}] = [0.55, 0.69]. \] Dit illustreert dat de benadering beter zal zijn als \(n\) groter wordt. Verder kan je ook aantonen dat de benadering minder goed is als werkelijke waarde van \(p\) dicht bij 0 of 1 ligt. In de praktijk zal de formule vaak een goede benadering geven als we minsten 10 observaties per waarde van de uitkomstvariabele hebben (dus minstens 10 baby’s die kiezen voor de helper en minstens 10 die kiezen voor de lastpost).

De formule (4.3) heeft dus haar beperkingen, maar is handig als je enkel informatie over \(\hat{p}\) en \(n\) hebt zonder dat het betrouwbaarheidsinterval is gegeven. Via enkele eenvoudige berekeningen krijg je snel een beeld van (een benadering) het betrouwbaarheidsinterval.

Formule (4.3) bevestigt ook de inzichten uit paragraaf 4.10. De breedte van het interval wordt gegeven door \(2 \times \text{kritische waarde} \times \sqrt{\hat{p}(1-\hat{p})/n}\).

  • Uit Tabel 4.5 leren we dat de kritische waarde groter wordt naarmate de betrouwbaarheid groter wordt (dus wanneer het signicantieniveau kleiner wordt). Hierdoor zal de breedte van het interval toenemen bij toenemende \(\alpha\) (of afnemende betrouwbaarheid).

  • De geschatte standaardfout \(\hat{SE} = \sqrt{\hat{p}(1-\hat{p})/n}\) wordt kleiner als \(n\) toeneemt. Dus bij toenemende steekproefgrootte zal de breedte van het interval afnemen. Merk op dat de vierkantswortel een belangrijke implicatie heeft: als de breedte van een interval wil halveren, moet je de steekproef vier keer zo groot maken.

De formule geeft ons nog een extra inzicht: de breedte van het interval hangt af van \(\hat{p}(1-\hat{p})\). Je kan aantonen dat deze waarde het grootst is wanneer \(\hat{p}=0.5\) en afneemt wanneer \(\hat{p}\) kleiner of groter wordt. Betrouwbaarheidsintervallen voor data waar de geschatte kans rond 50% ligt, zullen dus iets breder zijn dan betrouwbaarheidsintervallen waarvoor de kans dichter bij 0% of 100% ligt.

We zien dus dat de breedte van het interval wordt beïnvloed door drie factoren. Er is slechts één factor waarover we controle hebben als we het interval smaller willen maken: de steekproefgrootte. Hoe groter de steekproef, hoe smaller het interval. Het verlagen van de betrouwbaarheid is geen optie, want niettemin het interval smaller wordt, neemt ook de betrouwbaarheid af, wat onwenselijk is. De waarde van \(\hat{p}\) kunnen we ook niet controleren, want deze waarde wordt bepaald door de data en het onderliggend toevalsproces dat we bestuderen.

  • Veronderstel bij een studie met \(n=36\) dat \(\hat{p} = 0.75\). Bereken het 95% betrouwbaarheidsinterval.

  • Veronderstel bij een nieuwe studie met \(n=72\) dat \(\hat{p} = 0.75\). bereken het 95% betrouwbaarheidsinterval.

  • Veronderstel bij een nieuwe studie met \(n=144\) dat \(\hat{p} = 0.75\). bereken het 95% betrouwbaarheidsinterval.

  • Vergelijk de breedte van de drie betrouwbaarheidsintervallen. Kan je een patroon ontwaren?

Tot slot geven we ook een berekening die toelaat de beslissingsregels van een tweezijdige hypothesetoets handmatig te berekenen en waarvoor enkel \(\hat{p}\) en \(n\) gekend moeten zijn. Dit kan handig zijn wanneer je een studie leest waar men geen p-waarden heeft gerapporteerd. In een eerste stap bereken je de gestandaardiseerde toetsingsgrootheid, deze noteren we met \(z\) en wordt gegeven door \[ z = \frac{\hat{p} - p_0}{\hat{SE}}. \] Vervolgens vergelijk je deze gestandaardiseerde toetsingsgrootheid met de kritische waarde uit Tabel 4.5. Je kan aantonen dat de beslissingsregels uit paragraaf 4.8 benaderd kunnen worden door volgende regels:

  • Als \(|z| \geq\) kritische waarde: verwerp \(H_0\).

  • Als \(|z| <\) kritische waarde: verwerp \(H_0\) niet.

Net als bij de formules voor het betrouwbaarheidsinterval, zijn voorgaande beslissingsregels een goede benadering indien we minstens 10 observaties per waarde van de uitkomstvariabele hebben. We kunnen de richtlijnen rond de interpretatie van de bewijskracht tegen de nulhypothese uit Tabel 4.2 ook benaderen via de gestandaardiseerde toetsingsgrootheid, zie Tabel 4.6.

Tabel 4.6: Richtlijnen interpretatie gestandaardiseerde teststatistiek als bewijskracht tegen \(H_0\)
\(|z| ≤ 1.5\) weinig bewijskracht tegen \(H_0\)
\(1.5 <|z| ≤ 2\) matige bewijskracht tegen \(H_0\)
\(2 <|z| ≤ 3\) sterke bewijskracht tegen \(H_0\)
\(3 <|z|\) zeer sterke bewijskracht tegen \(H_0\)
  • Formules om het betrouwbaarheidsinterval te benaderen. \[ [\hat{p} - \text{kritische waarde} \times \hat{SE}, \hat{p} + \text{kritische waarde} \times \hat{SE}], \] met \(\hat{SE} = \sqrt{\hat{p}(1-\hat{p})/n}\) en de kritische waarde in Tabel 4.5.

  • Gestandaardiseerde toetsingsgrootheid wordt gegeven door \[ z = \frac{\hat{p} - p_0}{\hat{SE}}. \] Ze laat toe beslissingsregels en de bewijskracht tegen de nulhypothese te interpreteren zonder dat er p-waarden moeten worden berekend. Dit is voornamelijk handig als de p-waarde niet gegeven is, maar je hebt wel informatie over \(\hat{p}\), \(p_0\) en \(n\) zodat je \(z\) handmatig kan berekenen.

  • Beslissingsregels op basis van de gestandaardiseerde toetsingsgrootheid:

    • Als \(|z| \geq\) kritische waarde: verwerp \(H_0\).
    • Als \(|z| <\) kritische waarde: verwerp \(H_0\) niet.

4.12 Misvattingen rond p-waarden en betrouwbaarheidsintervallen

P-waarden en betrouwbaarheidsintervallen vormen nuttige statistische technieken om op basis van data een besluit te formuleren over het toevalsproces. Het zijn echter geen makkelijke concepten en ze geven aanleiding tot misvattingen waarvan we er hier enkele bespreken.

  • De p-waarde geeft de kans dat de nulhypothese waar is. Dit is niet correct: de nulhypothese is 100% waar of ze is 100% niet waar. De p-waarde geeft de kans, in de veronderstelling dat de nulhypothese waar is, dat we een toetsingsgrootheid observeren die minstens evenveel in de richting van de alternatieve hypothese wijst dan de geobserveerde toetsingrootheid.

  • Een p-waarde kleiner dan of gelijk aan \(\alpha\) impliceert dat \(H_0\) fout is. Het kan zijn dat \(H_0\) fout is, maar dit kunnen we niet met zekerheid zeggen. Het is mogelijk dat \(H_0\) juist is en dat we een type 1 fout maken. Of het is ook mogelijk dat andere assumpties niet opgaan: herinner je dat de p-waarde wordt berekend door gebruik te maken van de binomiale verdeling en deze verdeling heeft bepaalde assumpties, zie paragraaf 4.5. Een kleine p-waarde kan ook wijzen op het feit dat deze assumpties niet voldaan zijn. Samengevat kan een kleine p-waarde wijzen op bewijs tegen de nulhypothese, maar ze kan ook wijzen op bewijs tegen andere assumpties die we maken of we kunnen ook een type 1 fout maken. Een kleine p-waarde impliceert dus niet altijd dat \(H_0\) fout is.

  • Een p-waarde groter dan \(\alpha\) impliceert dat \(H_0\) juist is. Neen, een grote p-waarde geeft enkel aan dat de data niet ongewoon zijn indien \(H_0\) en alle assumpties opgaan. Het is mogelijk dat de data ook niet ongewoon zijn voor andere nulhypotheses of het is mogelijk dat we een type 2 fout maken.

  • Een p-waarde kleiner of gelijk aan \(\alpha\) impliceert een belangrijke wetenschappelijke bevinding. Neen, ze geeft enkel bewijs tegen de nulhypothese (of tegen andere assumpties die we maken), maar mogelijks is de nulhypothese niet relevant.

  • Een 95% betrouwbaarheidsinterval, vb. [0.63,0.97], drukt uit dat de werkelijke kans \(p\) met 95% zekerheid in dit interval ligt. Neen, de waarde \(p\) ligt ofwel voor 100% in dit interval of wel voor 100% buiten dit interval. De interpretatie van de betrouwbaarheid heeft geen betrekking op de getallen 0.63 en 0.97 maar op het toevalsproces waarbij we de studie herhaaldelijk uitvoeren en we kijken naar het percentage intervallen die de werkelijke waarde \(p\) bevatten.

4.13 Aan de slag met R

Een binomiaaltoets kunnen we uitvoeren in R via het commando binom.test() waar we als argumenten het aantal ‘successen’ opgeven (hier het aantal baby’s dat kiest voor de helper), de steekproefgrootte en de waarde van \(p_0\) die willen toetsen.

binom.test(14, n = 16, p = 0.5)
## 
## 
## 
## data:  14 out of 16
## number of successes = 14, number of trials = 16,
## p-value = 0.004181
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.6165238 0.9844864
## sample estimates:
## probability of success 
##                  0.875

Uit de output kunnen we heel wat informatie aflezen:

  • de data die we hebben ingegeven: 14 successen op een totaal van 16.

  • de p-waarde horende bij de tweezijdige alternatieve hypothese (“true probability of success is not equal to 0.5” wat slaat op de tweezijdige alternatieve). “true probability of success” slaat op de kans op succes waarbij we succes hebben vastgelegd via het ingeven van de data: de 14 successen hebben betrekking op het kiezen van de helper. Dus de kans op succes interpreteren we als de kans om de helper te kiezen - \(p\) dus.

  • Het 95% betrouwbaarheidsinterval voor \(p\).

  • De schatting voor \(p\) op basis van de data: \(\hat{p} = 0.875\).

Via het argument alternative kunnen we ook eenzijdige toetsen uitvoeren binom.test(14, n = 16, p = 0.5, alternative = "greater") voor \(H_A: p>p_0\) en binom.test(14, n = 16, p = 0.5, alternative = "less") voor \(H_A: p<p_0\).

Het berekenen van de formule (4.1) kunnen we in R snel uitvoeren via het commando dbinom().

dbinom(7, size = 16, prob = 0.5)
## [1] 0.1745605

Deze waarde geeft de kans op 7 successen voor een binomiale verdeling met \(n=16\) en \(p=0.5\). Of kort \(P(T=7) = 0.1745605\) voor \(T \sim B(16, 0.5)\).

Kansen van de vorm \(P(T \leq k)\) kunnen we berekenen via het commando pbinom()

pbinom(7, size = 16, prob = 0.5)
## [1] 0.4018097

Dus \(P(T \leq 7) = 0.4018097\) voor \(T \sim B(16, 0.5)\).

Tot slot kunnen we de kritische waarden uit Tabel 4.5 in R bekomen via het commando qnorm() waarbij je als argument \((1-\alpha/2)\) moet ingeven. Dus als \(\alpha=0.05\) dan is \((1-\alpha/2) = (1-0.05/2) = (1-0.025) = 0.975\) zodat de kritische waarde wordt gegeven door

qnorm(0.975)
## [1] 1.959964

Het argument voor de kritische waarde is wat complex omdat er een ingewikkelde uitwerking nodig is om aan te tonen waarom de benaderingsformules goed werken. We gaan hier echter niet dieper op in.

4.14 Samenvatting

In dit hoofdstuk hebben we kennisgemaakt met inductieve analyses om een uitspraak te maken over een parameter van het toevalsproces. Meer specifiek stond een kans centraal: de kans dat de baby kiest voor de helper. Deze kans kunnen we interpreteren als de relatieve frequentie van baby’s die kiest voor de helper wanneer we de studie herhaaldelijk (en onder dezelfde conditities) uitvoeren. Op basis van een snapshot van het toevalsproces, namelijk de data waar 14 op 16 baby’s kiezen voor de helper, wensen we een uitspraak te maken over deze kans.

De hypothesetoets is een eerste manier om een inductieve analyse uit te voeren. We schuiven een nulhypothese (in de vorm van een gelijkheid \(H_0: p = p_0\)) naar voor samen met een alternatieve hypothese (in de vorm van een ongelijkheid waar we kunnen kiezen uit 3 mogelijkheden \(H_0: p \neq p_0\), \(H_0: p >p_0\) of \(H_0: p < p_0\)). Via het berekenen van de p-waarde kunnen we het bewijs in de data tegen de nulhypothese en in het voordeel van de alternatieve hypothese kwantificeren.

De hypothesetoets laat ons ook toe om beslissingen te nemen omtrent de hypotheses door de p-waarde te vergelijken met het signficantieniveau \(\alpha\). Als we een beslissing nemen is het mogelijk dat ons besluit correct is of dat we een fout maken. Het bijzondere aan een hypothesetoets is dat ze ons in staat stelt de kans op een bepaalde fout, een type 1 fout, te controleren via de keuze van \(\alpha\). Het is aan te raden om de p-waarde steeds te rapporteren en niet enkel aan te geven of ze kleiner is dan \(\alpha\). Dit komt doordat de waarde van de p-waarde zelf informatief is voor de bewijskracht tegen de nulhypothese. Als \(\alpha=0.05\) dan is het rapporteren van ‘p-waarde \(< 0.05\)’ niet aan te raden, want dan kan de p-waarde gelijk zijn aan \(0.049\) (dus nipt sterke bewijskracht tegen \(H_0\)) of \(0.0001\) is (zeer sterke bewijskracht tegen \(H_0\)).

Hypothesetoetsen laten ons toe om de bewijskracht tegen een specifieke nulhypothese te kwantificeren of laten toe een besluit te trekken omtrent de hypotheses. Vaak willen we echter nog meer te weten te komen via de inductieve analyses: we wensen graag een inschatting te krijgen van de mogelijke waarden die \(p\) kan aannemen op basis van de data. Via betrouwbaarheidsintervallen kunnen we hier inzicht in krijgen: ze geeft alle waarden van \(p\) weer die compatibel zijn met de data voor een bepaalde keuze van \(\alpha.\) De intervallen worden betrouwbaarheidsintervallen genoemd omdat ze toelaten om met een bepaalde betrouwbaarheid (vb 95% wanneer \(\alpha=0.05\)) een uitspraak te doen over \(p\) wanneer we herhaaldelijk de studie uitvoeren en de intervallen berekenen, gelet dat 95% van die intervallen de werkelijke waarde van \(p\) zullen bevatten.

4.15 Technieken in detail

4.15.1 Binomiale verdeling

  • Uitleg betekenis van de formule.

4.15.2 Formule benadering van het betrouwbaarheidsinterval

  • Centrale limietstelling

  • Algemene vorm interval.

4.16 Oefeningen

  1. Veronderstel dat we voor 40 baby’s een 95% betrouwbaarheidsinterval voor \(p\) krijgen die gelijk is aan \([0.59, 0.87]\). Veronderstel dat we ook volgende hypotheses willen toetsen: \(H_0: p=0.65\) versus \(H_A: p\neq 0.65\). Kunnen we op basis van de gegevens de nulhypothese verwerpen op het 5% significantieniveau?
  2. We stellen een betrouwbaarheidsinterval op om iets te zeggen over
    1. een relatieve frequentie in de steekproef.
    2. een relatieve frequentie van het toevalsproces.
    3. de p-waarde.
    4. de standaardfout.
American Academy of Pediatrics Committee on Public Education. 2001. “Children, Adolescents, and Television.” Pediatrics 107 (2): 423–26.
de Groot, Adriaan D. 2019. Methodologie: Grondslagen van Onderzoek En Denken in de Gedragswetenschappen. De Gruyter Mouton.
Hamlin, J Kiley, Karen Wynn, and Paul Bloom. 2007. “Social Evaluation by Preverbal Infants.” Nature 450 (7169): 557.
Open Science Collaboration. 2015. “Estimating the Reproducibility of Psychological Science.” Science 349 (6251): aac4716.
Przybylski, Andrew K, and Netta Weinstein. 2017. “A Large-Scale Test of the Goldilocks Hypothesis: Quantifying the Relations Between Digital-Screen Use and the Mental Well-Being of Adolescents.” Psychological Science 28 (2): 204–15.
R Core Team. 2021. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.