Groepsopdracht: Statistische data-analyse
technieken
Groep: BDA-OKT22
Docent: C.P. (Cor) Beyers PhD
Toelichting opdracht
De onderstaande opdracht moet gemaakt worden met een groep van maximaal
3 studenten.
In te leveren
Deadline inleveren
Zie lesrooster
Beoordeling
Beoordeling vindt plaats op basis van de inhoud van het document met
uitwerkingen en niet op basis van het Excel-bestand.
Bij elke analyse moet beschreven worden wat geconcludeerd wordt
uit gemaakte grafieken, tabellen en/of modellen.
Opdracht beschrijving
De opdracht betreft een verkennende analyse naar de invloed van de
covid-19 crisis op de luchtkwaliteit in een Nederlandse plaats naar
keuze.
Kies een component welke op luchtmeetnet wordt gebruikt om
fijnstof concentratie te meten: PM10, PM2.5 (indien interesse uitgaat
naar andere luchtkwaliteit component is dat ook toegestaan).
Het is toegestaan (en, indien mogelijk, zelfs aanbevolen) met eigen data te werken en een vergelijkbare analyse te maken als in deze opdracht gevraagd wordt
Rapporteer over vervuiling door de gekozen component aan de hand van de onderstaande opdrachten:
Beschrijf de betekenis van de gekozen component. Zoek de wettelijke grenswaarden die gelden voor deze component in Nederland. Denk om bronvermelding.
Ga naar luchtmeetnet.nl. Kies een meetstation waar de waarden
voor de gekozen component worden gemeten vanaf janauri 2018. Vraag via
https://zwan.shinyapps.io/aq_nl/ de benodigde
meetwaarden op voor het gekozen meetstation vanaf januari 2018 (de app
kan wat traag zijn). Upload het bestand naar de groepsruimte op
Teams.
Presenteer de data in het rapport (bijvoorbeeld een tabel met de eerste
10 rijen uit het databestand).
Data Cleaning en Data Preparation
Analyseer de tien hoogste waarden in het bestand. Op welke datum en welk tijdstip zijn deze gemeten? Is er een eventuele oorzaak aan te geven voor eventuele outliers? Als het om duidelijke meetfouten gaat, rapporteer dat dan en verwijder deze uit het bestand.
Gebruik het geschoonde bestand om te zien of voor de gemeten waarden voldaan is aan de wettelijke eisen (zie (1)).
Analyse luchtkwaliteit over de uren van de dag
Maak een analyse, grafisch en met samenvattende statistieken, waarin de luchtkwaliteit in de maanden maart-september van de pre-covid periode in 2019 wordt vergeleken met het begin van de covid periode in maart-september 2020. Is er een invloed zichtbaar die mogelijk causaal samenhangt met de covid-19 crisis en de lock-down periode?
Vergelijk de luchtkwaliteit, grafisch en/of met samenvatende statistieken, tijdens de nacht van 31 deember op 1 januari in de verschillende jaren. Is de invloed van het vuurwerkverbod terug te zien in de cijfers?
Zoek op internet naar open climatologische data (temperatuur, luchvochtigheid of een andere variabele) voor de gekozen periode van een meetstation in de omgeving van het meetstation van de luchtkwaliteit. Presenteer de data in het rapport.
Analyseer of er een samenhang is tussen een climatologische
variabele (temperatuur, luchvochtigheid of een andere variabele) en het
gemeten niveau. Beschrijf het verband met een lineair
regressiemodel.
Geef aan of dit een bruikbaar model is om het luchtkwaliteitniveau te
voorspellen op basis van de gekozen climatologische variabele.
Extra opdrachten (facultatief)
Addendum: Ideeen voor alternatieve opdracht.
Vergelijking oversterfte in verschillende landen. Website: https://www.mortality.org Data: https://www.mortality.org/Public/STMF/Outputs/; gebruik meest recente stmf-file voor wekelijkse sterftecijfers.
Verbanden tussen demografische en macro-economische variabelen. Ter inspiratie: https://www.ted.com/talks/hans_rosling_asia_s_rise_how_and_when?language=en. Data te vinden op de website van de worldbank: https://data.worldbank.org.
Maak een vergelijkbare analyse met eigen (bedrijfs)data of data waarin je geinteresseerd bent. Vraag vooraf goedkeuring aan de docent.