Post bachelor opleiding Big Data Analist 2021-2022

Groepsopdracht: Statistische data-analyse technieken
Groep: BDA-OKT22
Docent: C.P. (Cor) Beyers PhD


Toelichting opdracht
De onderstaande opdracht moet gemaakt worden met een groep van maximaal 3 studenten.


In te leveren

  1. Bestand (Word of pdf) met de uitwerking van de opdrachten.
  2. Exelbestand(en) en eventuele andere van belang zijnde bestanden.


Deadline inleveren
Zie lesrooster


Beoordeling
Beoordeling vindt plaats op basis van de inhoud van het document met uitwerkingen en niet op basis van het Excel-bestand. Bij elke analyse moet beschreven worden wat geconcludeerd wordt uit gemaakte grafieken, tabellen en/of modellen.

Opdracht beschrijving
De opdracht betreft een verkennende analyse naar de invloed van de covid-19 crisis op de luchtkwaliteit in een Nederlandse plaats naar keuze.
Kies een component welke op luchtmeetnet wordt gebruikt om fijnstof concentratie te meten: PM10, PM2.5 (indien interesse uitgaat naar andere luchtkwaliteit component is dat ook toegestaan).

Het is toegestaan (en, indien mogelijk, zelfs aanbevolen) met eigen data te werken en een vergelijkbare analyse te maken als in deze opdracht gevraagd wordt

Rapporteer over vervuiling door de gekozen component aan de hand van de onderstaande opdrachten:

  1. Beschrijf de betekenis van de gekozen component. Zoek de wettelijke grenswaarden die gelden voor deze component in Nederland. Denk om bronvermelding.

  2. Ga naar luchtmeetnet.nl. Kies een meetstation waar de waarden voor de gekozen component worden gemeten vanaf janauri 2018. Vraag via https://zwan.shinyapps.io/aq_nl/ de benodigde meetwaarden op voor het gekozen meetstation vanaf januari 2018 (de app kan wat traag zijn). Upload het bestand naar de groepsruimte op Teams.
    Presenteer de data in het rapport (bijvoorbeeld een tabel met de eerste 10 rijen uit het databestand).

  3. Data Cleaning en Data Preparation

  1. Timestamp. De Timestamp in het bestand geeft de datum en de UTC tijd weer. Deze moet voor analyse omgezet worden naar Nederlandse (CET of CEST) tijd. Het verschil tussen UTC en CET is 1 uur, het verschil tussen UTC en CEST is 1 uur tijdens de wintertijd en 2 uur tijdens de zomertijd. Op deze website is meer informatie te vinden.
    Vanuit de Timestamp variabele zijn twee nieuwe variabelen afgeleid, DATE en TIME_UTC. De laatste moet omgezet worden in de Nederlandse tijd. Maak hiervoor een nieuwe variabele TIME_NL (houdt rekening met zomer- en wintertijd).
  2. Inspecteer het bestand op eventuele meetfouten, bijvoorbeeld negatieve waarden. Gebruik hiervoor een geschikte grafiek. Schoon het bestand.
  3. Inspecteer het bestand op volledigheid - hoeveel uurwaarnemingen worden verwacht op basis van de gekozen periode, hoeveel waarnemingen zijn er in het bestand - en rapporteer daarover. Geef aan voor welke dagen/uren gegevens ontbreken en of dat invloed kan hebben op de analyse.
  1. Analyseer de tien hoogste waarden in het bestand. Op welke datum en welk tijdstip zijn deze gemeten? Is er een eventuele oorzaak aan te geven voor eventuele outliers? Als het om duidelijke meetfouten gaat, rapporteer dat dan en verwijder deze uit het bestand.

  2. Gebruik het geschoonde bestand om te zien of voor de gemeten waarden voldaan is aan de wettelijke eisen (zie (1)).

  3. Analyse luchtkwaliteit over de uren van de dag

  1. Maak een grafische analyse van de gemeten waarden over de uren van de dag.
  2. Genereer een tabel met samenvattende statistieken voor de verschillende uren van de dag: Minimum, Mediaan, Maximum, Gemiddelde, Standaarddeviatie. Dus wat is het de minimaal gemeten waarde om 00:00h, om 01:00h etc.; en dat ook voor de andere statistieken.
  1. Maak een analyse, grafisch en met samenvattende statistieken, waarin de luchtkwaliteit in de maanden maart-september van de pre-covid periode in 2019 wordt vergeleken met het begin van de covid periode in maart-september 2020. Is er een invloed zichtbaar die mogelijk causaal samenhangt met de covid-19 crisis en de lock-down periode?

  2. Vergelijk de luchtkwaliteit, grafisch en/of met samenvatende statistieken, tijdens de nacht van 31 deember op 1 januari in de verschillende jaren. Is de invloed van het vuurwerkverbod terug te zien in de cijfers?

  3. Zoek op internet naar open climatologische data (temperatuur, luchvochtigheid of een andere variabele) voor de gekozen periode van een meetstation in de omgeving van het meetstation van de luchtkwaliteit. Presenteer de data in het rapport.

  4. Analyseer of er een samenhang is tussen een climatologische variabele (temperatuur, luchvochtigheid of een andere variabele) en het gemeten niveau. Beschrijf het verband met een lineair regressiemodel.
    Geef aan of dit een bruikbaar model is om het luchtkwaliteitniveau te voorspellen op basis van de gekozen climatologische variabele.

Extra opdrachten (facultatief)

Addendum: Ideeen voor alternatieve opdracht.

  1. Vergelijking oversterfte in verschillende landen. Website: https://www.mortality.org Data: https://www.mortality.org/Public/STMF/Outputs/; gebruik meest recente stmf-file voor wekelijkse sterftecijfers.

  2. Verbanden tussen demografische en macro-economische variabelen. Ter inspiratie: https://www.ted.com/talks/hans_rosling_asia_s_rise_how_and_when?language=en. Data te vinden op de website van de worldbank: https://data.worldbank.org.

  3. Maak een vergelijkbare analyse met eigen (bedrijfs)data of data waarin je geinteresseerd bent. Vraag vooraf goedkeuring aan de docent.