Hoofdstuk 1 Inleiding tot exploratieve data analyse in de bedrijfswereld

1.1 Netflix

  • Netflix Prize (2006)
    • Wereldwijde open competitie voor de constructie van een nieuw algoritme dat moest voorspellen hoe goed een klant een film zou beoordelen op basis van zijn of haar filmvoorkeuren.
    • Winnaar was het team dat als eerste een verbetering van 10% kon realiseren ten opzichte van het algoritme van Netflix zelf.
    • Eerste prijs was 1 miljoen USD.
    • Hiervoor stelde Netflix een dataset ter beschikking met 100 miljoen filmbeoordelingen van 500 000 klanten met betrekking tot 18 000 films.
  • Het kunnen voorspellen hoe hun klanten gaan reageren op specifieke films/series laat Netflix toe hun aanbod aan films en series te optimaliseren om het huidige klantenbestand te behouden en nieuwe klanten aan te trekken.
  • De hoeveelheid data die door Netflix wordt verzameld is enorm.
    • In 2016 had Netflix 93.8 miljoen leden.
    • Netflix weet wanneer je pauzeert.
    • Netflix weet op welke dagen en welke uren je kijkt.
    • Netflix weet wat je kijkt.
    • Netflix weet van waar je kijkt.
    • Netflix weet op welk soort toestellen je kijkt.
    • Netflix weet wanneer je definitief stopt met het bekijken van een serie.
    • Netflix weet hoe snel je verschillende afleveringen van een serie achter elkaar kijkt.
    • Netflix weet welke titels je zoekt.
  • Netflix komt op deze manier zeer veel te weten over het kijkgedrag van zijn klanten en kan op basis van deze inzichten betere beslissingen nemen. Bijvoorbeeld:
    • Netflix ontdekt uit haar data dat 40% van haar klanten een serie zijn beginnen te kijken die door het oorspronkelijke productiehuis is stopgezet.
    • Stel dat Netflix uit de data ook ontdekt dat 85% van deze klanten de serie volledig uitkijken zonder dat het tempo waartegen men afleveringen kijkt significant afneemt.
    • Op basis van deze inzichten kan Netflix eventueel beslissen om de rechten van de serie te kopen (die goedkoop zullen zijn aangezien de serie was stopgezet) en zelf een nieuw seizoen voor de serie te maken.
  • House of Cards
    • Netflix deed het beste bod voor de serie House of Cards waardoor het won van kanalen zoals HBO.
    • Ze kochten initieel 2 seizoenen van de serie waar een prijskaartje aan vast hing van meer dan 100 miljoen dollar.
    • Deze beslissing was voor een groot stuk gebaseerd op data:
      • Netflix leerde uit haar data dat haar klanten geïnteresseerd waren in producties van regiseur David Fincher.
      • Netflix leerde uit haar data dat haar klanten geïnteresseerd waren in de oorspronkelijke Britse versie van House of Cards.
      • Netflix leerde uit haar data dat haar klanten geïnteresseerd waren in producties met Kevin Spacey.
    • Maar ook na de beslissing om deze serie te maken, bleef Netflix haar data gebruiken om slimme beslissingen te nemen.
      • Er werden verschillende trailers gemaakt en afhankelijk van je voorkeuren kreeg je een trailer op maat te zien.
      • Klanten die vooral graag Kevin Spacey zagen, kregen een trailer waar vooral Kevin Spacey in voorkwam.
      • Klanten die vooral geïnteresseerd waren in films van David Fincher, kregen een trailer te zien die de typische “look&feel” had van David Fincher.
      • Klanten die ook de Britse versie hadden gezien, kregen een trailer te zien de vooral op het verhaal focuste.

1.2 Waar wordt data voor gebruikt in de bedrijfswereld?

  • Er zijn verschillende redenen waarom bedrijven data bijhouden. Deze kunnen we onderverdelen in volgende categorieën: Geschiedenis bijhouden, beslissingen nemen en voorspellingen maken.

Geschiedenis bijhouden

  • Je registreert feiten zodat je achteraf met zekerheid kunt weten wat de realiteit in het verleden was.
  • Dit is belangrijk als je wilt evalueren of een bedrijf goed beheerd wordt. Hiervoor heb je inzicht in het verleden nodig.
  • De gegevens die worden bijgehouden in een boekhouding en jaarrekeningen zijn hier een typisch voorbeeld van.

Voorspellingen maken

  • Deze reden focust op de toekomst. We willen data gebruiken om beter inzicht te krijgen in de toekomst. Je gebruikt dan de historische data om voorspellingen over de toekomst te maken.
  • Sommige voorspellingen betreffen het detecteren van een trend in het verleden en trachten in te schatten hoe deze zich gaat verder zetten in de toekomst (vb. groei marktaandeel).
  • Andere voorspellingen trachten op voorhand de impact in te schatten van een mogelijke beslissing die je wil nemen (vb. introductie van een nieuw product in het bestaande gamma).

Beslissingen nemen

  • Een bedrijf neemt dagelijks talrijke beslissingen op verschillende niveaus
    • Operationeel: Bij welke leverancier plaats ik een bestelling voor productiemiddel X.
    • Strategisch: Zullen we productiemiddel X aankopen bij onze leveranciers of zelf produceren.
  • Data kan bedrijven helpen bij het nemen van beslissingen.
    • Dit betekent echter niet dat beslissingen enkel en alleen op data gebaseerd zijn.
    • Vaak wordt data gecombineerd met ervaring en expertise om een beslissing te nemen.
  • Bij het nemen van beslissingen op basis van data, kunnen we zowel patronen in historische data gebruiken alsook voorspellingen op basis van data.

1.3 Hoeveel data is er beschikbaar?

  • De hoeveelheid data die de laatste decennia gegenereerd en opgeslagen wordt is enorm toegenomen.
  • Deze groei is exponentieel (de groei gaat steeds sneller). Meer specifiek verdubbelt de hoeveelheid data in het digitaal universum iedere 2 jaar.
  • Volgens een studie van IDC, bestond het digitaal universum in 2013 uit 4.4 Zetabytes data
    • 1 Zetabyte = 1024 Exabytes
    • 1 Exabyte = 1024 Petabytes
    • 1 Petabyte = 1024 Terabytes
    • 1 Terabyte = 1024 Gigabytes
  • Volgens dezelfde studie zal het digitaal universum in 2020 uit 40 Zetabytes bestaan
  • Echter, slechts 22% van deze data (in 2013) is geschikt voor analyse.
    • Er wordt geschat dat dit zal stijgen tot 35% in 2020.
  • Slechts 5% van de geschikte data voor analyse wordt feitelijk geanalyseerd (2013).

1.4 Waar komt data vandaan?

  • Scientific Management
    • Frederick Taylor
    • Eind 19de eeuw
    • Benaderde het organiseren van werk op een wetenschappelijke manier.
    • Ging data verzamelen om vervolgens te analyseren hoe men werk efficiënter kon organiseren.
    • Een van de eerste vormen van dataverzameling en -analyse om bedrijfswaarde (productiviteit) te creëren.
    • Beperkt in hoeveelheid data omdat registratie en analyse nog manueel gebeurde.
  • Digitalisatie van de werkvloer
    • Computers op de werkvloer dateert terug tot midden vorige eeuw, maar de grote doorbraak komt er met de opkomst van de personal computer
      • 1977: Apple Home Computer II
      • 1981: IBM Personal Computer
      • Eind jaren 80, begin jaren 90 was de PC wijdverspreid op de werkvloer.
      • Dit liet toe meer data te registreren, maar deze was nog moeilijk te delen met andere computers.
    • Opkomst Internet/WWW in de bedrijfswereld
      • 1990: De technologie voor WWW werd publiek gedeeld door Tim Berners-Lee.
      • Dankzij WWW en internettechnologie werd het steeds eenvoudiger om digitaal werk te delen.
    • Opkomst van e-commerce
      • 1995: Begin van dot-com bubble/hype.
      • Opkomst van digitale ondernemingen (vb. Amazon, Netflix, Google, …).
      • Digitale handel maakt het eenvoudiger om gegevens hierover te registreren.
  • Digitalisatie van mensen
    • Opkomst Web 2.0 (begin 2000)
      • Inhoud van het web wordt nu gecreëerd door de bezoekers/gebruikers/klanten.
      • Websites worden dynamisch (passen zich aan de context en bezoeker aan).
    • Opkomst sociale media
      • Gebruikers gaan spontaan hun leven digitaliseren.
      • Hiervoor worden diverse media gebruikt (foto, video, tekst, …).
      • Facebook, Twitter, Instagram, Persoonlijke blogs, … .
      • Nog nooit heeft zo’n groot deel van de wereldbevolking informatie gecreëerd en gedeeld met de rest van de wereld.
  • Digitalisatie van dingen
    • Opkomst goedkope sensoren
    • Steeds meer “dingen” (machines, auto’s, huishoudtoestellen, huizen, steden, …) worden ‘inteligent’.
    • Internet of Things (IoT): Al deze intelligente dingen worden via het Internet met elkaar verbonden.
    • De hoeveelheid data die hiermee gegenereerd zal worden is ongezien.
    • Volgens IDC studie waren in 2013 reeds 7% van de “verbindbare dingen” geconnecteerd aan het Internet of Things.
    • In dezelfde studie voorspellen ze dat dit zal stijgen tot 15% in 2020.
    • In 2013 werd 2% van alle data in het digitaal universum geproduceerd door het IoT.
    • Verwacht wordt dat dit zal stijgen tot 10% in 2020.

1.5 Waarover verzamelen bedrijven data

  • Het ultieme doel van een onderneming is gegevens te verzamelen die hen toelaten om het gedrag van hun omgeving beter te begrijpen, alsook de werking van hun eigen onderneming.
  • Onder omgeving verstaan we:
    • Klanten
    • Concurrenten
    • Leveranciers
    • Alternatieve markten
    • Overheden
  • Onder werking van eigen onderneming vertaan we o.a.:
    • Werknemers
    • Processen
    • Producten
    • Diensten

1.6 Van data tot ‘actionable insights’

  • Management by data
    • Nieuwe discipline van management waarbij men inzichten uit data gebruikt om beslissingen te nemen.
    • Om beslissingen te kunnen nemen uit data, moet men deze eerst transformeren naar ‘actionable insights’
  • Data
    • Data verwijst typisch naar de gegevens die geregistreerd en opgeslagen worden.
    • Data beschrijft een heel klein aspect van een realiteit (bijvoorbeeld op welk exact tijdstip ben ik aflevering 2 van “House of Cards” beginnen te kijken).
    • Data op zich heeft echter heel weinig waarde.
  • Informatie
    • Als we echter data gaan analyseren, dan kunnen we dit transformeren tot informatie.
    • Informatie beschrijft een realiteit en gaat typisch op zoek naar patronen in de data en afwijkingen op deze patronen.
    • Bijvoorbeeld: Ik kijk typisch House of Cards gedurende de week om 20u00 ’s avonds, maar stop meestal met kijken om 20u30, waardoor ik in de week zelden een aflevering in 1 keer uitkijk.
    • Informatie is beschrijvend en zegt ons WAT de realiteit is.
  • Actionable Insights
    • Actionable Insights is informatie die ons niet enkel zegt WAT de realiteit is, maar ons ook het inzicht verschaft HOE we moeten handelen.
    • Niet alle informatie is actionable.
    • Op basis van actionable insights en in combinatie met onze eigen ervaringen en kennis die we reeds bezitten, komen we soms tot inzichten die beschrijven HOE we moeten handelen.

1.7 Data Scientists

  • Nieuwe jobomschrijving.
  • Verantwoordelijk om data te transformeren naar ‘actionable insights’ en hier iets mee te doen om bedrijfswaarde te creëren.
  • Omschreven als meest ‘sexy job’ van de 21ste eeuw door HBR
    • Opvolgers van de Wall Street ‘Quants’ uit de jaren 80 en 90.
  • Vaardigheden
    • Bedrijfskunde
      • Productontwikkeling
      • Management
    • Machine Learning / Big Data
      • Ongestructureerde data
      • Gestructureerde data
      • Machine Learning
      • Big Data
    • Wiskunde en Operationeel Onderzoek
      • Optimalisatie
      • Wiskunde
      • Simulatie
    • Programmeren
    • Statistiek
      • Visualisatie
      • Tijdreeksanalyse
      • Wetenschappelijk onderzoek
      • Data Manipulatie
  • 4 profielen van data scientists
    • Data Businessperson
      • Focust voornamelijk hoe data omzet kan genereren.
      • Vaak in een leidinggevende rol.
      • Werken zelf ook met data en beschikken over de nodige technische vaardigheden.
    • Data Creatives
      • Zijn in staat een volledige data analyse zelfstandig uit te voeren.
      • Hebben een hele brede bagage aan technische vaardigheden.
      • Beschikken in zekere mate over bedrijfskundige vaardigheden.
      • Gaan vaak innovatief om met data.
    • Data Developer
      • Is voornamelijk gefocust op de technische uitdagingen met betrekking tot het beheer van data.
      • Sterke programmeervaardigheden. Zijn in staat productie-code te schrijven.
      • Zijn sterk in het gebruik van machine learning technieken.
    • Data Researcher
      • Vaak mensen met een wetenschappelijke achtergrond (doctoraat).
      • Sterk in statistische vaardigheden en wetenschappelijk onderzoek.

1.8 Verschillende soorten van data analyse

  • Er zijn verschillende manieren om data analyse taken te classificeren.
  • De classificatie die we hier hanteren is gebaseerd op het doel van de data analyse.

Descriptieve data analyse

  • Deze analyse focust zich op het beschrijven van de data.
  • Deze analyse gaat over het samenvatten van de grote hoeveelheid data in enkele statistische cijfers en grafieken.
  • Deze analyse wordt gebruikt als je een grote hoeveelheid data krijgt en je snel inzicht wilt krijgen in de data.
  • Voorbeelden:
    • Je hebt een dataset met alle studieresultaten van de studenten van 1ste bachelor HI/BI en je wilt weten wat de gemiddelde score is per vak.
    • Je hebt de verkoopscijfers van het afgelopen jaar en je wil weten welke drie producten het beste verkochten (zowel in aantal als in omzet).
  • Descriptieve data analyse zegt alleen iets over de realiteit die door de data is beschreven. Je kan geen conclusies trekken die verder reiken dan de geobserveerde data.
  • Je kan een descriptieve data analyse vergelijken met het werk van een detective die als taak heeft een beschrijving te maken van de misdaadscene.

Exploratieve data analyse

  • Exploratieve analyse focust op het verkennen van de data en het zoeken naar interessante patronen en afwijkingen van deze patronen.
  • Net als bij descriptieve data analyse zal exploratieve analyse de beschikbare data beschrijven en zeggen de resultaten niets over ongeobserveerde feiten.
  • In tegenstelling tot bij descriptieve data analyse, gaat exploratieve data analyse verder dan het louter beschrijven van de data en tracht men interessante patronen te ontdekken in de data.
  • Voorbeelden:
    • Zijn er specifieke kenmerken van studenten die sterk gerelateerd zijn aan hun studieresultaten.
    • Zijn er opmerkelijke verschillen tussen vakken wat betreft de punten die behaald worden. Zo ja, wat zijn dan deze verschillen.
    • Zijn er producten in ons gamma die gevoelig zijn voor seizoenseffecten?
  • Je kan een exploratieve data analyse vergelijken met het werk van een detective die als taak heeft verbanden te ontdekken tussen verschillende bewijsstukken om zo inzicht te verschaffen wat er gebeurd is tijdens de misdaad.

Confirmatorische data analyse

  • Confirmatorische analyse focust op het bevestigen of weerleggen van vermoedens die men heeft met behulp van de beschikbare data.
  • In tegenstelling tot descriptieve en exploratieve data analyse zal men bij confirmatorische data analyse wel conclusies trekken die verder gaan dan de geobserveerde data.
  • Omdat confirmatorische data analyses ook uitspraken doen over ongeobserveerde data, is er altijd een mate van onzekerheid over de correctheid van de resultaten.
  • Voorbeelden:
    • Halen studenten met 8u Wiskunde achtergrond betere resultaten dan studenten met 6u Wiskunde achtergrond? In welke mate zijn we zeker dat dit voor alle studenten geldt en niet enkel voor de studenten waarover we data hebben?
    • Verkoopt product X beter bij mannen dan bij vrouwen? In welke mate zijn we zeker dat dit verschil niet een toevalligheid in de data is?
  • Je kan een confirmatorische data analyse vergelijken met het werk van een rechter die op basis van het aangeboden bewijsmateriaal moet beslissen of er genoeg bewijs is om iemand te veroordelen van de misdaad.

Predictieve data analyse

  • Het doel van predictieve analyse is om op basis van de beschikbare data voorspellingen te doen over de toekomst of over nieuwe/alternatieve situaties.
  • Net als bij confirmatorische data analyse zal predictieve data analyse uitspraken doen die ook van toepassing zijn voor ongeobserveerde feiten/situaties.
  • Bijgevolg is er net als bij confirmatorische data analyse dus een zekere onzekerheid over de conclusies die men trekt.
  • Voorbeelden:
    • Zal een studente die met meer dan 80% haar diploma van het middelbaar onderwijs behaalt slagen in eerste zit voor het vak Exploratieve en Descriptieve Data Analyse?
    • Zullen de verkoopcijfers van product Y het komende jaar verder stijgen en met hoeveel procent?
  • Je kan een predictieve data analyse vergelijken met het werk van een detective die op basis van het bewijsmateriaal op een misdaadscene moet voorspellen waar en wanneer de dader opnieuw zal toeslaan.

1.9 De kunst van data analyse

  • Data analyse is een kunst. Net als bij iedere kunst, kunnen we hierbij drie componenten onderscheiden: kennis en vaardigheden, ervaring en creativiteit.
  • Kennis en vaardigheden
    • Als data analist moet je de juiste hulpmiddelen kunnen identificeren voor het voorgelegde probleem.
    • Deze diverse hulpmiddelen moet je zo goed mogelijk beheersen.
    • Bij (exploratieve) data analyse gaat het hierbij zowel over analysetechnieken als over datavaardigheden.
    • Dit aspect kun je leren en laat je reeds toe om correcte analyses uit te voeren.
  • Ervaring
    • Hoe meer data je analyseert, hoe beter je er in wordt.
    • Ook laat ervaring toe om sneller vaste patronen in je werk te herkennen en efficiënter te worden in wat je doet.
    • Ervaring is ook essentieel om complexere uitdagingen beheersbaar te maken.
    • Dit deel kunnen we je niet ‘leren’, maar heb je wel volledig in de hand.
  • Creativiteit
    • Een kunstenaar die over kennis, vaardigheden en ervaring beschikt, maar creativiteit ontbreekt, kan perfecte replica’s maken van een kustwerk, mar kan zelf geen nieuwe kunst creëren.
    • Creativiteit is in staat zijn op een nieuwe en onverwachte manier naar data te kijken en deze te visualiseren.
    • Het is niet zeker dat dit aspect aan te leren is. Maar dit hoeft niet te verhinderen dat je een goede data scientist wordt, zolang je maar voldoende aandacht besteedt aan de andere twee componenten.

1.10 De kracht van descriptieve en exploratieve data analyse

https://www.youtube.com/watch?v=RUwS1uAdUcI