Kapittel 2 Introduksjon til webscraping

2.1 Hva er webscraping?

Webscraping handler om å hente ut data fra nettsider og putte disse dataene inn i et samlet, strukturert format, for eksempel et excel-ark. Når vi kopierer fra en webside og limer inn i et eget dokument, gjør vi det samme som en scraper gjør, men webscraping automatiserer denne prosessen. Webscraping er altså en måte å automatisere det å hente inn informasjon fra nettsider, slik at vi slipper og copy-paste for hånd.

Det er flere grunner til at vi skulle ønske å webscrape:

  • Mye data: Veldig mye data (“big data”) ligger på nettet i forskjellige nettsider.
  • Kort tid å samle inn: Å hente inn data fra nettsider via kode er en mer effektiv måte å samle informasjon enn mange andre måter, f. eks. intervjuundersøkelser eller leveranser.
  • Aktualitet: Data som legges ut på nettsider er ofte svært aktuelle.
  • Automatisering: Koden som scraper kan kjøres regelmessig (f. eks. via Windows Task Scheduler), slik at vi får konsistent og oppdatert innhenting av data.

2.2 Eksempler på webscraping

Webscraping kan brukes i flere sammenhenger:

  • Sammenlikne priser på sofaer som utlyses på www.finn.no og www.ikea.no.
  • Hente informasjon på aksjeutvikling via www.oslobors.no.
  • Finne data på utdanning og arbeidserfaring via www.linkedin.com.
  • Sentimentanalyse på hva folk sier om SSB via www.twitter.org.

La oss se nærmere på en tysk undersøkelse som ble gjort våren 2020: “Daily updated website analysis on the reaction of companies to the Corona pandemic in Germany”1. Denne undersøkelsen fulgte 1,1 million websider fra foretak i Tyskland over en periode fra 19. mars til 4. april 2020. Først søkte forskerne etter ord som var relatert til koronaepidemien på nettsidene (f. eks. SARS Covid-19). Andelen foretak som rapporterte om korona på nettsidene sine steg med omtrent 1 prosent hver uke i den aktuelle perioden.

Forskerne sjekket også på hvilken måte foretakene kunne antas å være påvirket av koronakrisen ved å sjekke konteksten rundt ordet og bruke en klassifiseringalgoritme for å finne ut om foretakene opplevde koronakrisen som problematisk for sin drift. De fant ut at det er forskjell mellom næringer på hvor vidt foretakene skrev at de opplevde problemer knyttet til koronakrisen, og at foretakene i Vest-Tyskland oftere rapporterte problemer enn foretakene i Øst-Tyskland.


  1. Kinne, J.; Krüger, M.; Lenz, D. & Licht, G. (2020). «Daily updated website analysis on the reaction of companies to the Corona pandemic in Germany». DOI: 10.13140/RG.2.2.11366.37441↩︎