Kapittel 1 Introduksjon

Dette kurset gir en innføring i hva webscraping er, hvordan det fungerer, hva vi må tenke på når vi webscraper, og hvordan man kan hente ut informasjon fra nettsider gjennom R. Vi skal også ta en liten titt på hvordan man kan rydde i ustrukturert data ved å bruke R, siden data fra nettsider gjerne er ustrukturert eller semi-strukturert.

Kurset har to deler, en praktisk og en teoretisk:

Teoretisk del:

  • Hva er webscraping?
  • Eksempler på webscraping.
  • Hva er en nettside?
  • Hva er HTML?
  • Hvilke andre språk brukes for å lage nettsider?
  • Hva er forskjellen på webscraping og webcrawling?
  • Hvilke utfordringer finnes ved webscraping?
  • Hvilke hensyn må man ta når man webscraper?
  • Hvilke alternativer finnes til webscraping?

Praktisk del:

  • Hvordan hente ut tekst fra en nettside via R?
  • Hvordan hente ut tabeller fra en nettside via R?
  • Hvordan formatere og rydde informasjonen man får fra nettsiden?
  • Hvordan hente ut lenker, XML og JSON fra nettsider?