Anhang A — Datenqualität

In praktischen Anwendungen ist die Datenqualität aller Erfahrung nach immer ein gewichtiges Problem. In diesem Kapitel wird versucht, ein wenig Struktur in den Prozess der Datenbereinigung zu bringen.

Die Datenbereinigung ist ein extrem wichtiger Schritt vor der eigentlichen Datenanalyse. Ohne eine vernünftige Bereinigung der Daten werden die Analyseergebnisse nicht sinnvoll sein. Im schlimmsten Fall bemerkt man die fehlerhafte Ergebnisse jedoch nicht, weil die Datenanalyse ja formal richtig durchgeführt wurde - nur eben mit falschen Daten. Man spricht hier auch von “garbage in - garbage out”.

Warum wird das wichtige Thema der Datenqualität hier in einem Anhang behandelt, obwohl es doch eigentlich vor der Datenanalyse relevant ist? Der Grund ist, dass man für die Beurteilung einiger Aspekte der Datenqualität Methoden aus diesem Kurs braucht.

Folgende Dimensionen der Datenqualität jeder Variablen sollte man sich genau ansehen, bevor die eigentliche Datenanalyse startet:

Die nächsten beiden Punkte betreffen nicht einzelne Variablen, sondern das Zusammenspiel zweier oder mehrerer (oder aller) Variablen:

Die letzten beiden Fragen zur Datenqualität betreffen eher die weitere Arbeit mit den Daten und ihre Organisation, nicht die Analyse. Eine saubere Datenanalyse ist durchaus möglich, auch wenn diese beiden Kriterien nicht erfüllt sind. Dennoch sollten bei einer Beurteilung der Datenqualität auch diese beiden Punkte untersucht werden.