Skalenentwicklung

_Pragmatischer Ansatz 👨🔧

Prof. Dr. Armin Eichinger

TH Deggendorf

01.10.2024

Einführung

Hinweis: Der Untertitel “pragmatisch” soll darauf hinweisen, dass unsere Ausführungen einige Inhalte ignorieren, die in einer Veranstaltung zur Entwicklung psychologischer Messinstrumente üblicherweise behandelt werden. Dazu gehören die Arten der Testkonstruktion (z. B. induktiv, rational, …), Differenzierung der Modelle der Klassischen Testtheorie (z. B. parallele Messungen, tau-äquivalente Messung) oder die Item Response Theorie. Auch die Themen Leistungsmessung oder Bildung von Indizes werden wir außen vor lassen.

Literatur

DeVellis, R. F., & Thorpe, C. T. (2021). Scale development: Theory and applications. Sage publications.
[→ Schwerpunkt]
Bühner, M. (2024). Einführung in die Test-und Fragebogenkonstruktion. Pearson.
[→ für die Details und eine tieergehende Auseinandersetzung]

Schritte der Testentwicklung

Bestimmen Sie genau, was Sie messen möchten.
Erstellen Sie einen Itempool.
Bestimmen Sie das Format für die Messung.
Überprüfen Sie Itempool: Experten & kognitives Interview.
Erwägen Sie die Einbeziehung von Validierungsitems.
Führen Sie einen Pilottest an kleiner Stichprobe durch.
Evaluieren Sie die Items.
Erstellen Sie eine endgültige Skala.

1. Bestimmen Sie genau, was Sie messen möchten.

Beschreiben Sie den genauen Gegenstand der Messung und identifiziere das Konstrukt.

Was wollen wir messen?
Ermitteln relevanter Konstrukte
Grad der Spezifizität klären
Zielgruppe
Gibt es bestehende Fragebögen, die wir verwenden könnten?

2. Erstellen Sie einen Itempool.

Ähnlichkeit von Fragen
Redundanz hat Vorteile und Nachteile
- Vorteil: Aufsummierung stärkt z.B. das Thema, Gemeinsamkeiten betont und eliminiert das, was jedes Item nur einzeln mitbringt
  → Stärkung der Skala
- Nachteile: Mehr Aufwand
- Je spezifischer die Formulierung, desto ähnlicher werden die Fragen
Anzahl an Items
- Zu Beginn 150-400%; später reduzieren auf 100%
- Je größer der Item-Pool anfänglich, desto besser
- Praktische Erwägungen

Weitere Hinweise zur Item-Generierung:

Unklarheit vermeiden
Kein unkritisches Paraphrasieren des Konstrukts
Unzweideutig
Nicht zu lang
Nicht schwer zu lesen und zu verstehen; z. B. mehrfache Verneinungen
Keine Kombination mehrerer Ideen in einem Item
Positive und negative Formulierung (um z. B. Akquieszenz zu identifizieren): eher vermeiden

3. Bestimmen Sie das Format für die Messung.

Guttman Skalierung:
- Messung von Einstellungen
- Abgestufte Skala zur Messung von Konstrukten
- Anzahl von Zustimmungspunkten, die unterschieden werden
Semantisches Differential:
- Einsetzten von Oppositen
- Verwendung in der Marktanalyse
Likert-Skala:
- Weit verbreitetes Format
- Skala von stark zustimmend bis stark ablehnend

Weitere Formate:

Visuelle Analogskala
Numerische Antwortformate
Bipolare Antwortformate
Smiley-Skala

4. Überprüfen Sie Itempool: Experten & kognitives Interview.

Fach-Experten überprüfen die gesammelten Items nach Relevanz der Fragen für das jeweilige Konstrukt
Dazu Arbeitsdefinition des Konstrukts erforderlich
Ziel: Prüfung der Konstruktvalidität
Prüfung nach Klarheit und Prägnanz

Kognitives Interview:

Qualitative Technik
Zielgruppe
Wie werden Items verstanden bzw. Antworten gefunden
Thinking Aloud

5. Erwägen Sie die Einbeziehung von Validierungsitems.

Prüfung von sozialer Erwünschtheit:
- ggf. Skala zur soziale Erwünschtheit in den Fragebogen einbeziehen
Antwort-Verzerrungen:
- Nein-Sage Tendenz (Zustimmung Tendenz – Akquieszenz)
- Tendenz zur Mitte
Eventuell Fragen zu anderen Konstrukten integrieren (vgl. diskriminante und konvergente Validität)

6. Pilot-Durchführung an Entwicklungsstichprobe.

Ausreichend große Stichprobe erforderlich
- Nunnally (1974): n > 300
- Bühner (2024):
Ziel: Repräsentativität und Stabilität
Abhängig von Umfang und Komplexität des Instruments
Abhängig von Heterogenität der Zielgruppe

7. Evaluieren Sie die Items.

Itemanalyse: „Eine Itemanalyse verwendet ein Bündel statistischer Verfahren, um die Eignung einzelner Items (…) im Hinblick auf die Zielsetzung der Befragung zu untersuchen.“ (Wikipedia)
Dimensionalität: Prüfung (über Faktorenanalyse)
Analyse der Rohwertverteilung: recht hohe Varianzen, zentraler Mittelwert
Weitere Kennwerte
- Itemschwierigkeit: Anteil derjenigen Personen, die das Item richtig lösen oder bejahen; für mehrstufige Fragen häufig erreichte/erreichbare Punkte
- Trennschärfe: Korrelationskoeffizient zwischen einem Einzelitem und dem Gesamttestscore
- Homogenität, Konsistenz: Durchschnittliche Korrelation aller Items (Fisher-Z-Transformation!), Cronbachs Alpha: \(\alpha = \frac{{k \cdot \bar{r}}}{{1 + \bar{r}(k-1)}}\)

Richtwerte für Cronbachs Alpha:

\(\alpha \geq\).80: gute Konsistenz
\(\alpha \geq\).70: zufriedenstellende Konsistenz
\(\alpha \geq\).60: gerade noch zufriedenstellende Konsistenz
\(\alpha \geq\).50: grenzwertige Konsistenz
\(\alpha <\).50: unzureichende Konsistenz

8. Erstellen Sie eine endgültige Skala.

→ Als Ergebnis der Itemanalyse.

Je mehr Items, desto stabiler
Je kürzer, desto praktikabler in der Anwendung
Software unterstützt beim “Basteln” mit Itemzahl