Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?

Die Universität Zürich bietet eine empfehlenswerte Hilfestellung bei der Auswahl des geeigneten statistischen Tests bzw. der passenden multivariaten Analysemethode. In einem Entscheidungsbaum sind Unterschiedstests und Verfahren für Zusammenhangs- und Interdependenzanalysen dargestellt; farbliche Abstufungen berücksichtigen das Skalenniveau (nominalskaliert, ordinalskaliert oder intervallskaliert); zusätzlich wird auch dargestellt, ob normalverteilte Daten vorausgesetzt werden oder ob es sich um ein verteilungsfreies (nichtparametrisches) Verfahren handelt:

Zusätzlich gibt es noch einen interaktiven Entscheidassistent, bei dem man mit Fragen Schritt für Schritt und Klick für Klick zur geeigneten statistischen Methode geführt wird.

Theoriegeleitetes Testen vs. exploratives Vorgehen (Strukturen entdecken)

Zunächst ist zu klären, ob bereits eine konkrete Fragestellung vorliegt oder ob ein Algorithmus Strukturen entdecken und damit weitergehende Fragen vorbereiten soll. Im letzteren Fall werden Faktorenanalysen zur Zusammenfassung von Variablen oder Clusteranalysen zur Gruppierung von Objekten / Personen vorgeschlagen.

Zusammenhangsanalysen

Im ersteren Fall (konkrete Fragestellung) muss man sich zwischen Zusammenhangsanalysen und Unterschiedsanalysen entscheiden.

Zusammenhänge von zwei Variablen können mit Korrelationen untersucht werden. Je nach Skalenniveau wird die Pearson-Korrelation (intervallskalierte Merkmale) oder die Rangkorrelation nach Spearman (ordinalskalierte Merkmale) oder der Chi-Quadrat-Test (kategoriale Merkmale) empfohlen.

Für Zusammenhänge zwischen mehr als zwei Variablen steht eine Palette an Regressionsmodellen zur Verfügung. Je nach abhängiger Variable (AV) ist die multiple lineare Regression (AV intervallskaliert) oder die logistische Regression (AV mit zwei Ausprägungen) angezeigt. Es liegen Erweiterungen der logistischen Regression für ordinalskalierte (ordinale logistische Regression) sowie für nominalskalierte Merkmale mit mehr als zwei Ausprägungen vor (multinomiale logistische Regression).

Unterschiedsanalysen: Parametrisch vs. nichtparametrisch („verteilungsfrei“)

Bei Unterschiedshypothesen ist zu klären, worauf sich die Unterschiede beziehen: Auf Mittelwerte bzw. zentrale Tendenz; auf Varianzen; auf Proportionen / Häufigkeiten. Hier weichen wir etwas vom Entscheidassistent ab: Dort taucht die Frage nach „verteilungsfrei vs. normalverteilt“ in vielen Unterpunkten auf – wir ziehen sie vor.

Parametrische Verfahren treffen Verteilungsannahmen: v. a. die berühmt-berüchtigte Normalverteilungsannahme, die in der Realität mehr oder weniger stark verletzt sein kann. Leider haben Tests auf Normalverteilung (NV) wie der Shapiro-Wilk-Test die unangenehme Eigenschaft, leichter bei größeren Stichproben signifikant zu werden – gerade dann können statistische Tests jedoch Abweichungen von der NV besser verkraften. Kleine Stichproben sind da kritischer. Deshalb sollte die NV-Annahme auch grafisch geprüft werden, z. B. mit einem Histogramm mit NV-Kurve. Es gibt einen gewissen Entscheidungsspielraum; im Zweifelsfall können parametrische Tests durch ihr nichtparametrisches Pendant ergänzt und die Ergebnisse verglichen und diskutiert werden.

Nichtparametrische Tests treffen keine Verteilungsannahmen, sie gelten als „verteilungsfrei“. In der Regel werden die Daten dazu in Rangplätze umgewandelt. Beispiel: Aus 9,90s vs. 9,91s vs. 16s für drei Athleten beim 100m-Lauf, wobei der dritte verletzt war, wird 1, 2, 3 bzw. erster, zweiter, dritter – unabhängig von den gemessenen Zeitabständen.

Abhängige vs. unabhängige Stichproben

Ein weiteres Kriterium, das sich bei mehreren Verzweigungen zeigt, ist die Frage, ob zwei (oder mehr) Stichproben (Gruppen) von einander unabhängig sind. Abhängige Stichproben werden im Entscheidassistent etwas vereinfacht definiert als die gleiche Gruppe, die mehrfach befragt wird. Oft handelt es sich in der Tat um Messwiederholungen der gleichen Probanden, z. B. Vorher-Nachher-Messungen bei Patienten vor und nach einer Behandlung. Abhängige Stichproben können jedoch auch vorliegen, wenn es sich um verschiedene Personen (Untersuchungsobjekte) handelt, z. B. bei Ehepaaren oder Zwillingen. Entscheidend ist, dass ein Element der einen Gruppe einem ganz bestimmten Element der anderen Gruppe zugeordnet ist (dem Ehepartner, Zwilling, …).

Bei unabhängigen Stichproben ist das nicht der Fall: Die „Sortierung“ innerhalb der Gruppen spielt keine Rolle, es gibt keine paarweise Zuordnung der Probanden der einen Gruppe zu jeweils ganz bestimmten Probanden der anderen Gruppe.

Unterschiedsanalysen: Mittelwerte / zentrale Tendenz

Will man Mittelwerte („parametrisch“) bzw. die zentrale Tendenz („nichtparametrisch / verteilungsfrei“) vergleichen, stehen folgende Tests zur Verfügung:

  • unabhängige Stichproben, parametrisch
    zwei Gruppen: t-Test für unabhängige Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse
  • unabhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Mann-Whitney-U-Test
    mehr als zwei Gruppen: Kruskal-Wallis-Test
  • abhängige Stichproben, parametrisch:
    zwei Gruppen: t-Test für abhängige (=verbundene) Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse mit Messwiederholung
  • abhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Wilcoxon-Test; bei nominalskalierter abhängiger Variable: Vorzeichentest
    mehr als zwei Gruppen: Friedman-Test

Unterschiedsanalysen: Varianzen

  • normalverteilt: F-Test
    Anmerkung: Eine Voraussetzung des t-Tests sind gleiche Varianzen in den Gruppen. Dazu wird in einigen Statistik-Paketen (z. B. SPSS) ein F-Test vorgeschaltet. Es gibt jedoch einen Korrekturfaktor (der sich auf die Freiheitsgrade auswirkt). In R kann man den Welch-Test durchführen, der diese Korrektur enthält.
  • verteilungsfrei: Chi-Quadrat-Test

Unterschiedsanalysen: Proportionen / Häufigkeiten

  • zwei Ausprägungen: Binomialtest
  • mehr als zwei Ausprägungen: Chi-Quadrat-Test

Zu speziellen Entscheidungsfragen siehe folgende Beiträge:

Korrelation: Pearson vs. Spearman
T-Test oder U-Test?
Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen (behandelt den Chi-Quadrat-Test)

Zum Entscheidassistent der Universität Zurich

Hier gibt es Anregungen für die Visualisierung statistischer Daten.

Abschließend noch ein paar Literaturempfehlungen. Wer gern auf Englisch liest, dem sei Andy Field wärmstens empfohlen. Mit seinen abstrusen Beispielen und seinem schrägen Humor könnte Statistik (fast??) Spaß machen – ganz entgegen dem alten Studi-VZ-Motto: SPSS – Das „A“ fehlt nicht umsonst. Es gibt auch eine (spätere) Version für R.