Bei Mittelwertvergleichen steht der Forscher oft vor der Frage, ob parametrische Verfahren wie der t-Test eingesetzt werden können oder ob auf nichtparametrische Tests wie den Mann-Whitney-U-Test ausgewichen werden muss. Parametrische Verfahren weisen eine höhere Teststärke auf, d. h. sie können tatsächlich vorhandene Unterschiede eher nachweisen, da sie mehr Informationen in den Daten nutzen. Ihr Nachteil besteht darin, dass sie an strengere Voraussetzungen gebunden sind. Beim t-Test sind das die folgenden:
t-Test: Voraussetzungen
- Bei kleineren Stichproben sollten sich die Grundgesamtheiten, aus denen die Daten entnommen wurden, normalverteilen. Ist die Verteilung in der Grundgesamtheit unbekannt, kann beispielsweise der Kolmogorov-Smirnov-Anpassungstest eingesetzt werden, um die Normalverteilungsannahme zu prüfen.
- Die Varianzen in den zu vergleichenden Gruppen sollten homogen sein. Ist das nicht der Fall, steht eine Korrekturformel zur Verfügung.
- Die Daten sollten als metrisch angenommen werden. D. h. es handelt sich um Messwerte, bei denen die Abstände interpretierbar sind.
Beispiel: 80kg ist doppelt so schwer wie 40kg.
Gegenbeispiel: 1=lehne voll ab; 2=lehne teilweise ab; 3=stimme teilweise zu; 4=stimme voll zu. In diesem Fall kann man nicht sagen: „4“ ist doppelt so viel wie „2“. Solche Angaben sind eher als ordinalskaliert zu bezeichnen, d. h. man kann lediglich die Rangfolge interpretieren.
Ob bei Verletzung von einer oder mehreren Annahmen auf den t-Test verzichtet werden muss, bleibt eine Ermessensentscheidung. So kann man sich z. B. auf Jürgen Bortz berufen, der in Statistik für Human- und Sozialwissenschaftler (Lehrbuch mit Online-Materialien) schreibt, der t-Test reagiere auf Verletzungen seiner Voraussetzungen robust. Dies gilt vor allem dann, wenn die beiden Stichproben gleich groß sind. Bei unterschiedlich großen Stichproben bleibt der Test robust, wenn die Varianzen gleich sind. Ist beides nicht gegeben, so muss mit einem höheren Anteil an Fehlentscheidungen gerechnet werden. Dies wurde mit sogenannten Monte-Carlo-Studien ermittelt.
Neueres Video, das auf R basiert (englischsprachig):
Im Video: Die Bedeutung der Standardabweichung beim t-Test
Bei älteren SPSS-Versionen muss der Forscher selbst entscheiden, ob unter „Mittelwerte vergleichen“ ein parametrisches Verfahren ausgewählt wird, oder ob der Menüpunkt „Nichtparametrische Tests“ heranzuziehen ist. Neuere Versionen nehmen den Anwender stärker bei der Hand und schlagen anhand einiger Auswahlmöglichkeiten ein geeignetes statistisches Verfahren vor.
Vor allem in wissenschaftlichen Untersuchungen bietet es sich im Zweifelsfall an, beide Tests durchzuführen und die Ergebnisse zu vergleichen und zu dokumentieren.
Für eine ausführlichere Diskussion über die Auswahl der geeigneten statistischen Methode siehe den Beitrag Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?
Video: Praxisbeispiel zum Mann-Whitney-U-Test
Weiterer Literaturtipp:
Schließende Statistik: Eine Einführung für Sozialwissenschaftler (Studienskripten zur Soziologie)
Lieber Herr Wolf Riepl,
Ich habe eine Frage zu der Berechnung von Konfidenzintervallen beim Wilcoxon-Test. Vielleicht können Sie mir da weiterhelfen:
Ich möchte bei einer relativ kleinen Stichprobe (N=13, nur eine Treatmentgruppe) die Mittelwerte eines Fragebogens vom Prä zum Post-Zeitpunkt vergleichen.
Die Daten sind nicht normalverteilt, also kann ich keinen t-Test bei abhängigen Stichproben rechnen und greife deshalb zum Wilcoxon-Test. Da meine Stichprobe sehr gering ist, möchte mein Prof., dass ich vor allem deskriptiv und explorativ die Daten darstelle und somit Effektstärken und Konfidenzintervalle angebe. Beim Wilcoxon-Test werden mir nun keine Konfidenzintervalle bei SPSS angezeigt und ich frage mich nun, ob es an der Stelle überhaupt möglich ist diese anzugeben und vor allem sinnvoll? Vielleicht haben Sie ja einen Tipp für mich.
Ich danke Ihnen schon vielmals!
Hallo Theresia,
ich arbeite nicht mehr mit SPSS … Vielleicht geht es per Bootstrap-Verfahren. Der Wilcoxon-Test arbeitet ja mit Rangplätzen und ist kein klassischer Mittelwertstest. Bootstrap bedeutet, dass man viele Zufallsstichproben aus den Daten zieht, sodass man eine Verteilung der Ergebnisse erhält statt ein einzelnes Resultat. Daraus kann man dann Konfidenzintervalle ableiten. Vielleicht gibt es ja eine Bootstrap-Option in einem der SPSS-Menüs. Sonst evtl. R zu Rate ziehen.
Hallo,
ich Wilcoxon und T-Tests zur Analyse meiner Daten durchgeführt.
mein Ergebnisteil der Arbeit soll allerdings als Fließtext formuliert werden. Jetzt stehe ich vor dem Problem, welche Werte ich aus der Teststatistik neben dem p-Wert noch erwähnen muss.
Vielleicht können Sie mir helfen
Ich würde im Text in Klammern folgende Kennwerte angeben: Teststatistik (beim Wilcoxon-Test in SPSS mit Z bezeichnet, beim t-Test mit T), unbedingt die Fallzahlen in den Gruppen, sowie den p-Werte (Signifikanzaussage). Beim t-Test für unabhängige Stichproben am besten noch das Ergebnis des Levene-Tests mit angeben, also ob die Varianzen in den Gruppen als gleich angenommen werden können. (Wenn man z. B. in R gleich den Welch-Test rechnet, der einen Korrekturfaktor für ungleiche Varianzen enthält, kann man darauf wohl verzichten.)
Viel Erfolg!
Hallo Herr Wolf Riepl. Erstmal ein riesen Lob für Ihre tollen Beiträge.
Ich schreiben grad meinen Abschluss, habe ein paar Fragen und hoffe, Sie können mir weiterhelfen.
Ich möchte das Ehrenamt (N=50) mit Beruf (N=46) auf Unterschiede in der Lernhaltigkeit (AV) vergleichen. Dazu habe ich jeweilige Mittelwerte berechnet.
Der KS-Test ergab eine einseitige sig. von p=.036<.05, also keine Normalverteilung, also U-Test: der sagt mit einer einseitigen asymp. Sig. p=.03.05) zeigt knappe Varianzengleichheit und die eins. sig. des T-Test (p=.066>05) sagt ganz knapp, dass die mittlere Differenz von D=.126 zwischen den Gruppen nicht signifikant ist! Sehr Widersprüchlich: Welche Entscheidung treffe ich und warum? U-Test, weil der in dem Fall eine größere Teststärke aufweist?
Bei signifikanten Ergebnissen sollte dann noch die Effektstärke berechnet werden, um die Aussage hinreichend beurteilen zu können (stark, mittel, schwach), oder?
Noch eine kleine extra Frage, wenn ich bitten darf. In Bortz steht, wenn die Hypothese in der Deskriptiven bereits in die falsche Richtung zeigt, weil der Mittelwert der einen Gruppe eben höher ist, als erwartet, erübrigt sich jede weiter Berechnung, die H1 kann nicht angenommen werden. Was nun? Was bedeutet das für meine Interpretation?
Ich hoffe das ist nicht zu viel des guten.
Hochachtungsvoll
Hallo Franzi,
vielen Dank für Ihre Nachricht!
Formulierungsvorschlag zum U-Test: p=0.03 heißt sig. Unterschiede in der zentralen Tendenz.
Ich denke der t-Test weist eine größere Teststärke auf (er nutzt mehr Informationen in den Daten, da er mit den Originalwerten arbeitet und nicht in Rangplätze transformiert), allerdings bei nicht eingehaltenen Voraussetzungen. Daher würde ich in erster Linie den U-Test interpretieren. Je nach Vorlieben des Betreuers kann man beide Ergebnisse dokumentieren und diskutieren.
Effektstärke: Ja, halte ich für sinnvoll. Es gibt dazu Online-Rechner. (Effect size calculator)
Zur Richtung der Unterschiede: Klar, wenn der Mittelwertsunterschied in die andere Richtung weist, als die Hypothese behauptet, dann ist die Hypothese widerlegt. Unabhängig davon, ob der Unterschied signifikant ist oder nicht.
Hallo Herr Wolf Riepl.
Vielen Dank für Ihre so schnelle und sehr gut beantwortete Hilfe. Dann habe ich wenigstens ein signifikantes Ergebnis. Ich finde Ihre Beiträge wirklich gut verständlich, auch der Beitrag zu Mehrfachantworten war exzellent erklärt und hat mir sehr geholfen. Toll das Sie sowas machen, sich die Zeit nehmen, solch, für mich zumindest, komplexe Sachverhalte ausführlich erklären und anderen frei zur Verfügung stellen, das ist nicht selbstverständlich. Schade, dass Sie nicht mein Dozent sind. Ich wünsche Ihnen weiterhin viel Erfolg!
Danke – Ihnen auch alles Gute!