Korrelation: Pearson vs. Spearman

Sollten Zusammenhänge zwischen zwei mindestens ordinal skalierten Variablen mit dem Korrelationskoeffizienten nach Pearson (für intervallskalierte Merkmale) oder mit der Spearman’schen Rangkorrelation ermittelt werden? In der Praxis unterscheiden sich die Ergebnisse oft nur geringfügig. Selten kommt man zu unterschiedlichen Aussagen – und wenn, dann ist das eine Maß knapp über und das andere knapp unterhalb der Signifikanzgrenze.

Geringe Unterschiede zwischen den beiden Korrelationskoeffizienten?

Dachte ich – bis ich bei einer statistischen Auswertung auf folgenden Fall stieß:
Der eine Korrelationskoeffizient signifikant positiv, der andere signifikant negativ. Wie kann das sein? Ist SPSS abgeschmiert, Programmierfehler? Muss ich an meinem Rechner zweifeln?

Sonderfall: stark abweichende Ergebnisse zwischen Pearson und Spearman

Wie so oft in solchen Fällen gab es eine inhaltliche Erklärung: wenige, sehr starke Ausreißerwerte wiesen in eine andere Richtung als das Gros der relativ eng zusammen liegenden übrigen Messwerte. Während der Korrelationskoeffizient nach Pearson die metrischen Abstände verarbeitet, bildet der Spearman’sche Koeffizient lediglich eine Rangfolge der Messwerte, unabhängig von den Abständen zwischen den Werten.

Das kann man sich mit folgendem Bild vorstellen:

100-Meter-Lauf, drei Teilnehmer. Zwei sind topfit, kommen nach 9,90 und 9,91 Sekunden ins Ziel. Der dritte ist verletzt, humpelt nach 16 Sekunden über die Linie. Platt gesagt “merkt” der Pearson’sche Koeffizient, dass die ersten beiden fast gleich schnell sind, der dritte jedoch weit zurück bleibt. Für den Spearman’schen Koeffizienten gibt es hingegen nur die Rangfolge: erster, zweiter, dritter; die Abstände spielen keine Rolle.


Welchen Korrelationskoeffizienten soll ich verwenden?

Man kann nicht sagen, dass einer der beiden Koeffizienten generell besser ist. Vielmehr geht es darum, welcher sich für die konkrete Fragestellung besser eignet. Gibt es Zweifel an der Genauigkeit von Messwerten und sind Ausreißerwerte beispielsweise auf unbeabsichtigte Einflüsse zurückzuführen, oder sind die Messwerte generell nur im Sinne einer Rangordnung aufzufassen, so empfiehlt sich der Rangkorrelationskoeffizient. Für “echte”, d. h. glaubwürdige intervallskalierte Daten präferiere ich Pearson’s r, da die Rangkorrelation einen gewissen Informationsverlust mit sich bringt.

Buchempfehlung, Schwerpunkt Korrelation (Assoziation, statistische Beziehung):

Deskriptive Statistik: Eine Einführung für Sozialwissenschaftler (Studienskripten zur Soziologie)

Douglas Adams hatte nur fast Recht. Die korrekte Antwort lautet: p=0,042**
Recent Related Posts