Korrelation: Pearson vs. Spearman

Bars Dresden vs. Bars Leipzig

Sollten Zusammenhänge zwischen zwei mindestens ordinal skalierten Variablen mit dem Korrelationskoeffizienten nach Pearson (für intervallskalierte Merkmale) oder mit der Spearman’schen Rangkorrelation ermittelt werden? In der Praxis unterscheiden sich die Ergebnisse oft nur geringfügig. Selten kommt man zu unterschiedlichen Aussagen – und wenn, dann ist das eine Maß knapp über und das andere knapp unterhalb der Signifikanzgrenze.

Neu – Pearson vs. Spearman als Youtube-Video

Geringe Unterschiede zwischen den beiden Korrelationskoeffizienten?

Dachte ich – bis ich bei einer statistischen Auswertung auf folgenden Fall stieß:
Der eine Korrelationskoeffizient signifikant positiv, der andere signifikant negativ. Wie kann das sein? Ist SPSS abgeschmiert, Programmierfehler? Muss ich an meinem Rechner zweifeln?

Sonderfall: stark abweichende Ergebnisse zwischen Pearson und Spearman

Wie so oft in solchen Fällen gab es eine inhaltliche Erklärung: wenige, sehr starke Ausreißerwerte wiesen in eine andere Richtung als das Gros der relativ eng zusammen liegenden übrigen Messwerte. Während der Korrelationskoeffizient nach Pearson die metrischen Abstände verarbeitet, bildet der Spearman’sche Koeffizient lediglich eine Rangfolge der Messwerte, unabhängig von den Abständen zwischen den Werten.

Das kann man sich mit folgendem Bild vorstellen:

100-Meter-Lauf, drei Teilnehmer. Zwei sind topfit, kommen nach 9,90 und 9,91 Sekunden ins Ziel. Der dritte ist verletzt, humpelt nach 16 Sekunden über die Linie. Platt gesagt „merkt“ der Pearson’sche Koeffizient, dass die ersten beiden fast gleich schnell sind, der dritte jedoch weit zurück bleibt. Für den Spearman’schen Koeffizienten gibt es hingegen nur die Rangfolge: erster, zweiter, dritter; die Abstände spielen keine Rolle.



Welchen Korrelationskoeffizienten soll ich verwenden?

Man kann nicht sagen, dass einer der beiden Koeffizienten generell besser ist. Vielmehr geht es darum, welcher sich für die konkrete Fragestellung besser eignet. Gibt es Zweifel an der Genauigkeit von Messwerten und sind Ausreißerwerte beispielsweise auf unbeabsichtigte Einflüsse zurückzuführen, oder sind die Messwerte generell nur im Sinne einer Rangordnung aufzufassen, so empfiehlt sich der Rangkorrelationskoeffizient. Für „echte“, d. h. glaubwürdige intervallskalierte Daten präferiere ich Pearson’s r, da die Rangkorrelation einen gewissen Informationsverlust mit sich bringt.

Wie kann man eine Korrelationstabelle grafisch darstellen, statt nur (langweilige) Zahlen zu präsentieren? Siehe Visualisierung statistischer Ergebnisse.

Buchempfehlung, Schwerpunkt Korrelation (Assoziation, statistische Beziehung):

Deskriptive Statistik: Eine Einführung für Sozialwissenschaftler (Studienskripten zur Soziologie)


8 Gedanken zu „Korrelation: Pearson vs. Spearman“

  1. Hallo und vielen Dank für deine hilfreiche Seite.

    Ich benötige für mein Studium genau diese beiden Korrelationen und bin bei der Frage, welche Korrelation der beiden ich benutzen soll meist doch ziemlich aufgeschmissen (ich studier nichts direkt mathematisches, habe aber das Modul Mathe II).

    generell müssen wir u.a. eine Berechnung durchführen bei der wir am Ende Pearson oder Spearman anwenden müssen.
    Dazu müssen wir zuvor auch Schiefe und Kurtosis berechnen, dann den Jarque Bera durchführen usw.

    Ich habe mal aufgegriffen, dass, wenn die Schiefe = 0 entspricht, dann gibt es keine Normalverteilung und man muss die Pearon-Korrelation verwenden.

    Kannst du mir da vllt weiterhelfen?
    Du meintest ja in deinem Text und im Video, dass es prinzipiell auf die Fragestellung ankommt… gibt es da aber vllt für „Laien“ rechnerische Hinweise darauf, für welche Korrelation man sich entscheiden sollte, bzw. ob das mit der Schiefe so stimmt?

    Ich wäre dir sehr dankbar für deine Hilfe.
    Ich hoffe ich konnte es einigermaßen verständlich ausdrücken 🙂

    Viele Grüße
    Hannah

    1. Hallo Hanna,

      danke für Deinen Kommentar!

      Einfache Variante: Beide berechnen, vergleichen. In vielen Fällen unterscheiden sich die beiden Korrelationskoeffizienten nur geringfügig. Dann kommst Du zur gleichen Schlussfolgerung und die Entscheidung für oder gegen einen Korrelationskoeffizienten spielt keine Rolle. Das ist häufig bei vorgegebenen Skalen der Fall (z. B. 5er- oder 7er-Skalen).

      Wenn es (deutliche) Unterschiede zwischen den beiden Koeffizienten gibt, wird es spannender. Das ist erfahrungsgemäß eher bei offenen Skalen der Fall, vor allem wenn es starke Ausreißer gibt. Z. B. beim Einkommen: ein Millionär unter vielen „armen Schluckern“ wirkt sich stark auf parametrische Verfahren wie die Pearson-Korrelation aus. Bei Spearman ist er nicht so einflussreich, da es hier nur um Rangplätze geht und der Abstand in absoluten Zahlen keine Rolle spielt.

      Zur Schiefe: Eine (perfekte) Normalverteilung weist Schiefe = 0 auf, allerdings ist das nicht das einzige Kriterium für eine Normalverteilung. Zwei metrische (kontinuierliche) normalverteilte Variablen kann man mit der Pearson-Korrelation analysieren. Spearman ist die Alternative, wenn Voraussetzungen verletzt sind.

      Hoffe das hilft weiter. Viel Erfolg!

Freue mich über Kommentare!