Korrelation: Pearson vs. Spearman

Sollten Zusammenhänge zwischen zwei mindestens ordinal skalierten Variablen mit dem Korrelationskoeffizienten nach Pearson (für intervallskalierte Merkmale) oder mit der Spearman’schen Rangkorrelation ermittelt werden? In der Praxis unterscheiden sich die Ergebnisse oft nur geringfügig. Selten kommt man bei der Korrelation zu unterschiedlichen Aussagen – und wenn, dann ist das eine Maß knapp über und das andere knapp unterhalb der Signifikanzgrenze.

Neu – Pearson vs. Spearman als Youtube-Video

Geringe Unterschiede zwischen den beiden Korrelationskoeffizienten?

Dachte ich – bis ich bei einer statistischen Auswertung auf folgenden Fall stieß:
Der eine Korrelationskoeffizient signifikant positiv, der andere signifikant negativ. Wie kann das sein? Ist SPSS abgeschmiert, Programmierfehler? Muss ich an meinem Rechner zweifeln?

Sonderfall: stark abweichende Ergebnisse zwischen Pearson und Spearman

Wie so oft in solchen Fällen gab es eine inhaltliche Erklärung: wenige, sehr starke Ausreißerwerte wiesen in eine andere Richtung als das Gros der relativ eng zusammen liegenden übrigen Messwerte. Während der Korrelationskoeffizient nach Pearson die metrischen Abstände verarbeitet, bildet der Spearman’sche Koeffizient lediglich eine Rangfolge der Messwerte, unabhängig von den Abständen zwischen den Werten.

Das kann man sich mit folgendem Bild vorstellen:

100-Meter-Lauf, drei Teilnehmer. Zwei sind topfit, kommen nach 9,90 und 9,91 Sekunden ins Ziel. Der dritte ist verletzt, humpelt nach 16 Sekunden über die Linie. Platt gesagt „merkt“ der Pearson’sche Koeffizient, dass die ersten beiden fast gleich schnell sind, der dritte jedoch weit zurück bleibt. Für den Spearman’schen Koeffizienten gibt es hingegen nur die Rangfolge: erster, zweiter, dritter; die Abstände spielen keine Rolle.

Korrelation: Welchen Korrelationskoeffizienten soll ich verwenden?

Man kann nicht sagen, dass einer der beiden Koeffizienten generell besser ist. Vielmehr geht es darum, welcher sich für die konkrete Fragestellung besser eignet. Gibt es Zweifel an der Genauigkeit von Messwerten und sind Ausreißerwerte beispielsweise auf unbeabsichtigte Einflüsse zurückzuführen, oder sind die Messwerte generell nur im Sinne einer Rangordnung aufzufassen, so empfiehlt sich der Rangkorrelationskoeffizient. Für „echte“, d. h. glaubwürdige intervallskalierte Daten präferiere ich Pearson’s r, da die Rangkorrelation einen gewissen Informationsverlust mit sich bringt.

Mit der Open Source-Software R kann man Korrelationstabellen ansprechend visualisieren, statt nur „nackte“ Zahlen zu präsentieren:

Korrelationsplot (mixed)
Korrelationen: Kombination aus Diagramm und Korrelationskoeffizienten; R-Paket „corrplot“;
Alternative auf ggplot2-Basis: ggcorrplot

Für eine ausführlichere Diskussion über die Auswahl der geeigneten statistischen Methode siehe den Beitrag Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?

Auch interessant: Korrelationen kann man auf vielfältigere Weise interpretieren, als man vielleicht zunächst meint. Hier 13 Möglichkeiten.

Buchempfehlung, Schwerpunkt Korrelation (Assoziation, statistische Beziehung):

Deskriptive Statistik: Eine Einführung für Sozialwissenschaftler (Studienskripten zur Soziologie)

14 Gedanken zu „Korrelation: Pearson vs. Spearman“

  1. Hallo Herr Riepl,

    ich habe eine Frage zur Spearman’s Rho und hoffe Sie können mir evtl. weiterhelfen. Ist es möglich die Korrelation von nominalen und metrischen Daten mittels Spearman’s Rho zu berechnen, da es sich um ein nicht-parametrisches Verfahren handelt? Ich habe dichotome Variablen, die ich mit metrischen Variablen korrelieren möchte. Leider erfüllt die metrische Variable die Voraussetzung für den Korrelationskoeffizienten nach Pearson nicht (keine Linearität und Ausreißer vorhanden).

    Ich bedanke mich im Voraus für Ihre Antwort.

    Viele Grüße
    Anna

    1. Hallo Anna,
      ja, Spearman’s Rho klingt in diesem Fall vernünftig. Kendall’s τ oder Goodman–Kruskal γ wäre auch möglich.
      Wichtig ist, die nominalen Variablen wirklich nur dichotom zu verwenden. Mehr als zwei Kategorien in einer Ausprägung passen nicht, das wird inhaltlich unsinnig („je höher, desto …“).

  2. Hallo Herr Riepl,

    ich habe so eine ähnliche Korrelationsabbildung mit corrplot wie sie rausgebracht. Zuvor habe ich noch mit dem cor.mtest mir die p-Werte erstellen lassen, um in der Korrelationsabbildung diese zu zeigen (und um sehen zu können welche signifikant sind und welche nicht).

    Davor beim cor.test waren all meine p-Werte unter .05, weswegen meine Alternativhypothesen alle angenommen wurden. Mich irritiert das jetzt aber, wieso in der Korrelationsabbildung auf einmal andere p-Werte rauskommen und dann auch noch nicht signifikant.

    Könnten Sie mir Ihren Befehl für die Korrelationsabbildung zukommen lassen, vielleicht habe ich einen Fehler drinnen? Oder gibt es diesbezüglich eine Erklärung? Vielen vielen lieben Dank im Voraus.

    LG Hiva

    1. Schwer zu sagen. Vielleicht unterschiedliche Behandlung von Fehlwerten?
      Weiß nicht, ob die corrplot-Funktion noch genau so funktioniert wie damals. So komme ich der Abbildung nahe:

      M <- cor(mtcars) corrplot(M, method = "circle", type = "upper", diag = FALSE) corrplot(M, method = "number", type = "lower", diag = FALSE, add = TRUE, tl.pos = "n")

  3. Hallo und vielen Dank für deine hilfreiche Seite.

    Ich benötige für mein Studium genau diese beiden Korrelationen und bin bei der Frage, welche Korrelation der beiden ich benutzen soll meist doch ziemlich aufgeschmissen (ich studier nichts direkt mathematisches, habe aber das Modul Mathe II).

    generell müssen wir u.a. eine Berechnung durchführen bei der wir am Ende Pearson oder Spearman anwenden müssen.
    Dazu müssen wir zuvor auch Schiefe und Kurtosis berechnen, dann den Jarque Bera durchführen usw.

    Ich habe mal aufgegriffen, dass, wenn die Schiefe = 0 entspricht, dann gibt es keine Normalverteilung und man muss die Pearon-Korrelation verwenden.

    Kannst du mir da vllt weiterhelfen?
    Du meintest ja in deinem Text und im Video, dass es prinzipiell auf die Fragestellung ankommt… gibt es da aber vllt für „Laien“ rechnerische Hinweise darauf, für welche Korrelation man sich entscheiden sollte, bzw. ob das mit der Schiefe so stimmt?

    Ich wäre dir sehr dankbar für deine Hilfe.
    Ich hoffe ich konnte es einigermaßen verständlich ausdrücken 🙂

    Viele Grüße
    Hannah

    1. Hallo Hanna,

      danke für Deinen Kommentar!

      Einfache Variante: Beide berechnen, vergleichen. In vielen Fällen unterscheiden sich die beiden Korrelationskoeffizienten nur geringfügig. Dann kommst Du zur gleichen Schlussfolgerung und die Entscheidung für oder gegen einen Korrelationskoeffizienten spielt keine Rolle. Das ist häufig bei vorgegebenen Skalen der Fall (z. B. 5er- oder 7er-Skalen).

      Wenn es (deutliche) Unterschiede zwischen den beiden Koeffizienten gibt, wird es spannender. Das ist erfahrungsgemäß eher bei offenen Skalen der Fall, vor allem wenn es starke Ausreißer gibt. Z. B. beim Einkommen: ein Millionär unter vielen „armen Schluckern“ wirkt sich stark auf parametrische Verfahren wie die Pearson-Korrelation aus. Bei Spearman ist er nicht so einflussreich, da es hier nur um Rangplätze geht und der Abstand in absoluten Zahlen keine Rolle spielt.

      Zur Schiefe: Eine (perfekte) Normalverteilung weist Schiefe = 0 auf, allerdings ist das nicht das einzige Kriterium für eine Normalverteilung. Zwei metrische (kontinuierliche) normalverteilte Variablen kann man mit der Pearson-Korrelation analysieren. Spearman ist die Alternative, wenn Voraussetzungen verletzt sind.

      Hoffe das hilft weiter. Viel Erfolg!

Freue mich über Kommentare!

Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.