Scheinkorrelation vs. intervenierende Variable

Streudiagramm

In anderen Artikeln habe ich bereits auf Scheinkorrelationen hingewiesen, z. B. den statistischen Klassiker: Je mehr Störche es in einer Region gibt, desto mehr Kinder gibt es dort auch. Typisch für eine Scheinkorrelation ist: betrachtet man lediglich den Zusammenhang zwischen zwei Variablen, ohne auf weitere Merkmale zu achten, so ist dieser statistisch bedeutsam. Die Gültigkeit des Befundes „Je mehr Störche, desto mehr Kinder“ (x -> y) kann man statistisch zeigen.

Weiße Störche

Berücksichtigt man jedoch die gemeinsame Ursache beider Variablen, die z. B. als Industrialisierungsgrad oder Urbanisierungsgrad bezeichnet wird, so verschwindet der Zusammenhang. Sowohl die Anzahl der Störche (x) als auch die Kinderzahl (y) werden vom Industrialisierungsgrad (z) beeinflusst.
z -> x und z -> y; der Zusammenhang x -> y ist keine Kausalbeziehung.

Ähnlich, aber doch etwas unterschiedlich ist es beim Fall der intervenierenden Variable. Hier gibt es keine gemeinsame Ursache zweier Merkmale, sondern eine „Zwischenvariable“. Wie bei der Scheinkorrelation kann der Zusammenhang zwischen x und y positiv sein. Berücksichtigt man jedoch den Drittfaktor, so verschwindet dieser Zusammenhang. Beispiel: Verheiratete Frauen fehlen häufiger im Betrieb als ledige. (Familienstand = x, Fehlen im Betrieb = y). Berücksichtigt man die intervenierende Variable „Menge an Hausarbeit“ (z), so sieht man: sowohl bei Frauen mit wenig Hausarbeit als auch bei Frauen mit viel Hausarbeit hat der Familienstand keinen Einfluss auf das Fehlen am Arbeitsplatz. Der scheinbare Zusammenhang zwischen Familienstand und Fehlen im Betrieb ist auf die unterschiedliche Menge an Hausarbeit zurückzuführen. Es gibt also folgende plausible Zusammenhänge: Vereiratete Frauen haben mehr Hausarbeit als Ledige (x -> y) und Frauen, die mehr Hausarbeit haben, fehlen häufiger am Arbeitsplatz (y -> z). Der Zusammenhang x -> y ist keine Kausalbeziehung.

Nun die Preisfragen:

  • a) Wie kann man Scheinkorrelationen und intervenierende Variablen „sichtbar machen“ bzw. ihnen mit statistischen Mitteln auf die Schliche kommen?
  • b) Wie kann man den Fall der intervenierenden Variablen von dem der Scheinkorrelation unterscheiden?


Die Antworten seien dem geneigten Leser nicht vorenthalten:

a) Meine Lieblingsmethode: Regressionsanalysen zur Drittvariablenkontrolle. x -> y ist ohne Kontrollvariable signifikant. Der Zusammenhang verschwindet, wenn man die Drittvariable mit in das Modell aufnimmt. SPSS bietet auch partielle Korrelationen (partial correlations), mit denen ebenfalls Effekte zusätzlicher Variablen kontrolliert werden können.

Es geht allerdings auch einfacher. Kann man die Variablen jeweils in wenige Gruppen aufteilen (z. B. viele Kinder vs. wenige Kinder oder häufiges Fernbleiben vs. seltenes Fernbleiben vom Betrieb), so kann man auch simple Kreuztabellen verwenden. Um die Wirkung der Drittvariablen zu veranschaulichen, teilt man den Zusammenhang zwischen x und y in sogenannte Partialtabellen. Beispiel: Familienstand und Fernbleiben vom Betrieb, getrennt für Frauen mit viel und wenig Hausarbeit.

b) Mit statistischen Mitteln nicht machbar! Das mag ein Trost für den engagierten Forscher sein, der sich von der Macht der Computer und Statistikprogramme eingeschüchtert fühlt. Der Forscher muss mit gesundem Menschenverstand (am besten aufgrund fundierter theoretischer Überlegungen oder Literaturkenntnis) eine Kausalannahme treffen und selbst entscheiden, was Ursache und was Wirkung ist. Hier liegt die Vorläufigkeit so gewonnener Erkenntnisse auf der Hand.

Im Video: Störche, Babies, Drittvariablenkontrolle

Beitrag (nicht so sehr das Video) inspiriert von einem Skript der Uni Potsdam – Dank an Michael Mutz [Link leider nicht mehr erreichbar].

Wissenschaft bei Nacht: Nachts sind alle Theorien grau.

2 Gedanken zu „Scheinkorrelation vs. intervenierende Variable“

Freue mich über Kommentare!