Nach meinem Eindruck erhalten verdeckte Korrelationen weniger Aufmerksamkeit als ihre bekannteren Kollegen, die Scheinkorrelationen. Dabei stellen beide Phänomene ähnliche Herausforderungen für die Datenanalyse dar. Eine verdeckte Korrelation liegt vor, wenn ein Zusammenhang zwischen zwei Variablen besteht, aber nicht direkt sichtbar wird, weil er von (mindestens) einer anderen Variable verdeckt oder überlagert wird. Kein Zusammenhang zwischen … „Verdeckte Korrelationen sichtbar machen in R mit linearen Modellen“ weiterlesen
Schlagwort: Kontrollvariable
Scheinkorrelationen aufdecken in R mit linearen Regressionsmodellen
Störche bringen Babies – das wohl bekannteste Beispiel der Statistik für eine klassische Scheinkorrelation. Der Zusammenhang ist tatsächlich statistisch nachweisbar – es handelt sich jedoch (nach heutigem Wissen) nicht um einen Kausalzusammenhang. Auch wenn uns das inhaltlich bekannt ist – wie können wir das statistisch belegen? In anderen Anwendungsfällen wird uns inhaltlich vielleicht nicht so … „Scheinkorrelationen aufdecken in R mit linearen Regressionsmodellen“ weiterlesen
Macht Reichtum unmoralisch?
Eine kürzlich veröffentliche Studie kommt zu dem Ergebnis: Wohlhabende Menschen sind eher dazu bereit, sich zu nehmen, was sie wollen – und dafür auch Regeln zu brechen. Dies gelte im Straßenverkehr ebenso wie im Sozialleben. Als Begründung wird eine positivere Einstellung zur Gier angeführt. Das methodische Vorgehen klingt einleuchtend: zum einen konnten die Verhaltensunterschiede nicht … „Macht Reichtum unmoralisch?“ weiterlesen
Gehaltsunterschied zwischen Frauen und Männern im Osten geringer
Laut Statistischem Bundesamt verdienen Männer in Deutschland durchschnittlich 23% mehr als Frauen. Der Lohnunterschied ist jedoch regional sehr unterschiedlich: in Westdeutschland beträgt er 25%, im Osten nur 6%. Die Suche nach Gründen ist ein klassischer Anwendungsfall für multivariate Verfahren mit Drittvariablenkontrolle, z. B. Regressionsanalysen. Kontrolliert man das Einkommen nach Art der Tätigkeit und Ausbildung, so … „Gehaltsunterschied zwischen Frauen und Männern im Osten geringer“ weiterlesen
Scheinkorrelation vs. intervenierende Variable
In anderen Artikeln habe ich bereits auf Scheinkorrelationen hingewiesen, z. B. den statistischen Klassiker: Je mehr Störche es in einer Region gibt, desto mehr Kinder gibt es dort auch. Typisch für eine Scheinkorrelation ist: betrachtet man lediglich den Zusammenhang zwischen zwei Variablen, ohne auf weitere Merkmale zu achten, so ist dieser statistisch bedeutsam. Die Gültigkeit … „Scheinkorrelation vs. intervenierende Variable“ weiterlesen
Regressionsmodelle: R², Zielsetzung / Denkmodelle
Meines Erachtens gibt es zwei recht unterschiedliche Arten, mit Regressionsmodellen umzugehen. Das „empiristische“ Vorgehen Die erste, die ich wesentlich häufiger antreffe, geht von der Vorstellung aus: Regressionsmodelle sind dafür da, Zusammenhänge möglichst genau zu „erklären“ bzw. möglichst gute Prognosen zu erstellen. In dieser Denkweise ist R² (der erklärte Varianzanteil) das entscheidende Gütemaß. Wenn Studien vorgestellt werden, … „Regressionsmodelle: R², Zielsetzung / Denkmodelle“ weiterlesen
Verdeckte Korrelation
Neben Scheinkorrelationen gibt es auch verdeckte Korrelationen: Es besteht tatsächlich ein Zusammenhang zwischen zwei Merkmalen, die statistische Korrelation ist jedoch nahe 0. Grund: eine intervenierende Variable verdeckt den Zusammenhang. Fiktives Beispiel: Es wird untersucht, welchen Einfluss ein unterschiedlich intensiver Kontakt mit einer bestimmten Tabakwerbung auf das Rauchverhalten von Jugendlichen ausübt. Die Korrelation ist überraschenderweise 0. … „Verdeckte Korrelation“ weiterlesen
Warum multivariate Methoden? Für kommerzielle Forschung reichen doch Kreuztabellen!
Der Kunde muss die Analyse verstehen können! Dieses Argument habe ich schon öfter zu hören bekommen. Folgendes Beispiel mag zeigen, warum multivariate Verfahren durchaus angemessen sein können. Annahme: Jugendliche mit höherer Sportorientierung ernähren sich gesünder als Jugendliche mit geringerer Sportorientierung. Lässt sich diese Annahme anhand vorliegender Befragungsdaten bestätigen? Korrelationsanalyse [man könnte auch Mittelwerte bilden und in … „Warum multivariate Methoden? Für kommerzielle Forschung reichen doch Kreuztabellen!“ weiterlesen