Verdeckte Korrelationen sichtbar machen in R mit linearen Modellen

Nach meinem Eindruck erhalten verdeckte Korrelationen weniger Aufmerksamkeit als ihre bekannteren Kollegen, die Scheinkorrelationen. Dabei stellen beide Phänomene ähnliche Herausforderungen für die Datenanalyse dar. Eine verdeckte Korrelation liegt vor, wenn ein Zusammenhang zwischen zwei Variablen besteht, aber nicht direkt sichtbar wird, weil er von (mindestens) einer anderen Variable verdeckt oder überlagert wird. Kein Zusammenhang zwischen … „Verdeckte Korrelationen sichtbar machen in R mit linearen Modellen“ weiterlesen

Scheinkorrelationen aufdecken in R mit linearen Regressionsmodellen

Störche bringen Babies – das wohl bekannteste Beispiel der Statistik für eine klassische Scheinkorrelation. Der Zusammenhang ist tatsächlich statistisch nachweisbar – es handelt sich jedoch (nach heutigem Wissen) nicht um einen Kausalzusammenhang. Auch wenn uns das inhaltlich bekannt ist – wie können wir das statistisch belegen? In anderen Anwendungsfällen wird uns inhaltlich vielleicht nicht so … „Scheinkorrelationen aufdecken in R mit linearen Regressionsmodellen“ weiterlesen

Gehaltsunterschied zwischen Frauen und Männern im Osten geringer

Laut Statistischem Bundesamt verdienen Männer in Deutschland durchschnittlich 23% mehr als Frauen. Der Lohnunterschied ist jedoch regional sehr unterschiedlich: in Westdeutschland beträgt er 25%, im Osten nur 6%. Die Suche nach Gründen ist ein klassischer Anwendungsfall für multivariate Verfahren mit Drittvariablenkontrolle, z. B. Regressionsanalysen. Kontrolliert man das Einkommen nach Art der Tätigkeit und Ausbildung, so … „Gehaltsunterschied zwischen Frauen und Männern im Osten geringer“ weiterlesen

Scheinkorrelation vs. intervenierende Variable

In anderen Artikeln habe ich bereits auf Scheinkorrelationen hingewiesen, z. B. den statistischen Klassiker: Je mehr Störche es in einer Region gibt, desto mehr Kinder gibt es dort auch. Typisch für eine Scheinkorrelation ist: betrachtet man lediglich den Zusammenhang zwischen zwei Variablen, ohne auf weitere Merkmale zu achten, so ist dieser statistisch bedeutsam. Die Gültigkeit … „Scheinkorrelation vs. intervenierende Variable“ weiterlesen

Regressionsmodelle: R², Zielsetzung / Denkmodelle

Meines Erachtens gibt es zwei recht unterschiedliche Arten, mit Regressionsmodellen umzugehen. Das „empiristische“ Vorgehen Die erste, die ich wesentlich häufiger antreffe, geht von der Vorstellung aus: Regressionsmodelle sind dafür da, Zusammenhänge möglichst genau zu „erklären“ bzw. möglichst gute Prognosen zu erstellen. In dieser Denkweise ist R² (der erklärte Varianzanteil) das entscheidende Gütemaß. Wenn Studien vorgestellt werden, … „Regressionsmodelle: R², Zielsetzung / Denkmodelle“ weiterlesen

Korrelation: Je mehr Störche, desto mehr Kinder

Ein Klassiker der Statistik … Man kann tatsächlich nachweisen, dass in Regionen mit mehr Störchen auch mehr Kinder „auf die Welt kommen“. Ist damit bewiesen, dass Störche Kinder bringen? Medizinisch-biologische Erkenntnisse sprechen dagegen – es gibt andere, gut belegte Theorien dazu, wie Kinder entstehen und von wo sie „gebracht“ werden. So weit, so klar – … „Korrelation: Je mehr Störche, desto mehr Kinder“ weiterlesen

Warum multivariate Methoden? Für kommerzielle Forschung reichen doch Kreuztabellen!

Der Kunde muss die Analyse verstehen können! Dieses Argument habe ich schon öfter zu hören bekommen. Folgendes Beispiel mag zeigen, warum multivariate Verfahren durchaus angemessen sein können. Annahme: Jugendliche mit höherer Sportorientierung ernähren sich gesünder als Jugendliche mit geringerer Sportorientierung. Lässt sich diese Annahme anhand vorliegender Befragungsdaten bestätigen? Korrelationsanalyse [man könnte auch Mittelwerte bilden und in … „Warum multivariate Methoden? Für kommerzielle Forschung reichen doch Kreuztabellen!“ weiterlesen