Meines Erachtens gibt es zwei recht unterschiedliche Arten, mit Regressionsmodellen umzugehen.
Das „empiristische“ Vorgehen
Die erste, die ich wesentlich häufiger antreffe, geht von der Vorstellung aus: Regressionsmodelle sind dafür da, Zusammenhänge möglichst genau zu „erklären“ bzw. möglichst gute Prognosen zu erstellen. In dieser Denkweise ist R² (der erklärte Varianzanteil) das entscheidende Gütemaß. Wenn Studien vorgestellt werden, wird dann entweder stolz auf ein ungewöhnlich hohes R² verwiesen, oder etwas verschämt ein niedriges R² am liebsten verschwiegen oder nur auf Nachfrage berichtet. Verletzungen der Modellvoraussetzungen sind in dieser Sichtweise „störend“. Z. B. wird es als Dilemma empfunden, ob man korrelierende unabhängige Variablen im gleichen Modell verwenden soll (Problem der Multikollinearität) oder nicht (niedrigeres R²). Das zentrale Ergebnis der Regressionsanalyse ist die Regressionsgleichung. Kritik an dieser Herangehensweise wird z. B. mit den Begriffen „Empirismus“ und „data fitting“ bezeichnet.
Das theoriegeleitete, hypothesen-testende Vorgehen
In vielen Forschungsprojekten ist eine andere Herangehensweise sinnvoller. Gerade im sozialwissenschaftlichen Kontext ist es oft absurd, Zusammenhänge mit dezimalstellen-genauen Koeffizienten zu beschreiben. Daraus muss man aber nicht schließen, dass Regressionsmodelle übertrieben oder nicht zweckmäßig seien. Man kann sie auch mit dem Ziel einsetzen, Hypothesen zu testen. Oft kann man auf die Aufstellung der exakten Regressionsgleichung verzichten – es genügt dann, Wirkungsrichtungen (Vorzeichen, positiver oder negativer Einfluss) und Signifikanzniveaus zu interpretieren. Der Vorteil der Regressionsmodelle gegenüber weniger anspruchsvollen Verfahren wie Korrelationen oder t-Tests besteht in der Drittvariablenkontrolle. In dieser Denkweise ist R² sekundär. In vielen Anwendungsfällen ist klar, dass die abhängige Variable von weiteren Einflussgrößen abhängt, für die keine Daten vorliegen – niedrige R² sind dann plausibel. Wenn ein vermuteter Einfluss nicht nachgewiesen werden kann (der Prädiktor ist nicht signifikant), ist das manchmal ein sehr spannendes, berichtenswertes Ergebnis, auch oder gerade bei niedrigem R². Verletzungen der Voraussetzungen sind bei dieser Herangehensweise viel weniger problematisch: es geht nicht um das „eine“, möglichst perfekte Modell. Oft entsteht Erkenntnisgewinn gerade aus dem Vergleich verschiedener Modelle. Typische Fragestellung: Wie verändern sich die Effekte meiner Prädiktoren, wenn ich bestimmte Kontrollvariablen hinzunehme oder weglasse? So können Scheinkorrelationen oder verdeckte Korrelationen ermittelt werden.
Theoriegeleitetes Vorgehen: Störche, Babies und Drittvariablenkontrolle
Für die Vermittlung des theoriegeleiteten Konzepts danke ich Prof. Frank Kalter.
Eine praxisorientierte Einführung in Regressionstechniken (Hinweis: bezahlter Link):
3 Gedanken zu „Regressionsmodelle: R², Zielsetzung / Denkmodelle“