Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung

Lineare Regressionsmodelle können mit Hilfe von Polynomen auch nichtlineare Zusammenhänge abbilden. Die Modellanpassung im Sinne von R² und korrigiertem R² kann dadurch erheblich steigen. Doch ist ein solches Modell tatsächlich „besser“ als ein einfacheres?

Ein Praxistest wäre, die Modellgleichung auf andere Daten anzuwenden. Oft stehen jedoch keine neuen Daten zur Verfügung, die genau die gleichen Prädiktoren enthalten. Hier kann man sich mit der Kreuzvalidierung (cross validation) helfen. Der Datensatz wird dazu in 10 etwa gleich große Teile untergliedert. Jeweils 9 Teile dienen der Modellbildung, am 10., nicht verwendeten Teil wird das Modell getestet. Der Validierungsfehler erlaubt eine realistischere Beurteilung der Modellgüte als R² und das korrigierte R².

Das Beispiel verwendet den in R enthaltenen Datensatz „Boston“. Ich arbeite mit R Studio. Das R-Skript ist einsehbar. Den Kern bilden die Funktionen poly in linearen Modellen (lm) sowie die Kreuzvalidierung mittels cv.glm.



Dank an die Universität Stanford für den Online-Kurs Statistical Learning von den renommierten Professoren Trevor Hastie und Rob Tibshirani. Das Buch dazu:

An Introduction to Statistical Learning: with Applications in R (Springer Texts in Statistics)

Hier finden Sie weitere Beiträge zu Regressionsanalysen und weitere Artikel zum Statistikpaket R.




Freue mich über Kommentare!