Machine Learning-Algorithmen verstehen: Interaktionseffekte

Machine Learning-Algorithmen zu verstehen ist eine Herausforderung. Mit dem folgenden Text möchte ich einen Beitrag dazu leisten, indem ich ein Spezialthema betrachte: Wie gehen verschiedene Machine Learning-Algorithmen mit Interaktionseffekten um? Folgende Machine-Learning-Algorithmen werden betrachtet: Lineare Regression GAM = Generalized Additive Model KNN = K nächste Nachbarn = k nearest neighbors Ein einzelner Entscheidungsbaum (rpart) Ein … „Machine Learning-Algorithmen verstehen: Interaktionseffekte“ weiterlesen

Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)

Datensätze mit mehr Variablen als Fällen sind eine besondere Herausforderung für die Datenanalyse: p > n, p für predictors, Prädiktoren; n für die Stichprobengröße. Klassische Verfahren wie die lineare Regression sind unter diesen Bedingungen rechnerisch nicht lösbar. Die Daten: p > n Hier ein Beispiel: biomarker.Rda enthält 90 Fälle (Beobachtungen) von 2000 unabhängigen Variablen – … „Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)“ weiterlesen

Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)

Das Maschinelle Lernen vereinigt Methoden aus unterschiedlichen Fachbereichen. Während Ansätze der klassischen Statistik eher auf Hypothesentests ausgelegt sind, steht beim Data Mining oft die Ableitung von praxisrelevanten Erkenntnissen aus vorhandenen Daten im Vordergrund, und das Machine Learning zielt auf die Anwendung der „trainierten“ Modelle auf zuvor nicht gesehene Daten – sprich Vorhersagen. Bei den jeweils … „Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)“ weiterlesen

R-Zertifizierung: Machine Learning Toolbox (DataCamp)

Nach einer Phase intensiverer Projektarbeit schaute ich nach längerer Zeit mal wieder bei DataCamp rein: Dort wurde inzwischen das Kursangebot erheblich erweitert. Einer der etwas neueren Kurse heißt Machine Learning Toolbox, rund um das caret-Paket, gelehrt vom Haupt-Entwickler Max Kuhn sowie dem Co-Autor Zachary (Zach) Mayer. Es geht um Supervised Learning, „überwachtes Lernen“: Modelle, die auf eine … „R-Zertifizierung: Machine Learning Toolbox (DataCamp)“ weiterlesen

R-Zertifizierung: Machine Learning (DataCamp)

Nun ist auch der Machine Learning-Kurs von DataCamp abgeschlossen. Es ging um die drei Themenbereiche Klassifikation, Regression und Clustering. Von maschinellem Lernen wird nur gesprochen, wenn ein Algorithmus ein Modell ermittelt, das auf andere Daten (z. B. künftige Beobachtungen) angewendet werden kann. Deskriptive Statistiken (häufigste Farbe, durchschnittliche Größe) zählen somit nicht zum maschinellen Lernen. Einige Kursinhalte: … „R-Zertifizierung: Machine Learning (DataCamp)“ weiterlesen

Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung

Lineare Regressionsmodelle können mit Hilfe von Polynomen auch nichtlineare Zusammenhänge abbilden. Die Modellanpassung im Sinne von R² und korrigiertem R² kann dadurch erheblich steigen. Doch ist ein solches Modell tatsächlich „besser“ als ein einfacheres? Ein Praxistest wäre, die Modellgleichung auf andere Daten anzuwenden. Oft stehen jedoch keine neuen Daten zur Verfügung, die genau die gleichen … „Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung“ weiterlesen