Wer R lernen will, hat eine Vielzahl von Büchern zur Auswahl – zumindest, wenn englischsprachige Bücher in Frage kommen. Es gibt auch auf Deutsch einige Einführungen in die R-Programmierung (z. B. R kompakt von Daniel Wollschläger), doch der englischsprachige Markt ist deutlich größer. Eine sehr praxisorientierte Einführung stammt von Garrett Grolemund: Hands-On Programming with R. … „R lernen mit Hands-On Programming with R von Garrett Grolemund“ weiterlesen
Schlagwort: caret
Machine Learning-Algorithmen verstehen: Interaktionseffekte
Machine Learning-Algorithmen zu verstehen ist eine Herausforderung. Mit dem folgenden Text möchte ich einen Beitrag dazu leisten, indem ich ein Spezialthema betrachte: Wie gehen verschiedene Machine Learning-Algorithmen mit Interaktionseffekten um? Folgende Machine-Learning-Algorithmen werden betrachtet: Lineare Regression GAM = Generalized Additive Model KNN = K nächste Nachbarn = k nearest neighbors Ein einzelner Entscheidungsbaum (rpart) Ein … „Machine Learning-Algorithmen verstehen: Interaktionseffekte“ weiterlesen
Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)
Datensätze mit mehr Variablen als Fällen sind eine besondere Herausforderung für die Datenanalyse: p > n, p für predictors, Prädiktoren; n für die Stichprobengröße. Klassische Verfahren wie die lineare Regression sind unter diesen Bedingungen rechnerisch nicht lösbar. Die Daten: p > n Hier ein Beispiel: biomarker.Rda enthält 90 Fälle (Beobachtungen) von 2000 unabhängigen Variablen – … „Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)“ weiterlesen
Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)
Das Maschinelle Lernen vereinigt Methoden aus unterschiedlichen Fachbereichen. Während Ansätze der klassischen Statistik eher auf Hypothesentests ausgelegt sind, steht beim Data Mining oft die Ableitung von praxisrelevanten Erkenntnissen aus vorhandenen Daten im Vordergrund, und das Machine Learning zielt auf die Anwendung der „trainierten“ Modelle auf zuvor nicht gesehene Daten – sprich Vorhersagen. Bei den jeweils … „Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)“ weiterlesen
R-Zertifizierung: Machine Learning Toolbox (DataCamp)
Nach einer Phase intensiverer Projektarbeit schaute ich nach längerer Zeit mal wieder bei DataCamp rein: Dort wurde inzwischen das Kursangebot erheblich erweitert. Einer der etwas neueren Kurse heißt Machine Learning Toolbox, rund um das caret-Paket, gelehrt vom Haupt-Entwickler Max Kuhn sowie dem Co-Autor Zachary (Zach) Mayer. Es geht um Supervised Learning, „überwachtes Lernen“: Modelle, die auf eine … „R-Zertifizierung: Machine Learning Toolbox (DataCamp)“ weiterlesen