R Zertifizierung: Machine Learning Toolbox (DataCamp)

Nach einer Phase intensiverer Projektarbeit schaute ich nach längerer Zeit mal wieder bei DataCamp rein: Dort wurde inzwischen das Kursangebot erheblich erweitert. Einer der etwas neueren Kurse heißt Machine Learning Toolbox, rund um das caret-Paket, gelehrt vom Haupt-Entwickler Max Kuhn sowie dem Co-Autor Zachary (Zach) Mayer.

Certificate: R Machine Learning Toolbox

Es geht um Supervised Learning, „überwachtes Lernen“: Modelle, die auf eine bekannte Zielvariable trainiert werden, sodass sie bei neuen Daten Vorhersagen für diese Zielvariable treffen können. Beispiele bezogen sich sowohl auf quantitative als auch qualitative Zielvariablen, d. h. es ging sowohl um Klassifikation als auch Regression.

Zur Evaluation der Modelle wurde der Vorhersagefehler bei Testdaten herangezogen, da viele Modelle erfahrungsgemäß besser an den Daten abschneiden, mit denen sie entwickelt wurden (=Trainingsdaten), Stichwort Kreuzvalidierung (cross validation).

Vorgestellt wurden eine Reihe nützlicher Funktionen von caret:

Stärken und Funktionen des caret-Pakets

  • Gemeinsame Schnittstelle zu einer Vielzahl von Modellen mittels einheitlichem Code
  • Automatisierung der Modell-Erstellung und vor allem der Evaluation

Funktionen:

  • createResamples
  • createFolds
  • train
  • benutzerdefinierte trainControl-Parameter
  • confusionMatrix, die eine Reihe von Kennwerten bei Klassifikationsmodellen berechnet, u. a. Accuracy, No Information Rate, Sensitivität, Spezifität, Kappa


  • tuneGrid, um Modellparameter systematisch benutzerdefiniert zu variieren und das erfolgreichste Modell (laut Kreuzvalidierung) auszuwählen
  • preProcess: Umgang mit Fehlwerten (missing values);
    Median-Imputation (d. h. Ersetzen des Fehlwertes durch den Median), KNN-Imputation (d. h. Ersetzen des Fehlwertes durch den gültigen Wert eines nach mehreren Kriterien bzw. Variablen möglichst ähnlichen Fall im Datensatz; besonders gut, wenn es systematische Muster in den Fehlwerten gibt, z. B. häufiger vermutlich niedrige Werte fehlen)
  • Weitere Anwendungsfälle von preProcess-Funktionen: Zentrieren und Skalieren von unabhängigen Variablen; vorgeschaltete PCA;
    automatisierter Ausschluss von Variablen mit geringem Informationsgehalt, z. B. aufgrund fehlender Varianz:
    zero variance, near zero variance
  • resamples: automatisierter Vergleich mehrerer Modelle

Mittels der caTools-Bibliothek wurden ROC-Kurven erstellt.

Im Kurs verwendete Modelltypen

  • lm
  • glm
  • glmnet (mit Ridge-Regression, Lasso und Zwischenstufen; besonders gut bei starker Kollinearität und kleinen Stichproben im Verhältnis zur Anzahl der Parameter)
  • Random Forest (Empfehlung: „ranger“-Paket statt des bekannteren „randomForest“)
  • gbm (Gradient boosting machine, z. T. auch als Generalized Boosted (Regression) Models bezeichnet)

Alles in allem ein sehr motivierender Kurs mit Praxisbeispielen von Profis. Das Schöne an DataCamp ist, dass man sehr schnell einen Einblick in Themen erhält.

Sie suchen R-Schulungen für sich oder Ihre Mitarbeiter? Gern bereite ich Workshops speziell für Ihre Bedürfnisse vor, auf Wunsch auch gern mit Ihren (Teil-)Daten bzw. für Ihre Anwendungsfälle. Sprechen Sie mich an!

Douglas Adams hatte nur fast Recht. Die korrekte Antwort lautet: p=0,042**

Freue mich über Kommentare!