Machine Learning und Data Mining mit R

Hinweis: Dieser Kurs wird zur Zeit nicht angeboten.

Während das Data Mining vorrangig auf die Ableitung von Erkenntnissen aus vorhandenen Daten abzielt, geht es beim Maschinellen Lernen mehr um Vorhersagen, d. h. die Anwendung der zuvor trainierten Modelle auf neue Daten. Die Methoden überschneiden sich zum Teil.

Der Kurs ist in zwei Hauptthemen unterteilt: Supervised Learning und Unsupervised Learning. Beim Supervised Learning gibt es eine Zielvariable, d. h. ein bekanntes „Ergebnis“. Beispiele sind Wohnungspreise („Regressionsproblem“) oder die Information, ob ein Bankkredit bedient wurde oder ausgefallen ist („Klassifikationsproblem“). Es werden Modelle erstellt, die diese Zielgröße bei neuen Daten vorhersagen können. Die Modelle lassen sich daran messen, wie genau bzw. zuverlässig diese Vorhersage gelingt.

Beim Unsupervised Learning gibt es hingegen keine Zielgröße. Hier geht es darum, Muster in den Daten zu finden. Beispiele sind eine Kundensegmentierung oder die Dimensionsreduktion einer großen Anzahl Merkmale auf wenige übergeordnete Komponenten. Schließlich betrachten wir Verbindungen zwischen Methoden des Unsupervised Learning und Supervised Learning.

Wir beschäftigen uns mit regressionsbasierten Methoden, ausgehend von der linearen Regression, die wir auf die Modellierung nichtlinearer Zusammenhänge erweitern. Weiter beschäftigen wir uns mit nichtparametrischen Modellen, die keine funtionale Form des Zusammenhangs schätzen, sowie mit Kriterien der Modellgüte und Kriterien, die uns die Entscheidung zwischen verschiedenen Algorithmen erleichtern.

Empfohlene Seminardauer: 3 Tage

Details zu den Algorithmen, mit denen wir uns in diesem Seminar beschäftigen:

Überwachtes Lernen / Supervised Learning für Regressions- und Klassifikationsprobleme

  • Lineare Regression mit kontinuierlichen und kategorialen Prädiktoren
  • algorithmen-basierte Modelloptimierung / automatisierte Auswahl von Prädiktoren (best subsets, forward, backward)
  • logistische Regression
  • Lasso und Ridge-Regression
  • Interaktionseffekte
  • GAM (generalized additive model)
  • KNN (k nearest neighbors)
  • Entscheidungsbäume (decision trees)
  • SVM (Support Vector Machine)
  • Random Forest
  • GBM (Gradient Boosting Machine)
Gradient Boosting Machine mit Interaktionseffekten
Gradient Boosting Machine mit Interaktionseffekten

Unüberwachtes Lernen / Unsupervised Learning

  • Clusteranalysen: k-means
  • hierarchische Clusteranalysen
  • Dimensionsreduktion, Principal Components Analysis (PCA)
  • PCA als Vorstufe für Regressionsanalysen; PCR (Principal Components Regression) und PLS (Partial Least Squares)

Maschinelles Lernen leicht gemacht: Das R-Paket caret (Max Kuhn)

  • Überanpassung (Overfitting) vermeiden: Kreuzvalidierung
  • Uneinheitlichen R-Code für eine Vielzahl von Machine Learning-Algorithmen handhaben: eine gemeinsame Schnittstelle mit einheitlicher Syntax
  • Modellvergleiche, Gütekriterien; Modell-Optimierung (tuning)

Empfohlene Seminardauer: 3 Tage. Je nach Vorkenntnissen bzw. bei Auswahl von Teilgebieten sind auch kompaktere Seminare möglich.

Hinweis: Folgende Teilgebiete des Maschinellen Lernens werden nicht betrachtet: Reinforcement Learning, Deep Learning

Ich freue mich auf Ihre Nachricht!

Zurück zu R-Schulungen: Übersicht über Seminare / Workshops / Module