R-Schulungen

Maßgeschneiderte R-Schulungen

  • Wolf RieplPraxisbeispiele zu Ihren Fragestellungen, nach Absprache speziell für Ihre Anwendungsfälle vorbereitet
  • Ihr Wunschtermin, gern bei Ihnen vor Ort
  • Inhalte / Module frei vereinbar
  • Unbürokratische Unterstützung zwischen Schulungsterminen möglich
  • Alle Seminare auf Wunsch auf Englisch
  • Gern erstelle ich ein individuelles Angebot!

Workshops mit festen Terminen beim it Trainingshaus Dresden:

Andere Standorte / Termine auf Anfrage: IT-Schulungen.com

Selbstverständnis:

„Als Sozialwissenschaftler geht es mir um verständliche Interpretationen: Statistik ist kein Selbstzweck, sondern ein Mittel, um Fragen zu beantworten. Bei meinen Schulungen verwende ich anschauliche Praxisbeispiele und verzichte auf mathematische Herleitungen und Formeln.“

  • Boxplots mit Datenpunkten
    Boxplots mit zusätzlicher Darstellung der einzelnen Datenpunkte

Beispiele für Seminare und Module:

Seminar: Einführung in R / R-Studio

  • Benutzeroberfläche, Konsole, Skriptfenster, Umgebung (Environment)
  • Datentypen, Objekte, Verknüpfungen, logische Operatoren
  • Arbeiten mit Datensätzen, Datenimport und -export mit verschiedenen Dateiformaten (.csv, .txt, .xlsx, andere Statistikpakete wie SPSS, SAS, Stata; optional XML), Datenaufbereitung, Umgang mit Fehlwerten etc.
  • Einfache Datenanalysen
  • Einführung in Visualisierungen mit R (kurz zu Base R; ggplot2)
  • Empfehlungen zu sinnvollen R-Paketen, insbesondere aus dem tidyverse:
    Einführung in dplyr und piping %>% für besser lesbaren Code
  • Einführung in Berichtserstellung mit R Markdown
  • Empfohlene Seminardauer: 2 Tage;
    nach Absprache kombinierbar mit einer Einführung in Machine Learning / Data Mining
    und/oder einer Vertiefung der Visualisierungen
  • Mehr zu diesem Workshop
  • Data Scientist with R Career Track
    Umfasst 23 Kurse: von Grundlagen über Datenimport, Datenaufbereitung über Programmierung und Visualisierung bis zu Statistik und Machine Learning (Supervised und Unsupervised) sowie Text Mining und Berichtslegung

Weitere Zertifizierungen sind in Arbeit: siehe DataCamp-Profil

Seminar: Professionelle Diagramme mit ggplot2

Beispiele mit öffentlich zugänglichen Daten. Auf Wunsch gern spezielle Daten von Ihnen, um die Beispiele auf Ihre Anwendungsfälle zuzuschneiden.

  • Kurze Einführung in die „Grammar of Graphics“, die „Grammatik der grafischen Darstellung“
  • Die drei grundlegenden Schichten: Daten, Ästhetiken, Geometrien
  • „quick and dirty“: Schnelle Diagramme mit qplot
  • Die Syntax von ggplot2 – Diagrammbeispiele
  • Einführung in tidy data, die Datenstruktur von ggplot2 (und weiterer moderner R-Pakete); einfache Datenaufbereitung mit tidyr
  • Diagramme mit „Facetten“ (facets) für Untergruppen
  • Statistische Transformationen, z. B. Trendlinien, statistische Kennwerte
  • Koordinatensysteme
  • Finetuning: Themes, benutzerdefinierte Anpassungen
  • optional: Einführung in Diagramme für webbasierte Berichte: HTML mit Mouse-Over-Effekten (htmlwidgets)
  • optional: Animationen, Erstellung von gifs
  • Empfohlene Seminardauer: 2 Tage
  • Sie suchen Unterstützung bei der Visualisierung statistischer Daten? Gern!

Seminar: Machine Learning / Data Mining mit R

Während das Data Mining vorrangig auf die Ableitung von Erkenntnissen aus vorhandenen Daten abzielt, geht es beim Maschinellen Lernen mehr um Vorhersagen, d. h. die Anwendung der zuvor trainierten Modelle auf neue Daten. Die Methoden überschneiden sich zum Teil.

Überwachtes Lernen / Supervised Learning für Regressions- und Klassifikationsprobleme

  • Lineare Regression mit kontinuierlichen und kategorialen Prädiktoren
  • algorithmen-basierte Modelloptimierung / automatisierte Auswahl von Prädiktoren (best subsets, forward, backward)
  • Regression mit Dimensionsreduktion: Principal Components Regression (PCR) und Partial Least Squares (PLS)
  • logistische Regression
  • Lasso und Ridge-Regression
  • Interaktionseffekte
  • GAM (generalized additive model)
  • KNN (k nearest neighbors)
  • Entscheidungsbäume (decision trees)
  • SVM (Support Vector Machine)
  • Random Forest
  • GBM (Gradient Boosting Machine)

Unüberwachtes Lernen / Unsupervised Learning

  • Clusteranalysen: k-means
  • hierarchische Clusteranalysen
  • Dimensionsreduktion, Principal Components Analysis (PCA)

Maschinelles Lernen leicht gemacht: Das R-Paket caret (Max Kuhn)

  • Überanpassung (Overfitting) vermeiden: Kreuzvalidierung
  • Uneinheitlichen R-Code für eine Vielzahl von Machine Learning-Algorithmen handhaben: eine gemeinsame Schnittstelle mit einheitlicher Syntax
  • Modellvergleiche, Gütekriterien; Modell-Optimierung (tuning)

Empfohlene Seminardauer: 3 Tage. Je nach Vorkenntnissen bzw. bei Auswahl von Teilgebieten sind auch kompaktere Seminare möglich.

Modul „Deskriptive Statistik und einfache statistische Tests“

  • Einführung in den R Commander (grafische Oberfläche für R)
  • Verteilungen beschreiben, Kennzahlen, einfache Diagramme
  • Prüfung von Verteilungsannahmen, Normalverteilung
  • Signifikanztests für metrische und kategoriale Merkmale wie t-Test, U-Test, Chi-Quadrat-Test, Anova
  • Korrelation, Scheinkorrelation, verdeckte Korrelation
  • Ergebnisse statistischer Analysen als Objekte weiterverarbeiten

Module zu speziellen R-Paketen

  • Einführung in Pakete des tidyverse (v. a. Pakete von Hadley Wickham): eleganten, übersichtlichen R-Code schreiben
    • Datenbearbeitung mit dplyr
    • Datenaufbereitung mit tidyr
    • Funktionales Programmieren mit purrr
    • Weiterverarbeitung von Modell-Ergebnissen mit broom (David Robinson)
  • Datenimport mit readr, readxl, haven, xlsx, DBI, RMySQL
  • Berichtserstellung mit Markdown (HTML, Word, PDF)
  • Maschinelles Lernen (Machine Learning): Einführung in caret
    (von Max Kuhn, dem Autor von Applied Predictive Modeling)

Weitere Seminare / Module auf Anfrage – ich freue mich auf Ihre Nachricht!

Empfehlenswerte Ressourcen: