R-Schulungen

Maßgeschneiderte R-Schulungen

  • Wolf RieplPraxisbeispiele zu Ihren Fragestellungen, nach Absprache speziell für Ihre Anwendungsfälle vorbereitet
  • Ihr Wunschtermin, gern bei Ihnen vor Ort
  • Inhalte / Module frei vereinbar
  • Unbürokratische Unterstützung zwischen Schulungsterminen möglich
  • Gern erstelle ich ein individuelles Angebot!

Workshops mit festen Terminen beim it Trainingshaus Dresden:

Selbstverständnis:

„Als Sozialwissenschaftler geht es mir um verständliche Interpretationen: Statistik ist kein Selbstzweck, sondern ein Mittel, um Fragen zu beantworten. Bei meinen Schulungen verwende ich anschauliche Praxisbeispiele und verzichte auf mathematische Herleitungen und Formeln.“

  • R Skill Track: Visualisierung (Visualization)
    Skill Track Data Visualization with R: Enthält 5 Kurse: Drei ggplot2-Kurse, einen Kurs zu Visualisierungen mit Base R und einen zu lattice

Beispiele für Module:

Modul „Einführung in R / R-Studio“

  • Benutzeroberfläche, Konsole, Skriptfenster, Umgebung (Environment)
  • Datentypen, Objekte, Verknüpfungen, logische Operatoren
  • Arbeiten mit Datensätzen, Datenimport, Datenaufbereitung, Umgang mit Fehlwerten etc.
  • Einfache Datenanalysen
  • Nach Absprache: Einführung in Visualisierungen mit R
  • Empfehlungen zu sinnvollen R-Paketen
  • Stanford University: Statistical Learning, Certificate
    Stanford University: Statistical Learning (Trevor Hastie, Rob Tibshirani)

Weitere Zertifizierungen sind in Arbeit: siehe DataCamp-Profil

Modul „Professionelle Diagramme mit ggplot2“

1-2 Tage nach Absprache. Ich verwende öffentlich zugängliche Daten, auf Wunsch auch gern spezielle Daten von Ihnen, um die Beispiele auf Ihre Anwendungsfälle zuzuschneiden.

Vorschlag für Inhalte:

  • Kurze Einführung in die „Grammar of Graphics“, die „Grammatik der grafischen Darstellung“
  • Die drei grundlegenden Schichten: Daten, Ästhetiken, Geometrien
  • „quick and dirty“: Schnelle Diagramme mit qplot
  • Die Syntax von ggplot2 – Diagrammbeispiele
  • Einführung in tidy data, die Datenstruktur von ggplot2 (und weiterer moderner R-Pakete); einfache Datenaufbereitung mit tidyr
  • Diagramme mit „Facetten“ (facets) für Untergruppen
  • Statistische Transformationen, z. B. Trendlinien, statistische Kennwerte
  • Koordinatensysteme
  • Finetuning: Themes, benutzerdefinierte Anpassungen
  • optional: Einführung in Diagramme für webbasierte Berichte: HTML mit Mouse-Over-Effekten (htmlwidgets)

Modul „Deskriptive Statistik und einfache statistische Tests“

  • Verteilungen beschreiben, Kennzahlen, einfache Diagramme
  • Prüfung von Verteilungsannahmen, Normalverteilung
  • Signifikanztests für metrische und kategoriale Merkmale wie t-Test, U-Test, Chi-Quadrat-Test, Anova
  • Korrelation, Scheinkorrelation, verdeckte Korrelation

Module zu speziellen R-Paketen

  • Datenbearbeitung mit dplyr
  • Datenimport mit readr, utils, readxl, gdata, XLConnect, haven, foreign, DBI, RMySQL
  • Berichtserstellung mit markdown (HTML, Word, PDF)

Modul „Modellbildung / Maschinelles Lernen“

  • Einfache und multiple lineare Regression
  • Metrische und kategoriale unabhängige Variablen (Prädiktoren)
  • Modellgüte: R², korrigiertes R², Cp, AIC, BIC
  • Trainingsfehler und Testfehler; Über-Anpassung (Overfitting)
  • Kreuzvalidierung
  • Modell-Selektion, z. B. Forward, Backward, Best Subsets
  • Regressionsmodelle für eine große Anzahl von Prädiktoren, z. B. Ridge-Regression, Lasso
  • Dimensionsreduktion: Faktorenanalyse als Vorstufe zur Regressionsanalyse; PCA / PCR / PLS
  • Logistische Regression
  • KNN (K Nearest Neighbor)
  • Entscheidungsbäume / Random Forest

Modul „Unüberwachtes Lernen“ (Unsupervised Learning)

  • Clusteranalysen: Erstellung von Typologien
  • hierarchische und partitionierende Verfahren
  • Methoden zur Bestimmung der Clusteranzahl und zur Beurteilung der Clusterlösung
  • Faktorenanalysen

Weitere Module auf Anfrage – ich freue mich auf Ihre Nachricht!

Empfehlenswerte Ressourcen: