R-Zertifizierung: dplyr (DataCamp)

Hadley Wickham ist vielleicht der bekannteste Entwickler von R-Paketen; plyr und dplyr dürften zu den populärsten R-Paketen zählen. In diesem Kurs ging es u. a. um folgende Themen: Einführung in dplyr und die Klasse tbls Befehle („verbs“): select, mutate, filter, arrange, summarise Komplexe / verschachtelte Befehle vereinfachen mit %>% (pipe operator) group_by Einsatz von dplyr zur … „R-Zertifizierung: dplyr (DataCamp)“ weiterlesen

R-Zertifizierung: Daten in R importieren (DataCamp)

Weitere R-Zertifizierung abgeschlossen: Importing Data into R Datenimport – klingt langweilig? Heutzutage gibt es eine Vielzahl an Datenformaten, und insbesondere der Umgang mit Daten aus dem Internet kann durchaus herausfordernd sein. In dem Kurs ging es u. a. um folgende Themen: Import von Dateien in den Formaten csv und txt R-Pakete (packages): utils, readr, data.table; … „R-Zertifizierung: Daten in R importieren (DataCamp)“ weiterlesen

R-Zertifizierung: Data Analysis and Statistical Inference

Weitere R-Zertifzierung abgeschlossen: Data Analysis and Statistical Inference Der Kurs bei DataCamp bezieht sich auf einen Kurs bei Coursera. Da die Themen mir nicht neu waren, hatte ich wenig Mühe, die Aufgaben auch ohne Teilnahme bei Coursera zu lösen. Nach einer Einführung in R ging es um folgende Themen: Datentypen, Teildatensätze, Boxplots, Histogramme Wahrscheinlichkeiten, Simulationen (z. B. … „R-Zertifizierung: Data Analysis and Statistical Inference“ weiterlesen

Die ersten R-Zertifizierungen: Einführung in R, Intermediate R – Datacamp

Zeit, das R-Wissen zu zertifizieren. Hier die ersten beiden: DataCamp: Introduction to R / Einführung in R Da ich mich schon einige Zeit mit R beschäftigt hatte, war der Einführungskurs schnell absolviert. Es ging u. a. um folgende Themen: R als Rechner Variablenzuweisungen, Datentypen Vektoren und Matrizen Faktoren und Datensätze Listen Zweiter Kurs: Intermediate R … „Die ersten R-Zertifizierungen: Einführung in R, Intermediate R – Datacamp“ weiterlesen

R Anwendungsbeispiel mit Video: R-Funktionen auf Variablenliste anwenden

Wie kann man R-Funktionen auf eine lange Variablenliste anwenden, ohne jeden einzelnen Variablennamen eintippen zu müssen? Das wird am Beispiel eines Datensatzes mit 235 NIR-Wellenlängen (NIR = near infrared spectroscopy) gezeigt. Dazu werden 235 einfache lineare Regressionsmodelle mit jeweils einer unabhängigen (und einer abhängigen) Variable aufgestellt, um dann die R²-Werte grafisch zu vergleichen. Es wird gezeigt, … „R Anwendungsbeispiel mit Video: R-Funktionen auf Variablenliste anwenden“ weiterlesen

Statistisches rund um Glücksspiele

Glücksspiele haben die Menschen schon seit undenklichen Zeiten fasziniert. Den einen geht es um den „Kick“ (Aufregung), manchen auch um Geselligkeit, Entspannung oder Ablenkung. Geringe Bedeutung haben zudem die Motive „Sich auskennen“ und „Ungestört sein“. Das wichtigste Glücksspiel-Motiv der Deutschen ist laut BZgA / Forsa / Statista jedoch mit großem Abstand die Hoffnung auf Geldgewinn. Dieser … „Statistisches rund um Glücksspiele“ weiterlesen

Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung

Lineare Regressionsmodelle können mit Hilfe von Polynomen auch nichtlineare Zusammenhänge abbilden. Die Modellanpassung im Sinne von R² und korrigiertem R² kann dadurch erheblich steigen. Doch ist ein solches Modell tatsächlich „besser“ als ein einfacheres? Ein Praxistest wäre, die Modellgleichung auf andere Daten anzuwenden. Oft stehen jedoch keine neuen Daten zur Verfügung, die genau die gleichen … „Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung“ weiterlesen

Typologie Dresdner Stadtteile / Clusteranalyse mit „R“

Eine datenbasierte Typologie zu erstellen, ist leicht und schwierig zugleich. Leicht, weil eine Typologie nicht „falsch“ sein kann. Und deshalb gleichzeitig schwierig, weil der Forscher viele Entscheidungen zu treffen hat und weil es gilt, eine inhaltlich sinnvolle Interpretation zu finden. Heute geht es darum, Dresdner Stadtteile zu Typen zusammenzufassen. Dabei geht es um folgende Fragen: Wie … „Typologie Dresdner Stadtteile / Clusteranalyse mit „R““ weiterlesen

Buchbesprechung: The Art of #R Programming von Norman Matloff

Wer sich an die freie Statistik-Software R heranwagt, findet mittlerweile eine Fülle an hilfreicher Literatur. Die Auswahl ist noch erheblich größer für diejenigen, die sich Fachbücher auf Englisch zutrauen. Für Norman Matloffs The Art of R Programming: A Tour of Statistical Software Design habe ich keine deutsche Version gefunden. Die Expertise des Autors kommt wohltuend zum Tragen. … „Buchbesprechung: The Art of #R Programming von Norman Matloff“ weiterlesen