data.table vs. dplyr und dtplyr: Benchmarks

Zwei der populärsten Pakete zur Datenaufbereitung in R sind data.table (Matt Dowle, Arun Srinivasan, viele Mitarbeiter) und dplyr (Hadley Wickham, viele Mitarbeiter). Während data.table zu Recht den Ruf hat, sehr schnell zu sein, hat dplyr vielen den Einstieg in R enorm erleichtert. Geschwindigkeitsvergleiche: data.table vs. dplyr – beachte dtplyr! Es gibt bereits seit Jahren eine … „data.table vs. dplyr und dtplyr: Benchmarks“ weiterlesen

Textantworten (offene Nennungen) automatisch zuordnen in R nach Ähnlichkeit

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Textantworten (offene Nennungen) codieren mit R: stringr und regex

Oft wird ein großer Teil der Projektzeit nicht für die spannenden Modelle, sondern für die meist etwas weniger spannend empfundene Datenaufbereitung verwendet. Ein typischer Stolperstein dabei ist die Codierung von Textantworten (offene Nennungen). Wie können wir uns diese Arbeit mit R erleichtern? Anhand eines einfachen Beispiels („Warum treiben Sie Sport?“) beginnen wir mit einer Zuordnung … „Textantworten (offene Nennungen) codieren mit R: stringr und regex“ weiterlesen

Storytelling mit R und ggplot2: Länderfinanzausgleich

ggplot2 ist ein mächtiges Werkzeug, um ansprechende Grafiken zu erstellen. Will man Zuhörer oder Leser „mitnehmen“, empfiehlt es sich, nicht nur Daten zu präsentieren, sondern auch eine Geschichte damit zu erzählen. Unser Storytelling-Beispiel bezieht sich auf den Länderfinanzausgleich. Unter Storytelling verstehe ich hier: Bestimmte Aspekte hervorheben, die ich als Bearbeiter wichtig finde, um den Blick … „Storytelling mit R und ggplot2: Länderfinanzausgleich“ weiterlesen

Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)

Regressionsmodelle sind nach wie vor sehr populär in der Statistik, dem Data Mining, Data Science und Machine Learning – das belegen aktuelle Zahlen, die KDNuggets kürzlich via Twitter präsentierte: Heute geht es um Möglichkeiten, solche Modelle mit der frei erhältlichen Software R / RStudio zu visualisieren. Wir nutzen den weit verbreiteten Datensatz mtcars, der in … „Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)“ weiterlesen