Diagramme mit Daten aus Datenbanken in R: dbplot

Diagrammerstellung mit großen Datenmengen aus Datenbanken kann herausfordernd sein. Wie geht das möglichst effizient? Ad-hoc-Datenbank im Arbeitsspeicher Wir nutzen Daten über weltweite Chart-Erfolge von Songs und Alben und packen sie in eine Ad-hoc-Datenbank im Arbeitsspeicher. Das genügt, um die Ideen zu demonstrieren, und erspart Aufwand mit der Infrastruktur. Wie effizient die Diagrammerstellung erfolgt, hängt wesentlich … „Diagramme mit Daten aus Datenbanken in R: dbplot“ weiterlesen

Doubletten ausschließen in R: unique() und wie man es schneller macht

Eine Kundin erzählte mir kürzlich, dass sie die Base R-Funktion unique() nutzt, um Doubletten aus ihren Daten auszuschließen. Sie erhält damit das gewünschte Resultat, allerdings sei ihr Code zu langsam. Zwei Ideen kamen mir, den Code zu beschleunigen: 1. Statt alle Spalten bei der Suche nach Doubletten zu berücksichtigen, müsste eine Auswahl an Spalten genügen … „Doubletten ausschließen in R: unique() und wie man es schneller macht“ weiterlesen

data.table vs. dplyr und dtplyr: Benchmarks

Zwei der populärsten Pakete zur Datenaufbereitung in R sind data.table (Matt Dowle, Arun Srinivasan, viele Mitarbeiter) und dplyr (Hadley Wickham, viele Mitarbeiter). Während data.table zu Recht den Ruf hat, sehr schnell zu sein, hat dplyr vielen den Einstieg in R enorm erleichtert. Geschwindigkeitsvergleiche: data.table vs. dplyr – beachte dtplyr! Es gibt bereits seit Jahren eine … „data.table vs. dplyr und dtplyr: Benchmarks“ weiterlesen

Textantworten (offene Nennungen) automatisch zuordnen in R nach Ähnlichkeit

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Textantworten (offene Nennungen) codieren mit R: stringr und regex

Oft wird ein großer Teil der Projektzeit nicht für die spannenden Modelle, sondern für die meist etwas weniger spannend empfundene Datenaufbereitung verwendet. Ein typischer Stolperstein dabei ist die Codierung von Textantworten (offene Nennungen). Wie können wir uns diese Arbeit mit R erleichtern? Anhand eines einfachen Beispiels („Warum treiben Sie Sport?“) beginnen wir mit einer Zuordnung … „Textantworten (offene Nennungen) codieren mit R: stringr und regex“ weiterlesen

Storytelling mit R und ggplot2: Länderfinanzausgleich

ggplot2 ist ein mächtiges Werkzeug, um ansprechende Grafiken zu erstellen. Will man Zuhörer oder Leser „mitnehmen“, empfiehlt es sich, nicht nur Daten zu präsentieren, sondern auch eine Geschichte damit zu erzählen. Unser Storytelling-Beispiel bezieht sich auf den Länderfinanzausgleich. Unter Storytelling verstehe ich hier: Bestimmte Aspekte hervorheben, die ich als Bearbeiter wichtig finde, um den Blick … „Storytelling mit R und ggplot2: Länderfinanzausgleich“ weiterlesen

Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)

Regressionsmodelle sind nach wie vor sehr populär in der Statistik, dem Data Mining, Data Science und Machine Learning – das belegen aktuelle Zahlen, die KDNuggets kürzlich via Twitter präsentierte: Heute geht es um Möglichkeiten, solche Modelle mit der frei erhältlichen Software R / RStudio zu visualisieren. Wir nutzen den weit verbreiteten Datensatz mtcars, der in … „Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)“ weiterlesen