R-Programmierung | Statistik Dresden

ggplot2 leicht gemacht: Grafiken per Maus dank esquisse!

ggplot2 ist ein mächtiges Werkzeug, um professionelle Diagramme zu erstellen. Für Einsteiger ist die Syntax nicht immer intuitiv. Abhilfe schafft eine grafische Oberfläche, mit der man Variablen mit der Maus auswählen und in Felder schieben kann („drag and drop“): esquisse. So erhält man schnell aussagekräftige Diagramme und kann Daten visuell erforschen, ohne Programmcode schreiben zu … „ggplot2 leicht gemacht: Grafiken per Maus dank esquisse!“ weiterlesen

Datenvisualisierung: Informative Boxplots in R (ggplot2 und mehr)

Boxplots geben einen schnellen Überblick über Verteilungen. Wie kann man sie informativer gestalten als das Standard-Boxplot? Hier geht es um Ideen mit ggplot2 sowie einigen Erweiterungspaketen. Zum Einstieg in ggplot2 siehe die folgenden Beiträge: Das folgende Video ist mein erstes, das auf einem Storyboard basiert – umgesetzt mit dem flexdashboard-Paket, das eine Erweiterung des R … „Datenvisualisierung: Informative Boxplots in R (ggplot2 und mehr)“ weiterlesen

Interaktive Kontrollelemente für R-Diagramme ohne Shiny! plotly, crosstalk

Wusstest Du, dass Du keine Shiny App programmieren musst, um Diagramme mit Checkboxen, Drop-Down-Feldern und Schiebereglern zu versehen für bequeme visuelle Daten-Exploration? Shiny ist zweifellos ein großartiges Werkzeug – hat jedoch den Nachteil, dass R laufen muss, um die Shiny App zu bedienen – sei es auf einem Webserver oder auf einem lokalen Rechner. plotly … „Interaktive Kontrollelemente für R-Diagramme ohne Shiny! plotly, crosstalk“ weiterlesen

Zwei interaktive Diagramme in R verknüpfen ohne Shiny: plotly, crosstalk

Bis vor kurzem habe ich das plotly-Paket von Carson Sievert fast nur mit der ggploty()-Funktion genutzt. Doch plotly kann so viel mehr! Hier verknüpfen wir zur Datenvisualisierung zwei interaktive Diagramme, sodass man aus einem Übersichtsdiagramm Gruppen auswählen kann, die dann in einem detaillierteren Diagramm automatisch hervorgehoben werden. Präsentation per Dashboard: flexdashboard Die Analyse ist in … „Zwei interaktive Diagramme in R verknüpfen ohne Shiny: plotly, crosstalk“ weiterlesen

Flaschenhälse (langsame Code-Abschnitte) in R finden mit Profiling: profvis

Wenn R-Code zu langsam läuft, sind es oft nur ganz bestimmte Stellen, die optimiert werden müssen. Nicht immer ist sofort klar, welche Codezeilen das sind. Daher ist es sinnvoll zu wissen, wie man solche Flaschenhälse (oder „Bremsklötze“) effizient und elegant finden kann. Ein hilfreiches Werkzeug dafür ist das sogenannte Profiling: Das automatisierte Erstellen eines Profils, … „Flaschenhälse (langsame Code-Abschnitte) in R finden mit Profiling: profvis“ weiterlesen

Verdeckte Korrelationen sichtbar machen in R mit linearen Modellen

Nach meinem Eindruck erhalten verdeckte Korrelationen weniger Aufmerksamkeit als ihre bekannteren Kollegen, die Scheinkorrelationen. Dabei stellen beide Phänomene ähnliche Herausforderungen für die Datenanalyse dar. Eine verdeckte Korrelation liegt vor, wenn ein Zusammenhang zwischen zwei Variablen besteht, aber nicht direkt sichtbar wird, weil er von (mindestens) einer anderen Variable verdeckt oder überlagert wird. Kein Zusammenhang zwischen … „Verdeckte Korrelationen sichtbar machen in R mit linearen Modellen“ weiterlesen

Scheinkorrelationen aufdecken in R mit linearen Regressionsmodellen

Störche bringen Babies – das wohl bekannteste Beispiel der Statistik für eine klassische Scheinkorrelation. Der Zusammenhang ist tatsächlich statistisch nachweisbar – es handelt sich jedoch (nach heutigem Wissen) nicht um einen Kausalzusammenhang. Auch wenn uns das inhaltlich bekannt ist – wie können wir das statistisch belegen? In anderen Anwendungsfällen wird uns inhaltlich vielleicht nicht so … „Scheinkorrelationen aufdecken in R mit linearen Regressionsmodellen“ weiterlesen

Schleifen parallelisieren in R mit foreach

Schleifen haben einen schlechten Ruf in R: Sie gelten nicht zu unrecht als langsam. Oft ist es möglich, Schleifen zu vermeiden, etwa durch vektorisierte Funktionen, mit Funktionen aus der apply-Familie (wie lapply) oder mit map-Funktionen aus dem purrr-Paket. Manchmal wäre es jedoch recht aufwändig, R-Code so umzuschreiben, dass Schleifen eliminiert werden. Dann ist es nützlich, … „Schleifen parallelisieren in R mit foreach“ weiterlesen

R-Code parallelisieren bei unterschiedlichen Laufzeiten: clusterApplyLB()

In einem früheren Beitrag / Video nutzten wir die clusterApply()-Funktion, um R-Code zu parallelisieren. Wie sieht es aus, wenn sich die Laufzeiten der einzelnen Aufgaben deutlich unterscheiden? Zu Demonstrationszwecken stellen wir eine simple Aufgabe: Sys.sleep, das heißt „Pause machen“. In realen Anwendungen stehen hier dann Berechnungen / Datenoperationen, die unterschiedlich lange dauern. Vorbereitung der Parallelisierung … „R-Code parallelisieren bei unterschiedlichen Laufzeiten: clusterApplyLB()“ weiterlesen

R-Code parallelisieren mit parallel::clusterApply()

R-Code ist oft schnell zu schreiben, aber nicht immer schnell genug in der Ausführung. Eine Methode, dem abzuhelfen, besteht darin, R-Code zu parallelisieren, d. h. mehrere Prozessorkerne oder mehrere Arbeiter einzusetzen. Das parallel-Paket, das zur Base-R-Installation gehört, bietet mit der clusterApply()-Funktion eine elegante Möglichkeit. Parallelisierung: Vorgehen und Vorbereitung Ziel ist es, 200 Regressionsmodelle mit jeweils … „R-Code parallelisieren mit parallel::clusterApply()“ weiterlesen