Statistik-Blog

Fortschrittsbalken anzeigen und Code parallelisieren in R: progressr und future

Heute will ich zwei Fliegen mit einer Klappe schlagen: Einen Fortschrittsbalken in R implementieren R-Code parallel ausführen (d. h. auf mehreren Prozessorkernen gleichzeitig) R-Pakete: progressr und future Für die Umsetzung des Fortschrittsbalkens habe ich mich für progressr von Henrik Bengtsson entschieden. Es bietet eine leistungsfähige API (Schnittstelle), sodass man nicht nur im Paket enthaltene Fortschrittsbalken … „Fortschrittsbalken anzeigen und Code parallelisieren in R: progressr und future“ weiterlesen

ggplot2: Die vier fortgeschrittenen Schichten

Wer mit ggplot2 ansprechende Grafiken erstellen will, findet mit den vier fortgeschrittenen Schichten flexible Möglichkeiten dafür.

Wer mit ggplot2 ansprechende Grafiken erstellen will, findet mit den vier fortgeschrittenen Schichten flexible Möglichkeiten dafür.

ggplot2: Einführung in die drei Basisschichten – Daten, Ästhetiken, Geometrien

ggplot2 ist der de-facto-Standard, um professionelle, ansprechende Grafiken in R zu erstellen. Heute sehen wir uns die drei Basisschichten an, die für jede ggplot2-Grafik erforderlich sind. ggplot2 basiert auf der Grammatik der grafischen Darstellung (Grammar of Graphics), die auf Leland Wilkinson zurückgeht. Er beschrieb das Konzept unabhängig von R in seinem Buch von 1999 (siehe … „ggplot2: Einführung in die drei Basisschichten – Daten, Ästhetiken, Geometrien“ weiterlesen

Decathlon: Zehnkampf aus statistischer Sicht unter Corona-Bedingungen

Der Zehnkampf gilt als die Königsdisziplin der Leichtathletik. Die Internationale Leichtathletik-Mehrkampfwertung der IAAF (International Amateur Athletics Federation) bewertet jede Leistung in den zehn Wettbewerben. Die Leistungen aus zehn Wettbewerben werden aggregiert und zu einer Punktzahl zusammengefasst. Die aktuelle Wertungstabelle wird international seit 1985 angewandt. Die IAAF-Wettbewerbstabelle basiert auf statistischen Analysen der Leistungen in den Einzeldisziplinen. … „Decathlon: Zehnkampf aus statistischer Sicht unter Corona-Bedingungen“ weiterlesen

R 4.1.0: Base R Pipe! |>

Am 18.5.2021 wurde R Version 4.1.0 veröffentlicht, und sie brachte (fast) eine Revolution: Einen Pipe Operator, nativ in Base R eingebaut! Pipe Operator in R seit 2014: magrittr / dplyr Mit dem magrittr-Paket wurde 2014 der Pipe-Operator %>% in R zur Verfügung gestellt. Er hat sich rasch durchgesetzt und erfreut sich sehr großer Beliebtheit. Viele … „R 4.1.0: Base R Pipe! |>“ weiterlesen

Datenanalysen präsentieren: Warum ich nicht Powerpoint verwende

Was spricht gegen Powerpoint, wenn es darum geht, Ergebnisse von Datenanalysen zu präsentieren? Hier geht es mir um drei Aspekte: Automatisierung und Reproduzierbarkeit, Dateiformate, Dateigrößen. Powerpoint ist nicht schlecht! Es geht mir überhaupt nicht darum, Powerpoint schlecht zu machen. Ich halte es für ein großartiges Werkzeug. Es ist einfach zu nutzen, gut geeignet für Präsentationen, … „Datenanalysen präsentieren: Warum ich nicht Powerpoint verwende“ weiterlesen

Diagramm-Erstellung mit ggplot2 beschleunigen: Das ragg-Paket

Diagramme zu erstellen und zu speichern kann viel Zeit in Anspruch nehmen, vor allem bei großen Datenmengen oder wenn sehr viele Diagramme automatisiert zu generieren sind. Wie kann man den Vorgang für Diagramme mit dem beliebten ggplot2-Paket beschleunigen? Das ragg-Paket von Thomas Lin Pedersen Das ragg-Paket von Thomas Lin Pedersen ist eine R-Implementierung der AGG … „Diagramm-Erstellung mit ggplot2 beschleunigen: Das ragg-Paket“ weiterlesen

Als Wessi entlarvt bei einer R-Schulung!

Bei einer R-Schulung wurde ich als Wessi entlarvt in einer Situation, in der ich das absolut nicht erwartet hätte. Es ging ums Runden. Hättet Ihr das gewusst? Habt Ihr ähnliche Überraschungen mit interkulturellen Unterschieden in vermeintlich unverdächtigen Situationen erlebt? Kaufmännisches vs. mathematisches Runden Zu der Zeit hatte ich mich noch nicht weiter mit den Details … „Als Wessi entlarvt bei einer R-Schulung!“ weiterlesen

Diagramme mit Daten aus Datenbanken in R: dbplot

Diagrammerstellung mit großen Datenmengen aus Datenbanken kann herausfordernd sein. Wie geht das möglichst effizient? Ad-hoc-Datenbank im Arbeitsspeicher Wir nutzen Daten über weltweite Chart-Erfolge von Songs und Alben und packen sie in eine Ad-hoc-Datenbank im Arbeitsspeicher. Das genügt, um die Ideen zu demonstrieren, und erspart Aufwand mit der Infrastruktur. Wie effizient die Diagrammerstellung erfolgt, hängt wesentlich … „Diagramme mit Daten aus Datenbanken in R: dbplot“ weiterlesen

R-Projekte vor Paket-Updates schützen: renv

„Never change a running system!“„Ändere nie ein System, das funktioniert!“ In aller Regel ist es eine gute Idee, Software aktuell zu halten: also etwa bei R, RStudio und Erweiterungspaketen Updates mitzunehmen. Manchmal haben Updates jedoch die unangenehme Nebenwirkung, bisher funktionierenden Code zu „brechen“. Beispiel: Interaktives Dashboard funktioniert nicht mehr nach dplyr-Update Im Video zeige ich … „R-Projekte vor Paket-Updates schützen: renv“ weiterlesen