Data Mining mit R: Zusammenhänge erkennen, Zielgruppen finden

Beim Data Mining geht es darum, Erkenntnisse aus vorhandenen Daten zu gewinnen – im Gegensatz zum Machine Learning, das darauf abzielt, zuvor traininerte Modelle auf neue Daten anzuwenden. TL; DR: Kurze Zusammenfassung Entscheidungsbäume sind ein mächtiges Werkzeug für Data Mining-Aufgaben. Sind sind in R leicht zu erstellen und besonders gut präsentierbar, wenn sie in interaktiven … „Data Mining mit R: Zusammenhänge erkennen, Zielgruppen finden“ weiterlesen

R für Umsteiger von Excel und SPSS: Automatisierte Berichte

In den letzten Jahren wurden mehrfach Artikel publiziert, die auf ein gravierendes Problem hinwiesen: Schätzungen zufolge sind deutlich mehr als die Hälfte der prä-klinischen Studienergebnisse nicht reproduzierbar. Wissenschaftliche Studienergebnisse oft nicht reproduzierbar So titelte das Wall Street Journal im Dezember 2011: “Scientists‘ Elusive Goal: Reproducing Study Results“. In der New York Times hieß es im … „R für Umsteiger von Excel und SPSS: Automatisierte Berichte“ weiterlesen

R-Programmierung: Was ist %>% ? dplyr vs. Base R

Was bedeutet die sonderbar anmutende Zeichenkombination %>% , die man seit ein paar Jahren häufig in R-Skripten findet? Woher kommt sie und wie können wir sie nutzen, um eleganteren und besser lesbaren R-Code zu schreiben? R und moderne Kunst: René Magritte R inspiriert uns mit %>% , wenigstens einen kurzen Abstecher in die moderne Kunst … „R-Programmierung: Was ist %>% ? dplyr vs. Base R“ weiterlesen

Storytelling mit R und ggplot2: Länderfinanzausgleich

ggplot2 ist ein mächtiges Werkzeug, um ansprechende Grafiken zu erstellen. Will man Zuhörer oder Leser „mitnehmen“, empfiehlt es sich, nicht nur Daten zu präsentieren, sondern auch eine Geschichte damit zu erzählen. Unser Storytelling-Beispiel bezieht sich auf den Länderfinanzausgleich. Unter Storytelling verstehe ich hier: Bestimmte Aspekte hervorheben, die ich als Bearbeiter wichtig finde, um den Blick … „Storytelling mit R und ggplot2: Länderfinanzausgleich“ weiterlesen

Elegante R-Programmierung mit purrr::map und genisteten Datensätzen

2016 machte Hadley Wickham eine Idee populär, von der er zunächst selbst nicht sicher war, ob sie gut ist: genistete Datensätze (nested data frames). Das Prinzip ist einfach: Eine Spalte eines Datensatzes kann selbst ein Datensatz sein. Was zunächst umständlich oder verwirrend klingt, kann zum mächtigen Werkzeug werden – vor allem, wenn man viele gleich … „Elegante R-Programmierung mit purrr::map und genisteten Datensätzen“ weiterlesen

Länderfinanzausgleich: 30 Jahre in einer animierten Grafik (1988 – 2018)

Wie kann man die Beträge, die die Bundesländer im Rahmen des Länderfinanzausgleichs zahlten oder erhielten, in einer Grafik darstellen, sodass Veränderungen im Zeitverlauf deutlich werden? Hier eine animierte Grafik, die den Zeitraum von 1988, also kurz vor der Wende, bis 2018 abbildet: Länderfinanzausgleich: Entwicklungen 1988 bis 2018 In diesen 30 Jahren gab es mehrere spannende … „Länderfinanzausgleich: 30 Jahre in einer animierten Grafik (1988 – 2018)“ weiterlesen

R-Code beschleunigen: Schleifen vs. Vektorisierung vs. Lookup-Tables

Kurzfassung:R erlaubt dem Anwender, vergleichsweise schnell Analysecode zu schreiben, da die formalen Anforderungen gering sind. Dafür gilt R nicht zu unrecht als vergleichsweise langsam hinsichtlich der Code-Laufzeit. Wir vergleichen drei Varianten, einem Datensatz mit Skat-Karten die Werte der Spielkarten zuzuordnen. Vektorisierter Code ist dabei um Längen schneller als eine Schleife. Eine noch schnellere Variante, ein … „R-Code beschleunigen: Schleifen vs. Vektorisierung vs. Lookup-Tables“ weiterlesen

Objektorientiertes Programmieren mit R: S3-Klassen

Die Open-Source-Software R ist ein großartiges Werkzeug zur Datenanalyse. Zahlreiche statistische Verfahren und Visualisierungen können mit wenigen Codezeilen erstellt werden. Dafür steht eine Vielzahl an Funktionen zur Verfügung. Funktionales Programmieren und Objektorientiertes Programmieren Automatisiert man solche Analysen, so bewegt man sich im Bereich des Funktionalen Programmierens. Für Datenanalysen ist das eine gute Wahl. Liegt der … „Objektorientiertes Programmieren mit R: S3-Klassen“ weiterlesen

Programmieren mit R: Alles, was passiert, ist ein Funktionsaufruf

R ist eine Implementierung der Programmiersprache S, die in den 1970er Jahren von John Chambers bei Bell Labs entwickelt wurde. R wurde ab 1992 von Ross Ihaka und Robert Gentleman geschrieben und ab 1993 verbreitet; seit 1997 gibt es das R Development Core Team, dem auch John Chambers angehört. Von Chambers stammt folgendes Zitat, das … „Programmieren mit R: Alles, was passiert, ist ein Funktionsaufruf“ weiterlesen

R lernen mit Hands-On Programming with R von Garrett Grolemund

Wer R lernen will, hat eine Vielzahl von Büchern zur Auswahl – zumindest, wenn englischsprachige Bücher in Frage kommen. Es gibt auch auf Deutsch einige Einführungen (z. B. R kompakt von Daniel Wollschläger), doch der englischsprachige Markt ist deutlich größer. Eine sehr praxisorientierte Einführung stammt von Garrett Grolemund: Hands-On Programming with R. Garrett Grolemund arbeitet … „R lernen mit Hands-On Programming with R von Garrett Grolemund“ weiterlesen