Hilfe erstellen für Funktionen in eigenen R-Paketen (roxygen2)

Nachdem wir in früheren Beiträgen gesehen haben, warum und wann es überhaupt sinnvoll ist, eigene R-Pakete zu erstellen und wie man ein erstes Paket in zwei Minuten erstellen kann, wollen wir uns heute mit einem wesentlichen Aspekt von R-Paketen näher beschäftigen: Der Dokumentation. Erst mit einer guten Dokumentation wird unser Paket für andere und, nicht … „Hilfe erstellen für Funktionen in eigenen R-Paketen (roxygen2)“ weiterlesen

Ein eigenes R-Paket in zwei Minuten erstellen mit RStudio

Dank der Unterstützung durch RStudio (die kostenlose Desktop-Version reicht vollkommen aus) kann man in wenigen Minuten ein eigenes R-Paket erstellen. Dieser Beitrag ist die Fortsetzung zu: Eigene R-Pakete erstellen: Warum und wann? R-Paket als RStudio-Projekt RStudio bietet die Möglichkeit, Projekte anzulegen. Das ist auch sinnvoll, wenn man kein Paket erstellen will: Man erhält dann für … „Ein eigenes R-Paket in zwei Minuten erstellen mit RStudio“ weiterlesen

Eigene R-Pakete erstellen: Warum und wann?

Warum und wann ist es sinnvoll, eigene R-Pakete zu erstellen? Dieser Beitrag richtet sich an R-Anwender, die regelmäßig R-Code schreiben (oder vorhandenen Code anpassen), vielleicht auch schon eigene Funktionen geschrieben haben – aber es bisher nicht als ihre Aufgabe gesehen haben, ein eigenes R-Paket zu erstellen. Finden Sie sich in dieser Beschreibung wieder? Dann ist … „Eigene R-Pakete erstellen: Warum und wann?“ weiterlesen

Der Ratingscore – Eine statistische Analyse von Bewertungskennzahlen

Gastbeitrag von Tim Scheffczyk Zusammenfassung Digitale Marktplätze dienen ebenso wie klassische Handelsplätze dazu, Angebot und Nachfrage zu koordinieren. Charakteristisch für beide Marktformen ist das Vorliegen asymmetrischer Informationsverteilung zwischen den Verkäufern und potentiellen Käufern von Produkten. Der Verkäufer besitzt gegenüber einem (potentiellen) Käufer einen Informationsvorteil. Auf den klassischen Marktplätzen wird diese Asymmetrie beispielsweise durch das Austesten … „Der Ratingscore – Eine statistische Analyse von Bewertungskennzahlen“ weiterlesen

ASUM-DM: Ein Standard-Prozessmodell für Data Mining und Predictive Analytics

2015 veröffentlichte IBM eine Überarbeitung und Erweiterung von CRISP-DM (CRoss-Industry Standard Process for Data Mining). Der neue Standard nennt sich ASUM-DM, in Langform: Analytics Solutions Unified Method for Data Mining/Predictive Analytics. ASUM-DM: Versionen und Ziele Von ASUM-DM gibt es zwei Versionen: eine freie, im Internet erhältliche, sowie eine proprietäre, die für den IBM-internen Gebrauch vorgesehen ist. Aufgabe und Ziel … „ASUM-DM: Ein Standard-Prozessmodell für Data Mining und Predictive Analytics“ weiterlesen

Data Mining mit R: Zusammenhänge erkennen, Zielgruppen finden

Beim Data Mining geht es darum, Erkenntnisse aus vorhandenen Daten zu gewinnen – im Gegensatz zum Machine Learning, das darauf abzielt, zuvor traininerte Modelle auf neue Daten anzuwenden. TL; DR: Kurze Zusammenfassung Entscheidungsbäume sind ein mächtiges Werkzeug für Data Mining-Aufgaben. Sind sind in R leicht zu erstellen und besonders gut präsentierbar, wenn sie in interaktiven … „Data Mining mit R: Zusammenhänge erkennen, Zielgruppen finden“ weiterlesen

R für Umsteiger von Excel und SPSS: Automatisierte Berichte

In den letzten Jahren wurden mehrfach Artikel publiziert, die auf ein gravierendes Problem hinwiesen: Schätzungen zufolge sind deutlich mehr als die Hälfte der prä-klinischen Studienergebnisse nicht reproduzierbar. Wissenschaftliche Studienergebnisse oft nicht reproduzierbar So titelte das Wall Street Journal im Dezember 2011: “Scientists‘ Elusive Goal: Reproducing Study Results“. In der New York Times hieß es im … „R für Umsteiger von Excel und SPSS: Automatisierte Berichte“ weiterlesen

R-Programmierung: Was ist %>% ? dplyr vs. Base R

Was bedeutet die sonderbar anmutende Zeichenkombination %>% , die man seit ein paar Jahren häufig in R-Skripten findet? Woher kommt sie und wie können wir sie nutzen, um eleganteren und besser lesbaren R-Code zu schreiben? R und moderne Kunst: René Magritte R inspiriert uns mit %>% , wenigstens einen kurzen Abstecher in die moderne Kunst … „R-Programmierung: Was ist %>% ? dplyr vs. Base R“ weiterlesen

Storytelling mit R und ggplot2: Länderfinanzausgleich

ggplot2 ist ein mächtiges Werkzeug, um ansprechende Grafiken zu erstellen. Will man Zuhörer oder Leser „mitnehmen“, empfiehlt es sich, nicht nur Daten zu präsentieren, sondern auch eine Geschichte damit zu erzählen. Unser Storytelling-Beispiel bezieht sich auf den Länderfinanzausgleich. Unter Storytelling verstehe ich hier: Bestimmte Aspekte hervorheben, die ich als Bearbeiter wichtig finde, um den Blick … „Storytelling mit R und ggplot2: Länderfinanzausgleich“ weiterlesen

Elegante R-Programmierung mit purrr::map und genisteten Datensätzen

2016 machte Hadley Wickham eine Idee populär, von der er zunächst selbst nicht sicher war, ob sie gut ist: genistete Datensätze (nested data frames). Das Prinzip ist einfach: Eine Spalte eines Datensatzes kann selbst ein Datensatz sein. Was zunächst umständlich oder verwirrend klingt, kann zum mächtigen Werkzeug werden – vor allem, wenn man viele gleich … „Elegante R-Programmierung mit purrr::map und genisteten Datensätzen“ weiterlesen