Daten mit R in Blöcken verarbeiten mit iotools: Big Data-Werkzeug

Beim Verarbeiten großen Datenmengen mit R kann man an Grenzen des Arbeitsspeichers stoßen. In R kann das früher geschehen, als man meinen möchte. Wer beispielsweise über 16 GB RAM verfügt und einen 10 GB-Datensatz analysieren möchte, wird feststellen, dass R bei bestimmten Operationen langsam und ineffizient wird. Laut R-Handbuch kann das bereits geschehen, wenn etwa … „Daten mit R in Blöcken verarbeiten mit iotools: Big Data-Werkzeug“ weiterlesen

data.table vs. dplyr und dtplyr: Benchmarks

Zwei der populärsten Pakete zur Datenaufbereitung in R sind data.table (Matt Dowle, Arun Srinivasan, viele Mitarbeiter) und dplyr (Hadley Wickham, viele Mitarbeiter). Während data.table zu Recht den Ruf hat, sehr schnell zu sein, hat dplyr vielen den Einstieg in R enorm erleichtert. Geschwindigkeitsvergleiche: data.table vs. dplyr – beachte dtplyr! Es gibt bereits seit Jahren eine … „data.table vs. dplyr und dtplyr: Benchmarks“ weiterlesen

Gastbeitrag: Die faire Abschlusstabelle der Bundesligasaison 2019/20

Abstract Aufgrund der aktuellen Coronakrise stehen die Sportverbände sämtlicher Sportarten vor der Frage, ob die laufende Saison 2019/20 noch zu Ende gespielt werden kann. Einige Sportverbände wie beispielsweise der Handball haben sich bereits für einen Abbruch der Saison entschieden. Die Handballbundesliga wendet die Quotientenregel an. Hierbei wird der arithmetische Mittelwert der Punkte aus allen bisherigen … „Gastbeitrag: Die faire Abschlusstabelle der Bundesligasaison 2019/20“ weiterlesen

Textantworten (offene Nennungen) automatisch zuordnen in R nach Ähnlichkeit

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Textantworten (offene Nennungen) codieren mit R: stringr und regex

Oft wird ein großer Teil der Projektzeit nicht für die spannenden Modelle, sondern für die meist etwas weniger spannend empfundene Datenaufbereitung verwendet. Ein typischer Stolperstein dabei ist die Codierung von Textantworten (offene Nennungen). Wie können wir uns diese Arbeit mit R erleichtern? Anhand eines einfachen Beispiels („Warum treiben Sie Sport?“) beginnen wir mit einer Zuordnung … „Textantworten (offene Nennungen) codieren mit R: stringr und regex“ weiterlesen

Große Datenmengen visualisieren mit R, ggplot2 und trelliscopejs

Wie kann man große Datenmengen in R so darstellen, dass sie gut lesbar sind und viele Informationen preisgeben? „Große Datenmengen“ verstehen wir hier im Sinne von „viele Untergruppen“, nicht unbedingt im Sinne von vielen Gigabyte. Wer versiert ist, denkt vielleicht an eine Shiny App, die große Flexibilität und viele Nutzereinstellungen erlaubt. Wir suchen heute jedoch … „Große Datenmengen visualisieren mit R, ggplot2 und trelliscopejs“ weiterlesen

Hilfe erstellen für Funktionen in eigenen R-Paketen (roxygen2)

Nachdem wir in früheren Beiträgen gesehen haben, warum und wann es überhaupt sinnvoll ist, eigene R-Pakete zu erstellen und wie man ein erstes Paket in zwei Minuten erstellen kann, wollen wir uns heute mit einem wesentlichen Aspekt von R-Paketen näher beschäftigen: Der Dokumentation. Erst mit einer guten Dokumentation wird unser Paket für andere und, nicht … „Hilfe erstellen für Funktionen in eigenen R-Paketen (roxygen2)“ weiterlesen

Ein eigenes R-Paket in zwei Minuten erstellen mit RStudio

Dank der Unterstützung durch RStudio (die kostenlose Desktop-Version reicht vollkommen aus) kann man in wenigen Minuten ein eigenes R-Paket erstellen. Dieser Beitrag ist die Fortsetzung zu: Eigene R-Pakete erstellen: Warum und wann? R-Paket als RStudio-Projekt RStudio bietet die Möglichkeit, Projekte anzulegen. Das ist auch sinnvoll, wenn man kein Paket erstellen will: Man erhält dann für … „Ein eigenes R-Paket in zwei Minuten erstellen mit RStudio“ weiterlesen

Eigene R-Pakete erstellen: Warum und wann?

Warum und wann ist es sinnvoll, eigene R-Pakete zu erstellen? Dieser Beitrag richtet sich an R-Anwender, die regelmäßig R-Code schreiben (oder vorhandenen Code anpassen), vielleicht auch schon eigene Funktionen geschrieben haben – aber es bisher nicht als ihre Aufgabe gesehen haben, ein eigenes R-Paket zu erstellen. Finden Sie sich in dieser Beschreibung wieder? Dann ist … „Eigene R-Pakete erstellen: Warum und wann?“ weiterlesen

Der Ratingscore – Eine statistische Analyse von Bewertungskennzahlen

Gastbeitrag von Tim Scheffczyk Zusammenfassung Digitale Marktplätze dienen ebenso wie klassische Handelsplätze dazu, Angebot und Nachfrage zu koordinieren. Charakteristisch für beide Marktformen ist das Vorliegen asymmetrischer Informationsverteilung zwischen den Verkäufern und potentiellen Käufern von Produkten. Der Verkäufer besitzt gegenüber einem (potentiellen) Käufer einen Informationsvorteil. Auf den klassischen Marktplätzen wird diese Asymmetrie beispielsweise durch das Austesten … „Der Ratingscore – Eine statistische Analyse von Bewertungskennzahlen“ weiterlesen