Statistik-Blog | Statistik Dresden

Doubletten ausschließen in R: unique() und wie man es schneller macht

Eine Kundin erzählte mir kürzlich, dass sie die Base R-Funktion unique() nutzt, um Doubletten aus ihren Daten auszuschließen. Sie erhält damit das gewünschte Resultat, allerdings sei ihr Code zu langsam. Zwei Ideen kamen mir, den Code zu beschleunigen: 1. Statt alle Spalten bei der Suche nach Doubletten zu berücksichtigen, müsste eine Auswahl an Spalten genügen … „Doubletten ausschließen in R: unique() und wie man es schneller macht“ weiterlesen

Daten mit R in Blöcken verarbeiten mit iotools: Big Data-Werkzeug

Beim Verarbeiten großen Datenmengen mit R kann man an Grenzen des Arbeitsspeichers stoßen. In R kann das früher geschehen, als man meinen möchte. Wer beispielsweise über 16 GB RAM verfügt und einen 10 GB-Datensatz analysieren möchte, wird feststellen, dass R bei bestimmten Operationen langsam und ineffizient wird. Laut R-Handbuch kann das bereits geschehen, wenn etwa … „Daten mit R in Blöcken verarbeiten mit iotools: Big Data-Werkzeug“ weiterlesen

Der GOAT-Score. Eine statistische Betrachtung der Grand Slams

Rafael Nadal bezwingt Novak Djokovic und gewinnt zum 13. Mal die French Open und schliesst damit mit seinem 20. Grand-Slam-Titel nach Anzahl an Grand-Slam-Siegen zu Roger Federer auf. Alle drei genannten gelten als die grössten Tennisspieler aller Zeiten und werden als «The Big Three» bezeichnet. Insgesamt kommen die «Big Three» auf sage und schreibe 57 … „Der GOAT-Score. Eine statistische Betrachtung der Grand Slams“ weiterlesen

data.table vs. dplyr und dtplyr: Benchmarks

Zwei der populärsten Pakete zur Datenaufbereitung in R sind data.table (Matt Dowle, Arun Srinivasan, viele Mitarbeiter) und dplyr (Hadley Wickham, viele Mitarbeiter). Während data.table zu Recht den Ruf hat, sehr schnell zu sein, hat dplyr vielen den Einstieg in R enorm erleichtert. Geschwindigkeitsvergleiche: data.table vs. dplyr – beachte dtplyr! Es gibt bereits seit Jahren eine … „data.table vs. dplyr und dtplyr: Benchmarks“ weiterlesen

Gastbeitrag: Die faire Abschlusstabelle der Bundesligasaison 2019/20

Abstract Aufgrund der aktuellen Coronakrise stehen die Sportverbände sämtlicher Sportarten vor der Frage, ob die laufende Saison 2019/20 noch zu Ende gespielt werden kann. Einige Sportverbände wie beispielsweise der Handball haben sich bereits für einen Abbruch der Saison entschieden. Die Handballbundesliga wendet die Quotientenregel an. Hierbei wird der arithmetische Mittelwert der Punkte aus allen bisherigen … „Gastbeitrag: Die faire Abschlusstabelle der Bundesligasaison 2019/20“ weiterlesen

Textantworten (offene Nennungen) automatisch zuordnen in R nach Ähnlichkeit

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Wie kann man Textantworten automatisch in R codieren, wenn es viele ähnliche, aber nicht exakt gleiche Einträge gibt?

Mit dem R-Paket tidystringdist!

Textantworten (offene Nennungen) codieren mit R: stringr und regex

Oft wird ein großer Teil der Projektzeit nicht für die spannenden Modelle, sondern für die meist etwas weniger spannend empfundene Datenaufbereitung verwendet. Ein typischer Stolperstein dabei ist die Codierung von Textantworten (offene Nennungen). Wie können wir uns diese Arbeit mit R erleichtern? Anhand eines einfachen Beispiels („Warum treiben Sie Sport?“) beginnen wir mit einer Zuordnung … „Textantworten (offene Nennungen) codieren mit R: stringr und regex“ weiterlesen

Große Datenmengen visualisieren mit R, ggplot2 und trelliscopejs

Datenvisualisierung: Wie kann man große Datenmengen in R so darstellen, dass sie gut lesbar sind und viele Informationen preisgeben? „Große Datenmengen“ verstehen wir hier im Sinne von „viele Untergruppen“, nicht unbedingt im Sinne von vielen Gigabyte. Wer versiert ist, denkt vielleicht an eine Shiny App, die große Flexibilität und viele Nutzereinstellungen erlaubt. Wir suchen heute … „Große Datenmengen visualisieren mit R, ggplot2 und trelliscopejs“ weiterlesen

Hilfe erstellen für Funktionen in eigenen R-Paketen (roxygen2)

Nachdem wir in früheren Beiträgen gesehen haben, warum und wann es überhaupt sinnvoll ist, eigene R-Pakete zu erstellen und wie man ein erstes Paket in zwei Minuten erstellen kann, wollen wir uns heute mit einem wesentlichen Aspekt von R-Paketen näher beschäftigen: Der Dokumentation. Erst mit einer guten Dokumentation wird unser Paket für andere und, nicht … „Hilfe erstellen für Funktionen in eigenen R-Paketen (roxygen2)“ weiterlesen

Ein eigenes R-Paket in zwei Minuten erstellen mit RStudio

Dank der Unterstützung durch RStudio (die kostenlose Desktop-Version reicht vollkommen aus) kann man in wenigen Minuten ein eigenes R-Paket erstellen. Dieser Beitrag ist die Fortsetzung zu: Eigene R-Pakete erstellen: Warum und wann? R-Paket als RStudio-Projekt RStudio bietet die Möglichkeit, Projekte anzulegen. Das ist auch sinnvoll, wenn man kein Paket erstellen will: Man erhält dann für … „Ein eigenes R-Paket in zwei Minuten erstellen mit RStudio“ weiterlesen