Gastbeitrag: Siegchancen bei „Schlag den Star“ – eine stochastische Analyse

In dem Fernsehformat Schlag den Star treten zwei Prominente in 15 verschiedenen und zuvor unbekannten Spielen gegeneinander an. Das Punktesystem bei Schlag den Star sieht für jedes Spiel eine linear ansteigende Zahl an Wertungspunkten vor. Erhält der Sieger des ersten Spieles einen Punkt, kann der Gewinner des zweiten Spieles zwei Punkte auf sein Punktekonto verbuchen. … „Gastbeitrag: Siegchancen bei „Schlag den Star“ – eine stochastische Analyse“ weiterlesen

Diagramme für Präsentationen, Berichte, Abschlussarbeiten: Beispiele mit der freien R-Software (Boxplots, Histogramme, Streudiagramme)

Sind Sie gelangweilt von Standard-Excel-Diagrammen in Präsentationen, Berichten oder Abschlussarbeiten? Hier ein paar Beispiele, die mit der freien Statistik-Software R erstellt wurden, und zwar mit Hadley Wickhams ggplot2-Paket (sofern nicht anders angegeben). Beispiele für Boxplots mit Untergruppen Eine besondere Stärke von R besteht im sog. „faceting“: man kann Diagramme für Untergruppen elegant anordnen. Wer schon mal … „Diagramme für Präsentationen, Berichte, Abschlussarbeiten: Beispiele mit der freien R-Software (Boxplots, Histogramme, Streudiagramme)“ weiterlesen

R-Zertifizierung: R für SAS / SPSS / Stata Anwender (DataCamp)

Weitere R-Zertifizierung abgeschlossen: R für SAS / SPSS / Stata Anwender. Im Vergleich zu anderen Kursen bei DataCamp war dieser wesentlich umfangreicher, mit insgesamt 21 statt der üblichen drei bis fünf Kapiteln. Für Neueinsteiger bei DataCamp empfehle ich, diesen Kurs früh zu absolvieren, wenn man bereits Erfahrung mit wenigstens einem der Statistik-Pakete SAS, SPSS oder … „R-Zertifizierung: R für SAS / SPSS / Stata Anwender (DataCamp)“ weiterlesen

Gastbeitrag zum EM-Fieber: Elfmeterschießen-Tool – Modellierung der Sieg-Wahrscheinlichkeit

Das angefügte Excel-Tool für ein Fußball-Elfmeterschießen ermöglicht es, anhand der Binomialverteilung die Wahrscheinlichkeiten für den Sieg im Elfmeterschießen in Abhängigkeit des Spielstandes zu quantifizieren. Hierzu sind bestimmte Annahmen zu treffen. Es soll die Annahme getroffen werden, dass für beide am Elfmeterschießen beteiligte Mannschaften eine konstante Elfmeter-Trefferwahrscheinlichkeit in Höhe von 75% aufweisen. Somit haben beide Mannschaften … „Gastbeitrag zum EM-Fieber: Elfmeterschießen-Tool – Modellierung der Sieg-Wahrscheinlichkeit“ weiterlesen

Excel-Datensätze in R laden: Geschwindigkeits-Test verschiedener R-Pakete

Welche Möglichkeiten gibt es, große Excel-Datensätze schnell in R zu laden? Wir verwenden einen Beispiel-Datensatz mit 29 Variablen (Spalten) und 2.000 bzw. 10.000 Zeilen (Fällen). Das R-Paket gdata Als ich zum ersten Mal Exceldaten in R laden wollte, stieß ich auf das gdata-Paket. Es bietet zahlreiche Erweiterungen der R-Basisfunktionalität. Zum Import von Exceldaten wandelt es die … „Excel-Datensätze in R laden: Geschwindigkeits-Test verschiedener R-Pakete“ weiterlesen

Interaktive Diagramme in R: Heatmap mit Mouseover (HTML / Javascript)

Finden Sie statische Diagramme langweilig? Die freie Statistik-Software R bietet verschiedene Möglichkeiten, Diagramme interaktiv zu gestalten. Die einfachere Variante besteht darin, HTML in Verbindung mit Javascript einzusetzen. Hier eine Heatmap, die die Leistung verschiedener Standorte im Hinblick auf diverse Prüfkriterien visualisiert. Die interaktive Version wurde auf eine separate Seite gelegt und ist per Klick erreichbar. … „Interaktive Diagramme in R: Heatmap mit Mouseover (HTML / Javascript)“ weiterlesen

Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?

Balken- und Säulendiagramme werden immer noch häufig verwendet, um Mittelwertsunterschiede darzustellen – obwohl zumindest in Fachkreisen schon viel Kritik an diesem Diagrammtyp geäußert wurde. Für einen schnellen optischen Eindruck mag es passen – oder auch nicht. Der Mittelwert allein ist nur ein Aspekt einer Verteilung. Hier ein Beispiel: require(ggplot2) ggplot(daten) + aes(x = Geschlecht, y … „Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?“ weiterlesen

R-Programmierung: R-Funktionen auf Variablenliste anwenden (mit Video)

Wie kann man R-Funktionen auf eine lange Variablenliste anwenden, ohne jeden einzelnen Variablennamen eintippen zu müssen? Das wird am Beispiel eines Datensatzes mit 235 NIR-Wellenlängen (NIR = near infrared spectroscopy) gezeigt. Dazu werden 235 einfache lineare Regressionsmodelle mit jeweils einer unabhängigen (und einer abhängigen) Variable aufgestellt, um dann die R²-Werte grafisch zu vergleichen. Es wird gezeigt, … „R-Programmierung: R-Funktionen auf Variablenliste anwenden (mit Video)“ weiterlesen

Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung

Lineare Regressionsmodelle können mit Hilfe von Polynomen auch nichtlineare Zusammenhänge abbilden. Die Modellanpassung im Sinne von R² und korrigiertem R² kann dadurch erheblich steigen. Doch ist ein solches Modell tatsächlich „besser“ als ein einfacheres? Ein Praxistest wäre, die Modellgleichung auf andere Daten anzuwenden. Oft stehen jedoch keine neuen Daten zur Verfügung, die genau die gleichen … „Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung“ weiterlesen

Logging mit R: Befehle und Ergebnisse direkt in einer Datei protokollieren (Video)

Wie kann man Befehle und Ergebnisse einer R-Sitzung protokollieren? Hier eine Lösung, die ohne Erweiterungspakete (packages) auskommt: Ich verwende das sehr empfehlenswerte RStudio.