Statistik-Blog

Gastbeitrag zum EM-Fieber: Elfmeterschießen-Tool – Modellierung der Sieg-Wahrscheinlichkeit

Das angefügte Excel-Tool für ein Fußball-Elfmeterschießen ermöglicht es, anhand der Binomialverteilung die Wahrscheinlichkeiten für den Sieg im Elfmeterschießen in Abhängigkeit des Spielstandes zu quantifizieren. Hierzu sind bestimmte Annahmen zu treffen. Es soll die Annahme getroffen werden, dass für beide am Elfmeterschießen beteiligte Mannschaften eine konstante Elfmeter-Trefferwahrscheinlichkeit in Höhe von 75% aufweisen. Somit haben beide Mannschaften … „Gastbeitrag zum EM-Fieber: Elfmeterschießen-Tool – Modellierung der Sieg-Wahrscheinlichkeit“ weiterlesen

Excel-Datensätze in R laden: Geschwindigkeits-Test verschiedener R-Pakete

Welche Möglichkeiten gibt es, große Excel-Datensätze schnell in R zu laden? Wir verwenden einen Beispiel-Datensatz mit 29 Variablen (Spalten) und 2.000 bzw. 10.000 Zeilen (Fällen). Das R-Paket gdata Als ich zum ersten Mal Exceldaten in R laden wollte, stieß ich auf das gdata-Paket. Es bietet zahlreiche Erweiterungen der R-Basisfunktionalität. Zum Import von Exceldaten wandelt es die … „Excel-Datensätze in R laden: Geschwindigkeits-Test verschiedener R-Pakete“ weiterlesen

Interaktive Diagramme in R: Heatmap mit Mouseover (HTML / Javascript)

Finden Sie statische Diagramme langweilig? Die freie Statistik-Software R bietet verschiedene Möglichkeiten, Diagramme interaktiv zu gestalten. Die einfachere Variante besteht darin, HTML in Verbindung mit Javascript einzusetzen. Hier eine Heatmap, die die Leistung verschiedener Standorte im Hinblick auf diverse Prüfkriterien visualisiert. Die interaktive Version wurde auf eine separate Seite gelegt und ist per Klick erreichbar. … „Interaktive Diagramme in R: Heatmap mit Mouseover (HTML / Javascript)“ weiterlesen

Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?

Balken- und Säulendiagramme werden immer noch häufig verwendet, um Mittelwertsunterschiede darzustellen – obwohl zumindest in Fachkreisen schon viel Kritik an diesem Diagrammtyp geäußert wurde. Für einen schnellen optischen Eindruck mag es passen – oder auch nicht. Der Mittelwert allein ist nur ein Aspekt einer Verteilung. Hier ein Beispiel: require(ggplot2) ggplot(daten) + aes(x = Geschlecht, y … „Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?“ weiterlesen

R-Zertifizierung: Machine Learning (DataCamp)

Nun ist auch der Machine Learning-Kurs von DataCamp abgeschlossen. Es ging um die drei Themenbereiche Klassifikation, Regression und Clustering. Von maschinellem Lernen wird nur gesprochen, wenn ein Algorithmus ein Modell ermittelt, das auf andere Daten (z. B. künftige Beobachtungen) angewendet werden kann. Deskriptive Statistiken (häufigste Farbe, durchschnittliche Größe) zählen somit nicht zum maschinellen Lernen. Einige Kursinhalte: … „R-Zertifizierung: Machine Learning (DataCamp)“ weiterlesen

R Zertifizierung: R Markdown – DataCamp

Da ich schon mit R Markdown gearbeitet hatte, war mir in diesem Kurs nicht alles neu:   Themen waren unter anderem: Einführung in die Markup-Sprache Markdown (auch HTML ist eine Markup-Sprache; Markdown ist speziell für R-Anwender und wesentlich einfacher und besser lesbar) Mischen von Text, R-Code, Ergebnissen von statistischen Berechnungen sowie Diagrammen Einbau von LaTeX-Formeln … „R Zertifizierung: R Markdown – DataCamp“ weiterlesen

R-Zertifizierung: ggvis – DataCamp

Neuer und weniger bekannt als ggplot2 ist das R-Paket ggvis. Es basiert ebenfalls auf der grammar of graphics, d. h. die Diagramme werden in Schichten aufgebaut, die sehr flexibel anpassbar sind. ggvis verbindet die Stärken von ggplot2 mit shiny und vega. Die Verknüpfung mit shiny ermöglicht interaktive Grafiken. Auch an diesem Paket hat Hadley Wickham … „R-Zertifizierung: ggvis – DataCamp“ weiterlesen

R-Zertifizierung: ggplot2 (2) – DataCamp

Damit ist der Fortsetzungskurs zum ersten Teil von Hadley Wickhams ggplot2-Paket ebenfalls abgeschlossen:   Hier ging es über rein beschreibende Darstellungen hinaus, indem auch statistische Funktionen in die Plots einbezogen wurden: u. a. Mittelwerte, Standardabweichungen, Konfidenzintervalle, Quantile, Residuen von Chi-Quadrat-Tests sowie lineare Modelle mit Glättungsfunktionen (Loess-Smoother). Ein eigenes Kapitel widmete sich „Best Practices“ speziell zu … „R-Zertifizierung: ggplot2 (2) – DataCamp“ weiterlesen

R-Zertifizierung Stanford University: Statistical Learning

Kurs abgeschlossen: Statistical Learning, Stanford University. Basiert auf: An Introduction to Statistical Learning: with Applications in R (Springer Texts in Statistics)   Kursinhalte: Einführung, Überblick über Statistisches Lernen Lineare Regression Klassifikation Resampling-Methoden Modell-Optimierung, Modell-Auswahl Nichtlineare Modelle Entscheidungsbäume (tree-based methods) Support Vector Machines Unüberwachtes Lernen (Unsupervised Methods) Sie / Ihre Firma arbeiten mit R? Gern biete … „R-Zertifizierung Stanford University: Statistical Learning“ weiterlesen

R-Zertifizierung: ggplot2 (1) – DataCamp

Das ggplot2-Paket von Hadley Wickham berücksichtigt die Grammar of Graphics, die „Grammatik grafischer Darstellungen“, und ist in mancherlei Hinsicht dem Base-System von R überlegen. So werden Grafiken in „Schichten“ (Layers) aufgebaut und sind damit wesentlich flexibler handhabbar. Und – schlicht ausgedrückt – sie sehen in aller Regel deutlich professioneller aus. Der erste ggplot-Kurs behandelte die … „R-Zertifizierung: ggplot2 (1) – DataCamp“ weiterlesen

Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.