Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)

Regressionsmodelle sind nach wie vor sehr populär in der Statistik, dem Data Mining, Data Science und Machine Learning – das belegen aktuelle Zahlen, die KDNuggets kürzlich via Twitter präsentierte: Heute geht es um Möglichkeiten, solche Modelle mit der frei erhältlichen Software R / RStudio zu visualisieren. Wir nutzen den weit verbreiteten Datensatz mtcars, der in … „Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)“ weiterlesen

R-Zertifizierung: ggplot2 (2) – DataCamp

Damit ist der Fortsetzungskurs zum ersten Teil von Hadley Wickhams ggplot2-Paket ebenfalls abgeschlossen:   Hier ging es über rein beschreibende Darstellungen hinaus, indem auch statistische Funktionen in die Plots einbezogen wurden: u. a. Mittelwerte, Standardabweichungen, Konfidenzintervalle, Quantile, Residuen von Chi-Quadrat-Tests sowie lineare Modelle mit Glättungsfunktionen (Loess-Smoother). Ein eigenes Kapitel widmete sich „Best Practices“ speziell zu … „R-Zertifizierung: ggplot2 (2) – DataCamp“ weiterlesen

R-Zertifizierung: ggplot2 (1) – DataCamp

Das ggplot2-Paket von Hadley Wickham berücksichtigt die Grammar of Graphics, die „Grammatik grafischer Darstellungen“, und ist in mancherlei Hinsicht dem Base-System von R überlegen. So werden Grafiken in „Schichten“ (Layers) aufgebaut und sind damit wesentlich flexibler handhabbar. Und – schlicht ausgedrückt – sie sehen in aller Regel deutlich professioneller aus. Der erste ggplot-Kurs behandelte die … „R-Zertifizierung: ggplot2 (1) – DataCamp“ weiterlesen

Visualisierte Geschichte: Nukleare Explosionen 1945 bis 1998

Von 1945 bis 1998 wurden insgesamt 2.053 nukleare Explosionen weltweit verzeichnet. Wie kann man diese Datenmenge anschaulich darstellen? Angesichts des ernsten Themas möchte ich nicht von „schön“ sprechen, anschaulich und gelungen finde ich die Visualisierung allemal. Nach langsamem Beginn ist unter anderem das Jahr 1962 mit 175 nuklearen Explosionen dramatisch. Erstellt in Japan, Opfer der … „Visualisierte Geschichte: Nukleare Explosionen 1945 bis 1998“ weiterlesen

Statistik als Live-Erlebnis: 200 Länder, 200 Jahre, 120.000 Datenpunkte in 4 Minuten

Wie kann man eine riesige Anzahl statistischer Daten über Bevölkerungsentwicklung, Einkommen, Gesundheit in vielen Ländern und über Jahrzehnte anschaulich darstellen? Hans Rosling gibt beeindruckende Beispiele, wie das, was nach sehr trockenem Stoff klingen mag, zum spannenden Live-Erlebnis wird: 200 Länder, 200 Jahre, 120.000 (!) Datenpunkte – in vier Minuten! (englisch) Schön, dass bei all der … „Statistik als Live-Erlebnis: 200 Länder, 200 Jahre, 120.000 Datenpunkte in 4 Minuten“ weiterlesen

Tortendiagramme: die meisten sehen aus wie Pac-man

Hypothese: Die meisten Tortendiagramme (Kuchendiagramme) sehen aus wie Pac-man. Glauben Sie nicht? Hier ist der unschlagbare Beweis: Das bis heute bekannte Arcade- und Videospiel Pac-Man wurde 1980 in Japan als „Puck Man“ veröffentlicht.

Vergleich: Normalverteilung vs. Para-Normalverteilung

Wie kann man eine Normalverteilung grafisch (optisch) erkennen? Wichtig ist dabei vor allem die Abgrenzung gegenüber einer Para-Normalverteilung, wie dieses Diagramm zeigt: Wer kennt ähnlich aufschlussreiche statistische Diagramme? Bin für Hinweise, die den Forschungsalltag auflockern, dankbar!

Moderatoreffekte interpretieren und grafisch darstellen

Viele, die sich mit Statistik beschäftigen und dabei irgendwann auf sogenannte Moderatoreffekte stoßen, haben damit Schwierigkeiten. Wie man einen Moderatoreffekt „technisch“ prüft, kann man nachlesen (vgl. den Beitrag Interaktionseffekt): Man nimmt die unabhängige Variable (UV), den Moderator (der sich „technisch“ nicht von der Behandlung einer UV unterscheidet – die Bezeichnungen werden lediglich aus der Theorie … „Moderatoreffekte interpretieren und grafisch darstellen“ weiterlesen

Wie es nicht geht: ungünstiges Diagramm in einer Werbeanzeige

Kürzlich stieß ich in einer Werbeanzeige eines Personaldienstleisters auf ein Diagramm, das in etwa so aussah. (Ich verwende hier nicht das Original, da ich weder Werbung für das Unternehmen machen noch es namentlich bloßstellen möchte.) Datenbasis ist eine Mitarbeiterbefragung, die von renommierten externen Instituten (darunter Gesellschaft für Konsumforschung GfK und Bundesministerium für Arbeit und Soziales) … „Wie es nicht geht: ungünstiges Diagramm in einer Werbeanzeige“ weiterlesen

Soziale Netzwerke: Schönes Beispiel für grafische Veranschaulichung

Wer in der Marktforschungsbranche beschäftigt ist, steht immer wieder vor der Frage: Wie kann ich Ergebnisse statistischer Auswertungen grafisch veranschaulichen? Ein besonders schönes Beispiel liefert xkcd mit dieser Landkarte sozialer Netzwerke: Interessant ist der Vergleich zu 2007: damals war z. B. MySpace noch wesentlich stärker als Gesichtsbuch. Ähnlichkeiten zum Herrn der Ringe dürften nicht ganz … „Soziale Netzwerke: Schönes Beispiel für grafische Veranschaulichung“ weiterlesen