Visualisierung | Statistik Dresden

Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?

Balken- und Säulendiagramme werden immer noch häufig verwendet, um Mittelwertsunterschiede darzustellen – obwohl zumindest in Fachkreisen schon viel Kritik an diesem Diagrammtyp geäußert wurde. Für einen schnellen optischen Eindruck mag es passen – oder auch nicht. Der Mittelwert allein ist nur ein Aspekt einer Verteilung. Hier ein Beispiel: require(ggplot2) ggplot(daten) + aes(x = Geschlecht, y … „Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?“ weiterlesen

R-Zertifizierung: ggvis – DataCamp

Neuer und weniger bekannt als ggplot2 ist das R-Paket ggvis. Es basiert ebenfalls auf der grammar of graphics, d. h. die Diagramme werden in Schichten aufgebaut, die sehr flexibel anpassbar sind. ggvis verbindet die Stärken von ggplot2 mit shiny und vega. Die Verknüpfung mit shiny ermöglicht interaktive Grafiken. Auch an diesem Paket hat Hadley Wickham … „R-Zertifizierung: ggvis – DataCamp“ weiterlesen

R-Zertifizierung: ggplot2 (2) – DataCamp

Damit ist der Fortsetzungskurs zum ersten Teil von Hadley Wickhams ggplot2-Paket ebenfalls abgeschlossen: Hier ging es über rein beschreibende Darstellungen hinaus, indem auch statistische Funktionen in die Plots einbezogen wurden: u. a. Mittelwerte, Standardabweichungen, Konfidenzintervalle, Quantile, Residuen von Chi-Quadrat-Tests sowie lineare Modelle mit Glättungsfunktionen (Loess-Smoother). Ein eigenes Kapitel widmete sich „Best Practices“ speziell zu … „R-Zertifizierung: ggplot2 (2) – DataCamp“ weiterlesen

R-Zertifizierung: ggplot2 (1) – DataCamp

Das ggplot2-Paket von Hadley Wickham berücksichtigt die Grammar of Graphics, die „Grammatik grafischer Darstellungen“, und ist in mancherlei Hinsicht dem Base-System von R überlegen. So werden Grafiken in „Schichten“ (Layers) aufgebaut und sind damit wesentlich flexibler handhabbar. Und – schlicht ausgedrückt – sie sehen in aller Regel deutlich professioneller aus. Der erste ggplot-Kurs behandelte die … „R-Zertifizierung: ggplot2 (1) – DataCamp“ weiterlesen

Typologie Dresdner Stadtteile / Clusteranalyse mit „R“

Eine datenbasierte Typologie zu erstellen, ist leicht und schwierig zugleich. Leicht, weil eine Typologie nicht „falsch“ sein kann. Und deshalb gleichzeitig schwierig, weil der Forscher viele Entscheidungen zu treffen hat und weil es gilt, eine inhaltlich sinnvolle Interpretation zu finden. Heute geht es darum, Dresdner Stadtteile zu Typen zusammenzufassen. Dabei geht es um folgende Fragen: Wie … „Typologie Dresdner Stadtteile / Clusteranalyse mit „R““ weiterlesen

Wo sind die 12 Millionen syrische Flüchtlinge?

Im folgenden Video zeigt Hans Rosling, Professor für internationale Gesundheit, anschaulich die Verteilung der 12 Millionen syrischen Flüchtlinge. Einige Kernaussagen habe ich auf deutsch zusammengefasst. Vor Beginn des Syrienkonflikts: ca. 20 Millionen Einwohner Im Video repräsentiert ein Würfel eine Million Personen 12 Millionen haben ihr Zuhause verlassen – das sind 60% der Gesamtbevölkerung! 8 Millionen sind … „Wo sind die 12 Millionen syrische Flüchtlinge?“ weiterlesen

Bevölkerungsentwicklung in Dresden 1830-2013 nach Geschlecht (Visualisierungsbeispiel mit „R“)

Wie hat sich die Dresdner Bevölkerung zwischen 1830 und 2013 entwickelt? Hab mal versucht, das grafisch darzustellen, sodass man auch einen Eindruck vom Frauen- und Männeranteil erhält und markante Einschnitte erkennbar sind: Markante Einschnitte in der Bevölkerungsentwicklung Dresdens 1830 bis 2013 Einige Anmerkungen zur Bevölkerungsentwicklung in Dresden: Kontinuierliches Bevölkerungswachstum bis zum ersten Weltkrieg Die Anzahl … „Bevölkerungsentwicklung in Dresden 1830-2013 nach Geschlecht (Visualisierungsbeispiel mit „R“)“ weiterlesen

Bevölkerungsdichte in Dresden: Visualisierungsbeispiel mit R (Choroplethenkarte)

Die Dresdner Stadtteile sind, wie kaum anders zu erwarten, unterschiedlich dicht besiedelt. Wo die Dresdner eng aufeinander wohnen und wo nicht, lässt sich am besten grafisch darstellen: Je dunkler die Fläche, desto höher die Besiedlungsdichte, d. h. desto mehr Einwohner je Hektar im jeweiligen Stadtteil. Die Liste zu den nummerierten Stadtteilen gibt es u. a. hier. … „Bevölkerungsdichte in Dresden: Visualisierungsbeispiel mit R (Choroplethenkarte)“ weiterlesen

Statistik als Live-Erlebnis: 200 Länder, 200 Jahre, 120.000 Datenpunkte in 4 Minuten

Wie kann man eine riesige Anzahl statistischer Daten über Bevölkerungsentwicklung, Einkommen, Gesundheit in vielen Ländern und über Jahrzehnte anschaulich darstellen? Hans Rosling gibt beeindruckende Beispiele, wie das, was nach sehr trockenem Stoff klingen mag, zum spannenden Live-Erlebnis wird: 200 Länder, 200 Jahre, 120.000 (!) Datenpunkte – in vier Minuten! (englisch) Mittelwerte hinterfragen: Blick auf Verteilungen, … „Statistik als Live-Erlebnis: 200 Länder, 200 Jahre, 120.000 Datenpunkte in 4 Minuten“ weiterlesen

Meilensteine in der Geschichte der Marktforschung

1932 Erfindung der Likert-Skala 1936 Wettstreit in der Wahlforschung mit dem bemerkenswerten Ergebnis, dass eine Prognose auf Basis von über zwei Millionen Befragten daneben liegt, während ein konkurrierendes Unternehmen mit 50.000 Befragten den US-Wahlsieger Roosevelt korrekt vorhersagt. → Begründung der Stichprobenziehung (vgl. Artikel zu Repräsentativität und Gewichtung) 1941 Erfindung der Fokusgruppen durch Merton und Lazarsfeld … „Meilensteine in der Geschichte der Marktforschung“ weiterlesen

Dresden: Blogs & Co.

Verbände, Initiativen und Vereine