Diagramme für Präsentationen, Berichte, Abschlussarbeiten: Beispiele mit der freien R-Software (Boxplots, Histogramme, Streudiagramme)

Streudiagramme (Scatterplots) mit nichtlinearer Anpassungskurve

Sind Sie gelangweilt von Standard-Excel-Diagrammen in Präsentationen, Berichten oder Abschlussarbeiten? Hier ein paar Beispiele, die mit der freien Statistik-Software R erstellt wurden, und zwar mit Hadley Wickhams ggplot2-Paket (sofern nicht anders angegeben).

Beispiele für Boxplots mit Untergruppen

Boxplots nach Geschlecht für sieben Parameter
Boxplots nach Geschlecht für sieben Parameter (bitte anklicken für größere Darstellung)

Eine besondere Stärke von R besteht im sog. „faceting“: man kann Diagramme für Untergruppen elegant anordnen. Wer schon mal in Word mit separaten Diagrammen jongliert und mit Seitenumbrüchen oder unterschiedlichen Randeinstellungen gekämpft hat, weiß das zu schätzen.

Boxplots mit Datenpunkten
Boxplots mit zusätzlicher Darstellung der einzelnen Datenpunkte (bitte anklicken für größere Darstellung)

Hier die gleichen Boxplots, allerdings mit zusätzlicher Darstellung der einzelnen Datenpunkte. So erhält man noch einen besseren Eindruck von den Verteilungen und sieht z. B., dass mehr Männer als Frauen in der Stichprobe enthalten sind. Die Punkte sind mit etwas Transparenz versehen, sodass sie die Boxen nicht völlig überlagern.

Boxplots mit alternativem Layout (4x2) für vertikales Seitenformat
Boxplots mit alternativem Layout (4×2) für vertikales Seitenformat

Man kann das Layout frei vorgeben, hier alternativ nur zwei Spalten für vertikale Seitenformate.

Beispiele für Histogramme mit Untergruppen

Histogramme für sieben Parameter in einem Bild

Hier Histogramme anstelle der Boxplots.

Gruppierte Histogramme
Gruppierte Histogramme, gefärbt nach weiterem Merkmal (hier Geschlecht)

Die gleichen Histogramme wie eben, allerdings mit zusätzlicher Einfärbung nach einem weiteren Merkmal (hier: Geschlecht).

Streudiagramme (Scatterplots) mit linearen und nichtlinearen Anpassungskurven

Streudiagramme (Scatterplots)
Gruppierte Streudiagramme (Scatterplots) mit Regressionsgerade und Konfidenzbändern (bitte anklicken für größere Darstellung)


Streudiagramme mit Regressionsgeraden finde ich eine gute Möglichkeit, Korrelationen zu visualisieren. Man sieht die bivariate Verteilung durch die einzelnen Datenpunkte im Detail und erhält einen Eindruck von dem Zusammenhang durch die Regressionsgerade. Zudem stellt R die Konfidenzintervalle dar (blaue Schattierung). Sie sind an den Rändern breiter, wo es nur wenige Datenpunkte gibt, und im mittleren Bereich schmaler, wo mehr Daten vorliegen. Die Transparenz ist einstellbar.

Streudiagramme (Scatterplots) mit nichtlinearer Anpassungskurve
Gruppierte Streudiagramme (Scatterplots) mit nichtlinearer Anpassungskurve (loess) und Konfidenzbändern (bitte anklicken für größere Darstellung)

Eine Alternative zum vorigen Diagramm: es handelt sich um die gleichen Merkmale, die gleichen Datenpunkte, die gleichen Streudiagramme, lediglich der Typ der Anpassungskurve wurde verändert. Hier sind es sog. loess-Kurven: die Punkte werden lokal gewichtet, sodass man nichtlineare Zusammenhänge erhält. Die Steigung kann im Verlauf der x-Achse variieren. Es ist auch möglich, lineare und nichtlineare Anpassungslinien in einem Diagramm zu kombinieren; die Konfidenzintervalle können mit unterschiedlichen Farbtönen dargestellt werden. Hier habe ich darauf verzichtet, um die Diagramme nicht zu überladen.

Streudiagramm (Scatterplot)
Streudiagramm (Scatterplot) mit zwei Anpassungsgeraden; Punkte stellen nach Farbe und Form weitere Merkmale dar

Bis hier hatte ich jeweils mehrere Diagramme in einem Bild kombiniert. Hier ein Beispiel, wie man in einem einzigen Streudiagramm Informationen mehrerer Merkmale unterbringen kann. Sowohl die Datenpunkte als auch die Regressionsgeraden und die Konfidenzbänder werden farblich nach Geschlecht unterschieden. Es sind drei verschiedene Parameter dargestellt (Voraussetzung: ähnlicher Wertebereich), die anhand der Formen differenziert werden (Kreis, Dreieck, Quadrat, siehe Legende). Natürlich muss man gut abwägen, wie viele verschiedene Informationen man dem Betrachter zumuten möchte – manchmal ist weniger mehr. Aber es ist gut zu wissen, was machbar ist.

Visualisierung von Korrelationen: corrplot

Vor allem in wissenschaftlichen Arbeiten werden Korrelationen manchmal in großen Übersichtstabellen mit vielen Zahlen dargestellt. Grafische Alternativen bietet das R-Paket corrplot:

Korrelationsplot (mixed)
Korrelationen: Kombination aus Diagramm und Korrelationskoeffizienten; R-Paket „corrplot“ (Datensatz: mtcars, mit R mitgeliefert)

Man kann Zahlen und grafische Symbole kombinieren oder ganz auf die Zahlen verzichten; statt Kreisen sind z. B. auch Ellipsen möglich:

Korrelationen: Visualisierung statt langweiliger Zahlen-Tabelle; R-Paket „corrplot“; Ellipsen statt Kreisen für Stärke und Richtung der Zusammenhänge

Gern unterstütze ich Sie bei der Visualisierung Ihrer Daten.

Sie möchten lernen, solche und andere Diagramme mit R selbst zu erstellen? Ich biete R-Workshops an.

Literatur-Empfehlung:

ggplot2: Elegant Graphics for Data Analysis (Use R!) – von Hadley Wickham, neue Auflage

Douglas Adams hatte nur fast Recht. Die korrekte Antwort lautet: p=0,042**

2 Gedanken zu „Diagramme für Präsentationen, Berichte, Abschlussarbeiten: Beispiele mit der freien R-Software (Boxplots, Histogramme, Streudiagramme)“

    1. Hallo Jacob,
      alle hier gezeigten Beispiele wurden mit der freien Statistik-Software R erstellt. Ich nutze dazu die Entwicklungsumgebung R-Studio, die das Arbeiten mit R erleichtert.

Freue mich über Kommentare!