Datenvisualisierung: Informative Boxplots in R (ggplot2 und mehr)

Boxplots geben einen schnellen Überblick über Verteilungen. Wie kann man sie informativer gestalten als das Standard-Boxplot? Hier geht es um Ideen mit ggplot2 sowie einigen Erweiterungspaketen. Zum Einstieg in ggplot2 siehe die folgenden Beiträge: Das folgende Video ist mein erstes, das auf einem Storyboard basiert – umgesetzt mit dem flexdashboard-Paket, das eine Erweiterung des R … „Datenvisualisierung: Informative Boxplots in R (ggplot2 und mehr)“ weiterlesen

Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)

Das Maschinelle Lernen vereinigt Methoden aus unterschiedlichen Fachbereichen. Während Ansätze der klassischen Statistik eher auf Hypothesentests ausgelegt sind, steht beim Data Mining oft die Ableitung von praxisrelevanten Erkenntnissen aus vorhandenen Daten im Vordergrund, und das Machine Learning zielt auf die Anwendung der „trainierten“ Modelle auf zuvor nicht gesehene Daten – sprich Vorhersagen. Bei den jeweils … „Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)“ weiterlesen

Studie: Befragung zum subjektiven Signifikanzniveau

Der Untersuchungsgegenstand der folgenden Studie ist die wissenschaftliche Konvention des 5%-Signifikanzniveaus. Vorliegende Signifikanz per se weist lediglich darauf hin, dass eine anfangs aufgestellte Hypothese (mit einer gewissen statistischen Sicherheit) keine Gültigkeit besitzt. Häufig erfolgt die Beweisführung hier durch einen Widerspruch (lat.: reductio ad absurdum). Daher weist eine verworfene Hypothese darauf hin, dass die widersprüchliche Annahme … „Studie: Befragung zum subjektiven Signifikanzniveau“ weiterlesen

Signifikanz in der Partnerschaft

Hier noch ein wunderbarer Beitrag zum Thema Signifikanz von meinem Lieblings-Webcomic xkcd: „Ich bin Dein signifikanter Anderer“. Während er sich nicht klar festlegen möchte, stellt sie anhand eines Boxplots ihre „Ausreißer“-Stellung fest und leitet daraus einen (romantischen) Beziehungsanspruch ab. Soziologen schnalzen beim letzten Bild noch genussvoll mit der Zunge: der signifikante Andere ist ein Fachbegriff aus … „Signifikanz in der Partnerschaft“ weiterlesen

Signifikant: Gummibärchen verursachen Akne

Wird ein signifikantes Studienergebnis veröffentlicht, so flößt das vielen Menschen Respekt ein – völlig zu Recht natürlich. Es erhält damit die höheren Weihen wissenschaftlicher Unabweisbarkeit. Eine Möglichkeit, einen signifikanten Zusammenhang (Korrelation) zu entdecken, zeigt hier mein Lieblings-Webcomic xkcd (leider und, Dank des feinen Humors, zugleich glücklicher Weise auf englisch): man testet einfach so lange so … „Signifikant: Gummibärchen verursachen Akne“ weiterlesen

ad hoc und post hoc

Ad hoc ist aus der Alltagssprache geläufig. Dieser lateinische Ausdruck heißt übersetzt „zur Sache passend“ oder „für diesen Augenblick gemacht“. Im übertragenen Sinn geht es um improvisierte Handlungen oder spontan aus einer Situation heraus Entstandenes. In der Marktforschung ist der Begriff positiv belegt; so wirbt beispielsweise die GfK Kynetec, die zur renommierten GfK-Gruppe gehört, mit … „ad hoc und post hoc“ weiterlesen

Signifikanz

Ähnlich wie der Begriff Repräsentativität ist auch der Begriff Signifikanz nur sinnvoll anwendbar, wenn ein statistisches Ergebnis aus einer Stichprobe auf eine Grundgesamtheit verallgemeinert werden soll. Statistische Signifikanz liegt dann vor, wenn die Irrtumswahrscheinlichkeit nicht über einem festgelegten Niveau liegt. Findet man z. B. einen positiven Zusammenhang (Korrelation) zwischen Alter und Einkommen (je älter ein … „Signifikanz“ weiterlesen

Logistische Regression: R²

Für logistische Regressionsmodelle wurde eine Vielzahl von Gütemaßen entwickelt: z. B. McFadden’s Pseudo-R², McKelvey & Zavoina’s R², ML (Cox-Snell) R², Cragg-Uhler (Nagelkerke) R², nicht adjustiertes Count R², Akaike’s Information Criterion (AIC), Bayesian Information Criterion (BIC). Im Gegensatz zur linearen Regression gibt es jedoch kein Maß mit einer ähnlich eindeutigen Interpretation im Sinne erklärter Varianz, und … „Logistische Regression: R²“ weiterlesen

Regressionsmodelle: R², Zielsetzung / Denkmodelle

Meines Erachtens gibt es zwei recht unterschiedliche Arten, mit Regressionsmodellen umzugehen. Das „empiristische“ Vorgehen Die erste, die ich wesentlich häufiger antreffe, geht von der Vorstellung aus: Regressionsmodelle sind dafür da, Zusammenhänge möglichst genau zu „erklären“ bzw. möglichst gute Prognosen zu erstellen. In dieser Denkweise ist R² (der erklärte Varianzanteil) das entscheidende Gütemaß. Wenn Studien vorgestellt werden, … „Regressionsmodelle: R², Zielsetzung / Denkmodelle“ weiterlesen

Korrelation: Je mehr Störche, desto mehr Kinder

Ein Klassiker der Statistik … Man kann tatsächlich nachweisen, dass in Regionen mit mehr Störchen auch mehr Kinder „auf die Welt kommen“. Ist damit bewiesen, dass Störche Kinder bringen? Medizinisch-biologische Erkenntnisse sprechen dagegen – es gibt andere, gut belegte Theorien dazu, wie Kinder entstehen und von wo sie „gebracht“ werden. So weit, so klar – … „Korrelation: Je mehr Störche, desto mehr Kinder“ weiterlesen