Statistik-Blog

Machine Learning-Algorithmen verstehen: Interaktionseffekte

Machine Learning-Algorithmen zu verstehen ist eine Herausforderung. Mit dem folgenden Text möchte ich einen Beitrag dazu leisten, indem ich ein Spezialthema betrachte: Wie gehen verschiedene Machine Learning-Algorithmen mit Interaktionseffekten um? Folgende Machine-Learning-Algorithmen werden betrachtet: Lineare Regression GAM = Generalized Additive Model KNN = K nächste Nachbarn = k nearest neighbors Ein einzelner Entscheidungsbaum (rpart) Ein … „Machine Learning-Algorithmen verstehen: Interaktionseffekte“ weiterlesen

Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)

Datensätze mit mehr Variablen als Fällen sind eine besondere Herausforderung für die Datenanalyse: p > n, p für predictors, Prädiktoren; n für die Stichprobengröße. Klassische Verfahren wie die lineare Regression sind unter diesen Bedingungen rechnerisch nicht lösbar. Die Daten: p > n Hier ein Beispiel: biomarker.Rda enthält 90 Fälle (Beobachtungen) von 2000 unabhängigen Variablen – … „Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)“ weiterlesen

Animierte Visualisierungen: Treemaps zum US-Haushaltsdefizit und zum Strommix in Deutschland

Manche Kennzahlen in unserer verrückten Welt wachsen exponentiell. In vielen Fällen zählen Staatsschulden und Haushaltsdefizite dazu. Oft werden solche Zusammenhänge in Liniendiagrammen dargestellt. Hier möchte ich eine alternative Darstellung vorschlagen: animierte Treemaps. Anstieg des US-Haushaltsdefizits nach Präsident: Animierte Treemap Hier geht es um einen visuellen Eindruck davon, wie stark das US-Haushaltsdefizit in den letzten Jahren … „Animierte Visualisierungen: Treemaps zum US-Haushaltsdefizit und zum Strommix in Deutschland“ weiterlesen

Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)

Das Maschinelle Lernen vereinigt Methoden aus unterschiedlichen Fachbereichen. Während Ansätze der klassischen Statistik eher auf Hypothesentests ausgelegt sind, steht beim Data Mining oft die Ableitung von praxisrelevanten Erkenntnissen aus vorhandenen Daten im Vordergrund, und das Machine Learning zielt auf die Anwendung der „trainierten“ Modelle auf zuvor nicht gesehene Daten – sprich Vorhersagen. Bei den jeweils … „Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)“ weiterlesen

Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)

Regressionsmodelle sind nach wie vor sehr populär in der Statistik, dem Data Mining, Data Science und Machine Learning – das belegen aktuelle Zahlen, die KDNuggets kürzlich via Twitter präsentierte: Heute geht es um Möglichkeiten, solche Modelle mit der frei erhältlichen Software R / RStudio zu visualisieren. Wir nutzen den weit verbreiteten Datensatz mtcars, der in … „Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)“ weiterlesen

Ist White Christmas die erfolgreichste Single der Chartgeschichte? Daten ab 1900

Bing Crosby’s White Christmas drückt die Sehnsucht nach Weißer Weihnacht so überzeugend aus, dass es als bestverkaufte Single aller Zeiten gilt (Roy J. Harris Jr. im Wall Street Journal 2009). Gilt das auch für den Charterfolg? tsort.info hat ein ausgefeiltes Punktesystem entwickelt: Je länger in den Charts und je höher, desto mehr Punkte; berücksichtigt werden … „Ist White Christmas die erfolgreichste Single der Chartgeschichte? Daten ab 1900“ weiterlesen

Chart-Geschichte: Erfolgreichste Alben der 1990er Jahre

Welche Alben der 1990er Jahre erreichten den größten Chart-Erfolg? Die Top 5 der erfolgreichsten Alben, die bis 1989 erschienen, waren laut der Daten von tsort.info (Version 2.7.0010): The Beatles (1967): Sgt. Pepper’s Lonely Hearts Club Band Michael Jackson (1982): Thriller The Beatles (1969): Abbey Road U2 (1987): The Joshua Tree Bee Gees (1978): Saturday Night Fever … „Chart-Geschichte: Erfolgreichste Alben der 1990er Jahre“ weiterlesen

Chart-Geschichte: Erfolgreichste Alben der 1980er Jahre

Zwei Beatles-Alben überstanden die 1970er Jahre an der Spitze der Top 5 der erfolgreichsten Alben der Chartgeschichte: Sgt. Pepper’s Lonely Hearts Club Band und Abbey Road. Dahinter folgen die Bee Gees mit Saturday Night Fever, Pink Floyd mit Dark Side Of The Moon und Fleetwood Mac mit Rumours.  Wie verändern sich die Top 5 im … „Chart-Geschichte: Erfolgreichste Alben der 1980er Jahre“ weiterlesen

Chart-Geschichte: Die erfolgreichsten Alben der 1970er Jahre – Nachfolger der Beatles

Die erfolgreichsten Alben der 1960er Jahre stammten von den Beatles: sie beherrschten die Top 5 der Gesamtwertung seit 1949 ab 1968 komplett. Welche Alben der 1970er Jahre schaffen es, Beatles-Alben auf den vorderen Plätzen zu verdrängen? Auf Basis der Daten von tsort.info, Version 2.7.0010 stellen wir wiederum jeweils die Top 5 eines Jahres, die Top 5 der … „Chart-Geschichte: Die erfolgreichsten Alben der 1970er Jahre – Nachfolger der Beatles“ weiterlesen

Chart-Geschichte: Erfolgreichste Alben der 1960er Jahre – Die Dominanz der Beatles

Was sind die erfolgreichsten Alben der 1960er Jahre? Wie im Gesamt-Überblick 1949-1999 stellen wir jeweils die Top-5 eines Jahres dar, daneben die Top-5 des Jahrzehnts, wie sie sich Jahr für Jahr verändert (oder auch nicht), und die Top-5 der Gesamtwertung seit 1949, ebenfalls bis zu diesem Zeitpunkt. Datenbasis ist wiederum tsort.info, Version 2.7.0010. 1960 stehen … „Chart-Geschichte: Erfolgreichste Alben der 1960er Jahre – Die Dominanz der Beatles“ weiterlesen

Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.