Programmieren mit R: Alles, was passiert, ist ein Funktionsaufruf

R ist eine Implementierung der Programmiersprache S, die in den 1970er Jahren von John Chambers bei Bell Labs entwickelt wurde. R wurde ab 1992 von Ross Ihaka und Robert Gentleman geschrieben und ab 1993 verbreitet; seit 1997 gibt es das R Development Core Team, dem auch John Chambers angehört. Von Chambers stammt folgendes Zitat, das … „Programmieren mit R: Alles, was passiert, ist ein Funktionsaufruf“ weiterlesen

R lernen mit Hands-On Programming with R von Garrett Grolemund

Wer R lernen will, hat eine Vielzahl von Büchern zur Auswahl – zumindest, wenn englischsprachige Bücher in Frage kommen. Es gibt auch auf Deutsch einige Einführungen (z. B. R kompakt von Daniel Wollschläger), doch der englischsprachige Markt ist deutlich größer. Eine sehr praxisorientierte Einführung stammt von Garrett Grolemund: Hands-On Programming with R. Garrett Grolemund arbeitet … „R lernen mit Hands-On Programming with R von Garrett Grolemund“ weiterlesen

Zuweisung in R: <- oder =

Zuweisungen in R werden üblicherweise mit dem Zuweisungs-Operator <- ausgeführt: a <- 3 a [1] 3 Manchen Anwendern mag das Gleichheitszeichen vertrauter sein – es funktioniert ebenfalls: a = 4 a [1] 4 Parameter-Übergabe mit Gleichheitszeichen: na.rm = TRUE Bis vor kurzem dachte ich noch, der Zuweisungspfeil wäre eben üblich in R – konnte aber … „Zuweisung in R: <- oder =“ weiterlesen

Machine Learning-Algorithmen verstehen: Interaktionseffekte

Machine Learning-Algorithmen zu verstehen ist eine Herausforderung. Mit dem folgenden Text möchte ich einen Beitrag dazu leisten, indem ich ein Spezialthema betrachte: Wie gehen verschiedene Machine Learning-Algorithmen mit Interaktionseffekten um? Folgende Machine-Learning-Algorithmen werden betrachtet: Lineare Regression GAM = Generalized Additive Model KNN = K nächste Nachbarn = k nearest neighbors Ein einzelner Entscheidungsbaum (rpart) Ein … „Machine Learning-Algorithmen verstehen: Interaktionseffekte“ weiterlesen

Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)

Datensätze mit mehr Variablen als Fällen sind eine besondere Herausforderung für die Datenanalyse: p > n, p für predictors, Prädiktoren; n für die Stichprobengröße. Klassische Verfahren wie die lineare Regression sind unter diesen Bedingungen rechnerisch nicht lösbar. Die Daten: p > n Hier ein Beispiel: biomarker.Rda enthält 90 Fälle (Beobachtungen) von 2000 unabhängigen Variablen – … „Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)“ weiterlesen

Animierte Visualisierungen: Treemaps zum US-Haushaltsdefizit und zum Strommix in Deutschland

Manche Kennzahlen in unserer verrückten Welt wachsen exponentiell. In vielen Fällen zählen Staatsschulden und Haushaltsdefizite dazu. Oft werden solche Zusammenhänge in Liniendiagrammen dargestellt. Hier möchte ich eine alternative Darstellung vorschlagen: animierte Treemaps. Anstieg des US-Haushaltsdefizits nach Präsident: Animierte Treemap Hier geht es um einen visuellen Eindruck davon, wie stark das US-Haushaltsdefizit in den letzten Jahren … „Animierte Visualisierungen: Treemaps zum US-Haushaltsdefizit und zum Strommix in Deutschland“ weiterlesen

Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)

Das Maschinelle Lernen vereinigt Methoden aus unterschiedlichen Fachbereichen. Während Ansätze der klassischen Statistik eher auf Hypothesentests ausgelegt sind, steht beim Data Mining oft die Ableitung von praxisrelevanten Erkenntnissen aus vorhandenen Daten im Vordergrund, und das Machine Learning zielt auf die Anwendung der „trainierten“ Modelle auf zuvor nicht gesehene Daten – sprich Vorhersagen. Bei den jeweils … „Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)“ weiterlesen

Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)

Regressionsmodelle sind nach wie vor sehr populär in der Statistik, dem Data Mining, Data Science und Machine Learning – das belegen aktuelle Zahlen, die KDNuggets kürzlich via Twitter präsentierte: Heute geht es um Möglichkeiten, solche Modelle mit der frei erhältlichen Software R / RStudio zu visualisieren. Wir nutzen den weit verbreiteten Datensatz mtcars, der in … „Regressionsmodelle visualisieren in R: Mit Interaktionseffekten, 3D (ggplot2, plotly)“ weiterlesen

Ist White Christmas die erfolgreichste Single der Chartgeschichte? Daten ab 1900

Bing Crosby’s White Christmas drückt die Sehnsucht nach Weißer Weihnacht so überzeugend aus, dass es als bestverkaufte Single aller Zeiten gilt (Roy J. Harris Jr. im Wall Street Journal 2009). Gilt das auch für den Charterfolg? tsort.info hat ein ausgefeiltes Punktesystem entwickelt: Je länger in den Charts und je höher, desto mehr Punkte; berücksichtigt werden … „Ist White Christmas die erfolgreichste Single der Chartgeschichte? Daten ab 1900“ weiterlesen

Chart-Geschichte: Erfolgreichste Alben der 1990er Jahre

Welche Alben der 1990er Jahre erreichten den größten Chart-Erfolg? Die Top 5 der erfolgreichsten Alben, die bis 1989 erschienen, waren laut der Daten von tsort.info (Version 2.7.0010): The Beatles (1967): Sgt. Pepper’s Lonely Hearts Club Band Michael Jackson (1982): Thriller The Beatles (1969): Abbey Road U2 (1987): The Joshua Tree Bee Gees (1978): Saturday Night Fever … „Chart-Geschichte: Erfolgreichste Alben der 1990er Jahre“ weiterlesen