Welche Alben waren die erfolgreichsten der Chartgeschichte – nach Jahr, Jahrzehnt, und insgesamt? Wie beim letzten Mal beziehen wir uns auf das Punktesystem von tsort.info. Nur diesmal zeigen wir Animationen, bei denen man beobachten kann, wie sich Jahr für Jahr die Top-5 des Jahrzehnts und der Gesamtwertung verändern. Die Punkte beziehen sich auf die weltweiten Charts, … „Chart-Geschichte 1949-1999: Top 5 Alben nach Jahr / Jahrzehnt / Gesamtwertung (Animationen)“ weiterlesen
Kategorie: R-Programmierung
Beiträge zur R-Programmierung / RStudio. Tipps & Tricks zur freien Statistik-Software, Data Mining, Visualisierungen, Anwendungsbeispiele, Paket-Empfehlungen. #rstats
Erfolgreichste Alben der Chartgeschichte
Welche Alben sind die besten der Chartgeschichte? Sicherlich eine sehr subjektiv zu beantwortende Frage. Etwas objektiver kann es werden, wenn wir nach den erfolgreichsten Alben fragen. An verlässliche, vollständige Verkaufszahlen ist schwer heranzukommen, aber … Datenbasis: tsort.info … es gibt eine hervorragende Webseite, deren Betreiber seit Jahren Daten von Chartplatzierungen sammeln: tsort.info – “The World’s … „Erfolgreichste Alben der Chartgeschichte“ weiterlesen
10 Gründe, RStudio zu verwenden
RStudio ist nicht umsonst eine sehr populäre Entwicklungsumgebung für die freie Software R für Statistik, Datenaufbereitung, Data Mining und Machine Learning. 10 Gründe, RStudio zu nutzen – vielleicht ist auch für erfahrene RStudio-Anwender noch eine Überraschung dabei: 1. Sehr informative, übersichtliche Arbeitsumgebung Die Arbeitsumgebung ist in vier Bereiche unterteilt, die jeweils durch Reiter zusätzlichen Platz … „10 Gründe, RStudio zu verwenden“ weiterlesen
Diagramme für Präsentationen, Berichte, Abschlussarbeiten: Beispiele mit der freien R-Software (Boxplots, Histogramme, Streudiagramme)
Sind Sie gelangweilt von Standard-Excel-Diagrammen in Präsentationen, Berichten oder Abschlussarbeiten? Hier ein paar Beispiele, die mit der freien Statistik-Software R erstellt wurden, und zwar mit Hadley Wickhams ggplot2-Paket (sofern nicht anders angegeben). Beispiele für Boxplots mit Untergruppen Eine besondere Stärke von R besteht im sog. „faceting“: man kann Diagramme für Untergruppen elegant anordnen. Wer schon mal … „Diagramme für Präsentationen, Berichte, Abschlussarbeiten: Beispiele mit der freien R-Software (Boxplots, Histogramme, Streudiagramme)“ weiterlesen
Excel-Datensätze in R laden: Geschwindigkeits-Test verschiedener R-Pakete
Welche Möglichkeiten gibt es, große Excel-Datensätze schnell in R zu laden? Wir verwenden einen Beispiel-Datensatz mit 29 Variablen (Spalten) und 2.000 bzw. 10.000 Zeilen (Fällen). Das R-Paket gdata Als ich zum ersten Mal Exceldaten in R laden wollte, stieß ich auf das gdata-Paket. Es bietet zahlreiche Erweiterungen der R-Basisfunktionalität. Zum Import von Exceldaten wandelt es die … „Excel-Datensätze in R laden: Geschwindigkeits-Test verschiedener R-Pakete“ weiterlesen
Interaktive Diagramme in R: Heatmap mit Mouseover (HTML / Javascript)
Finden Sie statische Diagramme langweilig? Die freie Statistik-Software R bietet verschiedene Möglichkeiten, Diagramme interaktiv zu gestalten. Die einfachere Variante besteht darin, HTML in Verbindung mit Javascript einzusetzen. Hier eine Heatmap, die die Leistung verschiedener Standorte im Hinblick auf diverse Prüfkriterien visualisiert. Die interaktive Version wurde auf eine separate Seite gelegt und ist per Klick erreichbar. … „Interaktive Diagramme in R: Heatmap mit Mouseover (HTML / Javascript)“ weiterlesen
Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?
Balken- und Säulendiagramme werden immer noch häufig verwendet, um Mittelwertsunterschiede darzustellen – obwohl zumindest in Fachkreisen schon viel Kritik an diesem Diagrammtyp geäußert wurde. Für einen schnellen optischen Eindruck mag es passen – oder auch nicht. Der Mittelwert allein ist nur ein Aspekt einer Verteilung. Hier ein Beispiel: require(ggplot2) ggplot(daten) + aes(x = Geschlecht, y … „Säulendiagramm vs. Punktdiagramm – irreführend vs. informativ?“ weiterlesen
R-Programmierung: R-Funktionen auf Variablenliste anwenden (mit Video)
Wie kann man R-Funktionen auf eine lange Variablenliste anwenden, ohne jeden einzelnen Variablennamen eintippen zu müssen? Das wird am Beispiel eines Datensatzes mit 235 NIR-Wellenlängen (NIR = near infrared spectroscopy) gezeigt. Dazu werden 235 einfache lineare Regressionsmodelle mit jeweils einer unabhängigen (und einer abhängigen) Variable aufgestellt, um dann die R²-Werte grafisch zu vergleichen. Es wird gezeigt, … „R-Programmierung: R-Funktionen auf Variablenliste anwenden (mit Video)“ weiterlesen
Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung
Lineare Regressionsmodelle können mit Hilfe von Polynomen auch nichtlineare Zusammenhänge abbilden. Die Modellanpassung im Sinne von R² und korrigiertem R² kann dadurch erheblich steigen. Doch ist ein solches Modell tatsächlich „besser“ als ein einfacheres? Ein Praxistest wäre, die Modellgleichung auf andere Daten anzuwenden. Oft stehen jedoch keine neuen Daten zur Verfügung, die genau die gleichen … „Was ist Overfitting? Regressionsanalyse mit R, nichtlineare Terme, Kreuzvalidierung“ weiterlesen
Logging mit R: Befehle und Ergebnisse direkt in einer Datei protokollieren (Video)
Wie kann man Befehle und Ergebnisse einer R-Sitzung protokollieren? Hier eine Lösung, die ohne Erweiterungspakete (packages) auskommt: Ich verwende das sehr empfehlenswerte RStudio.