Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)

Das Maschinelle Lernen vereinigt Methoden aus unterschiedlichen Fachbereichen. Während Ansätze der klassischen Statistik eher auf Hypothesentests ausgelegt sind, steht beim Data Mining oft die Ableitung von praxisrelevanten Erkenntnissen aus vorhandenen Daten im Vordergrund, und das Machine Learning zielt auf die Anwendung der „trainierten“ Modelle auf zuvor nicht gesehene Daten – sprich Vorhersagen. Bei den jeweils … „Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)“ weiterlesen

R-Zertifizierung: ggplot2 (2) – DataCamp

Damit ist der Fortsetzungskurs zum ersten Teil von Hadley Wickhams ggplot2-Paket ebenfalls abgeschlossen:   Hier ging es über rein beschreibende Darstellungen hinaus, indem auch statistische Funktionen in die Plots einbezogen wurden: u. a. Mittelwerte, Standardabweichungen, Konfidenzintervalle, Quantile, Residuen von Chi-Quadrat-Tests sowie lineare Modelle mit Glättungsfunktionen (Loess-Smoother). Ein eigenes Kapitel widmete sich „Best Practices“ speziell zu … „R-Zertifizierung: ggplot2 (2) – DataCamp“ weiterlesen

SPSS Modeler: Merkmalsauswahl (Feature Selection)

In Data Mining Projekten ist es nicht unwahrscheinlich, dass der Forscher mit einer Vielzahl, vielleicht hunderten oder sogar tausenden, Variablen konfrontiert wird. Wenn klare Vorgaben, zum Beispiel auf Basis einer gut etablierten Theorie, fehlen, kann die Merkmalsauswahl für die Modellbildung ein sehr zeitaufwändiger Prozess sein (vgl. CRISP-DM Prozess = Cross Industry Standard Process for Data Mining). Der … „SPSS Modeler: Merkmalsauswahl (Feature Selection)“ weiterlesen

Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?

Fragst Du Dich: Welcher statistische Test passt für meine Aufgabe, meine Daten, meine Fragestellung? Die Universität Zürich bietet eine empfehlenswerte Hilfestellung bei der Auswahl des geeigneten statistischen Tests bzw. der passenden multivariaten Analysemethode. In einem Entscheidungsbaum sind Unterschiedstests und Verfahren für Zusammenhangs- und Interdependenzanalysen dargestellt; farbliche Abstufungen berücksichtigen das Skalenniveau (nominalskaliert, ordinalskaliert oder intervallskaliert); zusätzlich … „Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?“ weiterlesen

Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen

Angenommen, Sie betreiben Marktforschung für eine Ladenkette, die Kühlschränke verkauft. Ihr Auftrag lautet, zwei Kundengruppen hinsichtlich ihres Kaufinteresses zu vergleichen. Sie erhalten folgende Kreuztabelle: Es gibt zwar gewisse Unterschiede zwischen den Kundengruppen (hier vereinfacht mit 0 und 1 bezeichnet), diese sind laut Chi-Quadrat-Test jedoch nicht signifikant (p=0,102). Ist der Auftrag damit bereits erledigt? Neu: Der … „Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen“ weiterlesen

Skoda Octavia: Diebstahlzahlen rückläufig – war die „Operation Helios“ erfolgreich?

Die DNN Online titelt am 16.8.2012: Rückläufige Diebstahlszahlen bei Skoda Octavia – Dresdens Polizei wertet „Operation Helios“ als Erfolg. Wie in meinem Artikel Autodiebstahl in Dresden berichtet, ist der Skoda Octavia derzeit der am häufigsten angegriffene Autotyp Dresdens (Diebstahlversuche und erfolgreiche Diebstähle). Zunächst die präsentierten Zahlen: angegriffene Octavias im Juni 2012: 39 davon gestohlen: 25; … „Skoda Octavia: Diebstahlzahlen rückläufig – war die „Operation Helios“ erfolgreich?“ weiterlesen

Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen

Kundensegmentierung ist eine häufige Anforderung bei Marktforschungsprojekten. Typische Fragen sind: Wie lassen sich meine Kunden in Gruppen einteilen? Nach welchen Kriterien unterscheiden sich diese Gruppen? Welche Kriterien sind überhaupt geeignet, um Kunden zu differenzieren? Findet man überzeugende Antworten auf diese Fragen, dann kann man unterschiedliche Kundentypen unterschiedlich ansprechen, was in vielen Fällen zu erfolgreicheren Kampagnen … „Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen“ weiterlesen