Beim Data Mining geht es darum, Erkenntnisse aus vorhandenen Daten zu gewinnen – im Gegensatz zum Machine Learning, das darauf abzielt, zuvor traininerte Modelle auf neue Daten anzuwenden. TL; DR: Kurze Zusammenfassung Entscheidungsbäume sind ein mächtiges Werkzeug für Data Mining-Aufgaben. Sind sind in R leicht zu erstellen und besonders gut präsentierbar, wenn sie in interaktiven … „Data Mining mit R: Zusammenhänge erkennen, Zielgruppen finden“ weiterlesen
Schlagwort: Entscheidungsbaum
Machine Learning-Algorithmen verstehen: Interaktionseffekte
Machine Learning-Algorithmen zu verstehen ist eine Herausforderung. Mit dem folgenden Text möchte ich einen Beitrag dazu leisten, indem ich ein Spezialthema betrachte: Wie gehen verschiedene Machine Learning-Algorithmen mit Interaktionseffekten um? Folgende Machine-Learning-Algorithmen werden betrachtet: Lineare Regression GAM = Generalized Additive Model KNN = K nächste Nachbarn = k nearest neighbors Ein einzelner Entscheidungsbaum (rpart) Ein … „Machine Learning-Algorithmen verstehen: Interaktionseffekte“ weiterlesen
Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)
Datensätze mit mehr Variablen als Fällen sind eine besondere Herausforderung für die Datenanalyse: p > n, p für predictors, Prädiktoren; n für die Stichprobengröße. Klassische Verfahren wie die lineare Regression sind unter diesen Bedingungen rechnerisch nicht lösbar. Die Daten: p > n Hier ein Beispiel: biomarker.Rda enthält 90 Fälle (Beobachtungen) von 2000 unabhängigen Variablen – … „Kreuzvalidierung: Was schief gehen kann und wie man es besser macht (p > n)“ weiterlesen
Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)
Das Maschinelle Lernen vereinigt Methoden aus unterschiedlichen Fachbereichen. Während Ansätze der klassischen Statistik eher auf Hypothesentests ausgelegt sind, steht beim Data Mining oft die Ableitung von praxisrelevanten Erkenntnissen aus vorhandenen Daten im Vordergrund, und das Machine Learning zielt auf die Anwendung der „trainierten“ Modelle auf zuvor nicht gesehene Daten – sprich Vorhersagen. Bei den jeweils … „Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)“ weiterlesen
R-Zertifizierung: Machine Learning (DataCamp)
Nun ist auch der Machine Learning-Kurs von DataCamp abgeschlossen. Es ging um die drei Themenbereiche Klassifikation, Regression und Clustering. Von maschinellem Lernen wird nur gesprochen, wenn ein Algorithmus ein Modell ermittelt, das auf andere Daten (z. B. künftige Beobachtungen) angewendet werden kann. Deskriptive Statistiken (häufigste Farbe, durchschnittliche Größe) zählen somit nicht zum maschinellen Lernen. Einige Kursinhalte: … „R-Zertifizierung: Machine Learning (DataCamp)“ weiterlesen
R-Zertifizierung Stanford University: Statistical Learning
Kurs abgeschlossen: Statistical Learning, Stanford University. Basiert auf: An Introduction to Statistical Learning: with Applications in R (Springer Texts in Statistics) Kursinhalte: Einführung, Überblick über Statistisches Lernen Lineare Regression Klassifikation Resampling-Methoden Modell-Optimierung, Modell-Auswahl Nichtlineare Modelle Entscheidungsbäume (tree-based methods) Support Vector Machines Unüberwachtes Lernen (Unsupervised Methods) Sie / Ihre Firma arbeiten mit R? Gern biete … „R-Zertifizierung Stanford University: Statistical Learning“ weiterlesen
SPSS Modeler: Merkmalsauswahl (Feature Selection)
In Data Mining Projekten ist es nicht unwahrscheinlich, dass der Forscher mit einer Vielzahl, vielleicht hunderten oder sogar tausenden, Variablen konfrontiert wird. Wenn klare Vorgaben, zum Beispiel auf Basis einer gut etablierten Theorie, fehlen, kann die Merkmalsauswahl für die Modellbildung ein sehr zeitaufwändiger Prozess sein (vgl. CRISP-DM Prozess = Cross Industry Standard Process for Data Mining). Der … „SPSS Modeler: Merkmalsauswahl (Feature Selection)“ weiterlesen
Moderne (Online-) Marktforschung: Von „Big Data“ zu „Data Integration“
Einige Stichpunkte zu aktuellen Trends und Herausforderungen der Marktforschung speziell im Kontext der Online-Befragungen: Befragungen werden zunehmend auf mobilen Endgeräten durchgeführt; Zahl der Befragten, die per Smartphone oder Tablet auf CAWI-Seiten (Computer Assisted Web Interviewing) zugreifen, hat sich von 2011 auf 2012 vervierfacht; aktueller Anteil mobiler Endgeräte an den Befragungen von Lightspeed Research: 5% technische … „Moderne (Online-) Marktforschung: Von „Big Data“ zu „Data Integration““ weiterlesen
Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen
Kundensegmentierung ist eine häufige Anforderung bei Marktforschungsprojekten. Typische Fragen sind: Wie lassen sich meine Kunden in Gruppen einteilen? Nach welchen Kriterien unterscheiden sich diese Gruppen? Welche Kriterien sind überhaupt geeignet, um Kunden zu differenzieren? Findet man überzeugende Antworten auf diese Fragen, dann kann man unterschiedliche Kundentypen unterschiedlich ansprechen, was in vielen Fällen zu erfolgreicheren Kampagnen … „Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen“ weiterlesen