SPSS Modeler: Merkmalsauswahl (Feature Selection)

In Data Mining Projekten ist es nicht unwahrscheinlich, dass der Forscher mit einer Vielzahl, vielleicht hunderten oder sogar tausenden, Variablen konfrontiert wird. Wenn klare Vorgaben, zum Beispiel auf Basis einer gut etablierten Theorie, fehlen, kann die Merkmalsauswahl für die Modellbildung ein sehr zeitaufwändiger Prozess sein (vgl. CRISP-DM Prozess = Cross Industry Standard Process for Data Mining). Der … „SPSS Modeler: Merkmalsauswahl (Feature Selection)“ weiterlesen

SPSS Modeler – Automatische Datenvorbereitung: Was passiert da?

Der SPSS Modeler, die High-End-Statistik-Lösung von IBM SPSS, wartet mit einem vielversprechenden Knoten für die Datenvorbereitung auf: der Automatischen Datenvorbereitung (ADP, Automatic Data Preparation). Datenvorbereitung ist oft der zeitaufwändigste Arbeitsschritt Wer sich schon mal intensiver mit Datenauswertung oder data mining beschäftigt hat, hat sehr wahrscheinlich die Erfahrung gemacht, dass die Datenvorbereitung oft der zeitintensivste Arbeitsschritt … „SPSS Modeler – Automatische Datenvorbereitung: Was passiert da?“ weiterlesen

SPSS Modeler Premium 15: Was ist neu?

IBM SPSS Modeler Premium enthält alles, was SPSS Modeler Professional (früher: Clementine) kann, sowie zusätzlich Text Mining. Neu sind zwei Zusatzpakete: Entity analytics Im Zeitalter von Big Data, den großen Datenmengen, besteht eine zentrale Herausforderung darin, Daten aus recht unterschiedlichen Quellen zu verbinden. Üblicher Weise funktioniert dies nur mit einem gemeinsamen Schlüssel – der jedoch … „SPSS Modeler Premium 15: Was ist neu?“ weiterlesen

Moderne (Online-) Marktforschung: Von „Big Data“ zu „Data Integration“

Einige Stichpunkte zu aktuellen Trends und Herausforderungen der Marktforschung speziell im Kontext der Online-Befragungen: Befragungen werden zunehmend auf mobilen Endgeräten durchgeführt; Zahl der Befragten, die per Smartphone oder Tablet auf CAWI-Seiten (Computer Assisted Web Interviewing) zugreifen, hat sich von 2011 auf 2012 vervierfacht; aktueller Anteil mobiler Endgeräte an den Befragungen von Lightspeed Research: 5% technische … „Moderne (Online-) Marktforschung: Von „Big Data“ zu „Data Integration““ weiterlesen

Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen

Kundensegmentierung ist eine häufige Anforderung bei Marktforschungsprojekten. Typische Fragen sind: Wie lassen sich meine Kunden in Gruppen einteilen? Nach welchen Kriterien unterscheiden sich diese Gruppen? Welche Kriterien sind überhaupt geeignet, um Kunden zu differenzieren? Findet man überzeugende Antworten auf diese Fragen, dann kann man unterschiedliche Kundentypen unterschiedlich ansprechen, was in vielen Fällen zu erfolgreicheren Kampagnen … „Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen“ weiterlesen

CRISP-DM: Ein Standard-Prozess-Modell für Data Mining

CRISP-DM steht für CRoss-Industry Standard Process for Data Mining. Dieses branchenübergreifende Prozess-Modell wurde ab 1996 im Rahmen eines EU-Förderprojekts entwickelt, und zwar von so namhaften Teilnehmern wie DaimlerChrysler (damals noch Daimler-Benz) und SPSS (damals ISL). Es ist nicht eigentumsrechtlich geschützt. Es werden sechs Phasen in Data Mining-Projekten unterschieden, wobei man sich diese Phasen nicht als … „CRISP-DM: Ein Standard-Prozess-Modell für Data Mining“ weiterlesen

SPSS Modeler: Maschinenlernen vs. Statistische Modelle

Statistische Modelle beruhen auf mathematische Gleichungen, wobei ein Algorithmus die vorgegebenen Parameter schätzt. Moderner und flexibler sind Techniken zum Maschinenlernen. Sie werden auf Basis minimaler Anforderungen an die Modellstruktur und minimalen Annahmen für das Modell berechnet. Die Form der Beziehungen wird während des Lernprozesses bestimmt. Beispiel: Lineare Regression vs. Neuronales Netzwerk (Neural Network) Falls sich … „SPSS Modeler: Maschinenlernen vs. Statistische Modelle“ weiterlesen