SPSS Modeler: Merkmalsauswahl (Feature Selection)

In Data Mining Projekten ist es nicht unwahrscheinlich, dass der Forscher mit einer Vielzahl, vielleicht hunderten oder sogar tausenden, Variablen konfrontiert wird. Wenn klare Vorgaben, zum Beispiel auf Basis einer gut etablierten Theorie, fehlen, kann die Merkmalsauswahl für die Modellbildung ein sehr zeitaufwändiger Prozess sein (vgl. CRISP-DM Prozess = Cross Industry Standard Process for Data Mining). Der … „SPSS Modeler: Merkmalsauswahl (Feature Selection)“ weiterlesen

Neu: SPSS 22 erhältlich

Seit heute steht SPSS in der neuen Version 22 zur Verfügung. Wie die Zeit vergeht … Ich kann mich noch an einstellige Versionsnummern erinnern 😉 Was ist neu gegenüber SPSS 21? Einen Schwerpunkt bildet HTML 5: Ergebnisse können direkt als interaktiver Web Report ausgegeben werden und sind damit einfach verwendbar auf mobilen Endgeräten wie iPhone, … „Neu: SPSS 22 erhältlich“ weiterlesen

SPSS Modeler – Automatische Datenvorbereitung: Was passiert da?

Der SPSS Modeler, die High-End-Statistik-Lösung von IBM SPSS, wartet mit einem vielversprechenden Knoten für die Datenvorbereitung auf: der Automatischen Datenvorbereitung (ADP, Automatic Data Preparation). Datenvorbereitung ist oft der zeitaufwändigste Arbeitsschritt Wer sich schon mal intensiver mit Datenauswertung oder data mining beschäftigt hat, hat sehr wahrscheinlich die Erfahrung gemacht, dass die Datenvorbereitung oft der zeitintensivste Arbeitsschritt … „SPSS Modeler – Automatische Datenvorbereitung: Was passiert da?“ weiterlesen

SPSS 19 liefert falsche Ergebnisse ohne Patch 002

Offenbar wurde SPSS 19 mit einem Fehler ausgeliefert, der zumindest beim Kruskal-Wallis-Test zu falschen Ergebnissen führt. Eine Anwenderin berichtete auf Linked In (Gruppe: SPSS Users), dass Sie die gleichen Berechnungen zu Hause und in der Universität durchführte. Die Unterschiede in den p-Werten sind erheblich und führen zum Teil zu unterschiedlichen Schlussfolgerungen. Beispiele: Universität: p=0,14 (nicht … „SPSS 19 liefert falsche Ergebnisse ohne Patch 002“ weiterlesen

Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen

Angenommen, Sie betreiben Marktforschung für eine Ladenkette, die Kühlschränke verkauft. Ihr Auftrag lautet, zwei Kundengruppen hinsichtlich ihres Kaufinteresses zu vergleichen. Sie erhalten folgende Kreuztabelle: Es gibt zwar gewisse Unterschiede zwischen den Kundengruppen (hier vereinfacht mit 0 und 1 bezeichnet), diese sind laut Chi-Quadrat-Test jedoch nicht signifikant (p=0,102). Ist der Auftrag damit bereits erledigt? Neu: Der … „Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen“ weiterlesen

SPSS Modeler Premium 15: Was ist neu?

IBM SPSS Modeler Premium enthält alles, was SPSS Modeler Professional (früher: Clementine) kann, sowie zusätzlich Text Mining. Neu sind zwei Zusatzpakete: Entity analytics Im Zeitalter von Big Data, den großen Datenmengen, besteht eine zentrale Herausforderung darin, Daten aus recht unterschiedlichen Quellen zu verbinden. Üblicher Weise funktioniert dies nur mit einem gemeinsamen Schlüssel – der jedoch … „SPSS Modeler Premium 15: Was ist neu?“ weiterlesen

Benutzerdefinierte Tabellen: Beschriftungen variieren

Im heutigen Artikel möchte ich Möglichkeiten aufzeigen, wie man mit SPSS Beschriftungen in benutzerdefinierten Tabellen variieren kann. Erstes Beispiel: Unterbefehl SLABLES Angenommen, wir haben eine Variable Q4, die darüber Auskunft gibt, wie oft im Jahr ein Hundebesitzer mit Hund verreist. Wir möchten Minimum, Maximum, Mittelwert, Standardabweichung und die Fallzahl ermitteln, und zwar aufgeschlüsselt nach Geschlecht, … „Benutzerdefinierte Tabellen: Beschriftungen variieren“ weiterlesen

Moderne (Online-) Marktforschung: Von „Big Data“ zu „Data Integration“

Einige Stichpunkte zu aktuellen Trends und Herausforderungen der Marktforschung speziell im Kontext der Online-Befragungen: Befragungen werden zunehmend auf mobilen Endgeräten durchgeführt; Zahl der Befragten, die per Smartphone oder Tablet auf CAWI-Seiten (Computer Assisted Web Interviewing) zugreifen, hat sich von 2011 auf 2012 vervierfacht; aktueller Anteil mobiler Endgeräte an den Befragungen von Lightspeed Research: 5% technische … „Moderne (Online-) Marktforschung: Von „Big Data“ zu „Data Integration““ weiterlesen

SPSS 21 ist da – was ist neu?

Was hat das neue IBM SPSS Statistics 21 zu bieten? Sicherheit: Passwortschutz für Daten und Ausgaben Beschleunigung: besonders bei großen Tabellen Verbesserungen: Datenmanagement – Vergleichen von Datensets vereinfachtes Zusammenführen von Dateien bessere Pivot-Tabellen erweiterte Client/Server-Technologie (Administration, Skalierbarkeit, Stabilität) Java Plugin Integration mit IBM Cognos (Datenimport aus Cognos Business Intelligence) Monte-Carlo-Simulationen Dieser Beitrag ist ein Update … „SPSS 21 ist da – was ist neu?“ weiterlesen

Wie ermittelt man Konfidenzintervalle für relative (prozentuale) Anteile?

Das Konfidenzintervall ist ein Vertrauensbereich: mit der angegebenen Wahrscheinlichkeit liegt der „wahre“ Wert in diesem Bereich. Bei metrischen Variablen dürften Konfidenzintervalle üblicher und vertrauter sein als bei kategorialen. So liefert SPSS beispielsweise beim t-Test für unabhängige Stichproben das 95%-Konfidenzintervall der Differenz automatisch mit. Doch wie sieht es aus bei kategorialen Variablen? Nehmen wir als Beispiel … „Wie ermittelt man Konfidenzintervalle für relative (prozentuale) Anteile?“ weiterlesen