CRISP-DM: Ein Standard-Prozess-Modell für Data Mining

CRISP-DM steht für CRoss-Industry Standard Process for Data Mining. Dieses branchenübergreifende Prozess-Modell wurde ab 1996 im Rahmen eines EU-Förderprojekts entwickelt, und zwar von so namhaften Teilnehmern wie DaimlerChrysler (damals noch Daimler-Benz) und SPSS (damals ISL). Es ist nicht eigentumsrechtlich geschützt. Update: Der neuere Standard heißt ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics). Es … „CRISP-DM: Ein Standard-Prozess-Modell für Data Mining“ weiterlesen

Seriöse Marktforschung vs. Werbung / Verkaufsförderung

Kürzlich flatterte ein Schreiben ins Haus, überschrieben mit „ExperteN Befragung 2012“. Darunter heißt es: Wichtige Meinungsumfrage! Ihre Teilnahme wird belohnt – gleich öffnen und profitieren! Zum Thema Dresden – ein wieder auferstandenes Elbflorenz? werden immerhin 8 geschlossene Fragen präsentiert, die schnell durch Ankreuzen beantwortet werden können. Zur Belohnung gibt es ein persönliches Dankeschön-Paket – und jetzt … „Seriöse Marktforschung vs. Werbung / Verkaufsförderung“ weiterlesen

Scheinkorrelation vs. intervenierende Variable

In anderen Artikeln habe ich bereits auf Scheinkorrelationen hingewiesen, z. B. den statistischen Klassiker: Je mehr Störche es in einer Region gibt, desto mehr Kinder gibt es dort auch. Typisch für eine Scheinkorrelation ist: betrachtet man lediglich den Zusammenhang zwischen zwei Variablen, ohne auf weitere Merkmale zu achten, so ist dieser statistisch bedeutsam. Die Gültigkeit … „Scheinkorrelation vs. intervenierende Variable“ weiterlesen

Gewichtung mit SPSS Syntaxbeispiel

Nehmen wir an, bei einer Umfrage haben 70% Frauen und 30% Männer teilgenommen. In der Grundgesamtheit (z. B. Gesamtbevölkerung) sind die Geschlechter jedoch gleichmäßig verteilt, also 50/50. Möchte man nun eine Gleichverteilung erreichen, so kann man den Datensatz gewichten. Männer werden etwas höher gewichtet, Frauen etwas niedriger. Eine Häufigkeitsverteilung mit aktivierter Gewichtung zeigt dann das … „Gewichtung mit SPSS Syntaxbeispiel“ weiterlesen

SPSS Syntaxbeispiel: Schleifen

Aufgabe: Aus 10 Variablen Rohwert1 bis Rohwert10 sollen 10 neue Variablen berechnet werden, z. B. normierte Werte Normbereich1 bis Normbereich10. Die Umformungsvorschrift laute: Rohwerte von 0-10 erhalten Normbereich 1, Werte von 11-15 Normbereich 2, Werte von 16 bis 18 Normbereich 3. Einfache Lösung: Viele SPSS-Befehle an einander reihen: if Rohwert1 < 11 Normbereich1 = 1. if Rohwert1 >10 … „SPSS Syntaxbeispiel: Schleifen“ weiterlesen

Faktor / Faktoren

Faktor in der Alltagssprache Der Begriff Faktor ist aus der Alltagssprache geläufig. Z. B. lese ich in einem empfehlenswerten Zeit-Artikel von Harald Martenstein, „Die Taktik des Beleidigens“, den Satz: „Man kann sagen, dass Beleidigungen im Fußball ein spielentscheidender Faktor geworden sind.“ (Hinweis auf das WM-Finale 2006 und Zidanes Platzverweis.) Ein Faktor ist somit eine Ursache, … „Faktor / Faktoren“ weiterlesen

Stata do-file: Schleifen

Aufgabenstellung: Setze v2_1 bis v2_10 auf missing, wenn v1=0. Einfache Lösung: 10 Befehle aneinander reihen, z. B. so: replace v2_1=. if v1==0 replace v2_2=. if v1==0 replace v2_3=. if v1==0 … replace v2_10. if v1==0 Eleganter geht es mit einer Schleife: foreach var in v2_* { replace `var’=. if v1==0 } So wird das do-file … „Stata do-file: Schleifen“ weiterlesen

SPSS Syntaxbeispiel: Makros für Regressionsanalysen

Aufgabenstellung: Eine Reihe von Einzelregressionen mit jeweils einer unabhängigen Variablen berechnen. Einfache Lösung: Für jede unabängige Variable die Regressionssyntax anlegen. Z. B. so: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT AV /METHOD=enter UV1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT AV /METHOD=enter UV2. Und so weiter … „SPSS Syntaxbeispiel: Makros für Regressionsanalysen“ weiterlesen

Signifikanz

Ähnlich wie der Begriff Repräsentativität ist auch der Begriff Signifikanz nur sinnvoll anwendbar, wenn ein statistisches Ergebnis aus einer Stichprobe auf eine Grundgesamtheit verallgemeinert werden soll. Statistische Signifikanz liegt dann vor, wenn die Irrtumswahrscheinlichkeit nicht über einem festgelegten Niveau liegt. Findet man z. B. einen positiven Zusammenhang (Korrelation) zwischen Alter und Einkommen (je älter ein … „Signifikanz“ weiterlesen

SPSS Modeler: Maschinenlernen vs. Statistische Modelle

Statistische Modelle beruhen auf mathematische Gleichungen, wobei ein Algorithmus die vorgegebenen Parameter schätzt. Moderner und flexibler sind Techniken zum Maschinenlernen. Sie werden auf Basis minimaler Anforderungen an die Modellstruktur und minimalen Annahmen für das Modell berechnet. Die Form der Beziehungen wird während des Lernprozesses bestimmt. Beispiel: Lineare Regression vs. Neuronales Netzwerk (Neural Network) Falls sich … „SPSS Modeler: Maschinenlernen vs. Statistische Modelle“ weiterlesen