Praxisbeispiel | Statistik Dresden

Stata do-file: Schleifen

Aufgabenstellung: Setze v2_1 bis v2_10 auf missing, wenn v1=0. Einfache Lösung: 10 Befehle aneinander reihen, z. B. so: replace v2_1=. if v1==0 replace v2_2=. if v1==0 replace v2_3=. if v1==0 … replace v2_10. if v1==0 Eleganter geht es mit einer Schleife: foreach var in v2_* { replace `var’=. if v1==0 } So wird das do-file … „Stata do-file: Schleifen“ weiterlesen

SPSS Syntaxbeispiel: Makros für Regressionsanalysen

Aufgabenstellung: Eine Reihe von Einzelregressionen mit jeweils einer unabhängigen Variablen berechnen. Einfache Lösung: Für jede unabängige Variable die Regressionssyntax anlegen. Z. B. so: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT AV /METHOD=enter UV1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT AV /METHOD=enter UV2. Und so weiter … „SPSS Syntaxbeispiel: Makros für Regressionsanalysen“ weiterlesen

Signifikanz

Ähnlich wie der Begriff Repräsentativität ist auch der Begriff Signifikanz nur sinnvoll anwendbar, wenn ein statistisches Ergebnis aus einer Stichprobe auf eine Grundgesamtheit verallgemeinert werden soll. Statistische Signifikanz liegt dann vor, wenn die Irrtumswahrscheinlichkeit nicht über einem festgelegten Niveau liegt. Findet man z. B. einen positiven Zusammenhang (Korrelation) zwischen Alter und Einkommen (je älter ein … „Signifikanz“ weiterlesen

SPSS Modeler: Maschinenlernen vs. Statistische Modelle

Statistische Modelle beruhen auf mathematische Gleichungen, wobei ein Algorithmus die vorgegebenen Parameter schätzt. Moderner und flexibler sind Techniken zum Maschinenlernen. Sie werden auf Basis minimaler Anforderungen an die Modellstruktur und minimalen Annahmen für das Modell berechnet. Die Form der Beziehungen wird während des Lernprozesses bestimmt. Beispiel: Lineare Regression vs. Neuronales Netzwerk (Neural Network) Falls sich … „SPSS Modeler: Maschinenlernen vs. Statistische Modelle“ weiterlesen

Mehrfachantworten richtig interpretieren

Abteilungsleiter Marktforschung (nimmt sich extra Zeit, setzt einen geduldigen Blick auf): Bei dieser Frage gibt es Mehrfachantworten. Ich habe bisher noch niemanden erlebt, der das beim ersten Mal richtig gemacht hat. Praktikant (hoch motiviert): Ich glaube, ich habe das Prinzip verstanden! Abteilungsleiter: Na, dann legen Sie mal los. Formulieren Sie einen Satz mit den Prozentangaben … „Mehrfachantworten richtig interpretieren“ weiterlesen

Logistische Regression: R²

Für logistische Regressionsmodelle wurde eine Vielzahl von Gütemaßen entwickelt: z. B. McFadden’s Pseudo-R², McKelvey & Zavoina’s R², ML (Cox-Snell) R², Cragg-Uhler (Nagelkerke) R², nicht adjustiertes Count R², Akaike’s Information Criterion (AIC), Bayesian Information Criterion (BIC). Im Gegensatz zur linearen Regression gibt es jedoch kein Maß mit einer ähnlich eindeutigen Interpretation im Sinne erklärter Varianz, und … „Logistische Regression: R²“ weiterlesen

Fehlwerte: Mittelwertsberechnung per SPSS-Syntax

Wie kann man in SPSS einen Mittelwert aus 3 Items berechnen? Ganz einfach: compute mittelwert1=(frage1 + frage2 + frage3)/3. execute. Angenommen, der Datensatz besteht nur aus einer Person, die z. B. so geantwortet hat: Frage 1: 3 Frage 2: 4 Frage 3: keine Angabe (=missing value, k. A.) Dann liefert SPSS für diese Person keinen … „Fehlwerte: Mittelwertsberechnung per SPSS-Syntax“ weiterlesen

Korrelation und Wirkungsrichtung: Markenimage und Marktanteil

Befunde von Korrelationsanalysen können auf mehrere Arten falsch interpretiert werden. In früheren Artikeln habe ich bereits auf Scheinkorrelationen, verdeckte Korrelationen und Kausalinterpretationen hingewiesen. Eine weitere Möglichkeit bietet die Frage nach der Wirkungsrichtung. Korrelationsanalysen sind symmetrisch – A korreliert mit B genau so stark wie B mit A. In welcher Richtung der Einfluss tatsächlich ausgeübt wird, … „Korrelation und Wirkungsrichtung: Markenimage und Marktanteil“ weiterlesen

Regressionsmodelle: R², Zielsetzung / Denkmodelle

Meines Erachtens gibt es zwei recht unterschiedliche Arten, mit Regressionsmodellen umzugehen. Das „empiristische“ Vorgehen Die erste, die ich wesentlich häufiger antreffe, geht von der Vorstellung aus: Regressionsmodelle sind dafür da, Zusammenhänge möglichst genau zu „erklären“ bzw. möglichst gute Prognosen zu erstellen. In dieser Denkweise ist R² (der erklärte Varianzanteil) das entscheidende Gütemaß. Wenn Studien vorgestellt werden, … „Regressionsmodelle: R², Zielsetzung / Denkmodelle“ weiterlesen

Mein neuer methodischer Lieblings-Fachbegriff: Die „rezeptbasierte Restaurant Kohortenstudie“

Was tun, wenn die Ursache des EHEC-Ausbruch nicht so einfach einzugrenzen ist? Wochenlange epidemiologische Studien des Robert-Koch-Instituts in Zusammenarbeit mit Gesundheits- und Lebensmittelbehörden konnten zwar klären, dass betroffene Patienten signifikant häufiger rohe Tomaten, Salatgurken und Blattsalate verzehrt hatten als gesunde Studienteilnehmer. Eine genauere Eingrenzung der Gemüsesorten gelang jedoch nicht. Die „rezeptbasierte Restaurant Kohortenstudie“ In diesem … „Mein neuer methodischer Lieblings-Fachbegriff: Die „rezeptbasierte Restaurant Kohortenstudie““ weiterlesen