Das Konfidenzintervall ist ein Vertrauensbereich: mit der angegebenen Wahrscheinlichkeit liegt der „wahre“ Wert in diesem Bereich. Bei metrischen Variablen dürften Konfidenzintervalle üblicher und vertrauter sein als bei kategorialen. So liefert SPSS beispielsweise beim t-Test für unabhängige Stichproben das 95%-Konfidenzintervall der Differenz automatisch mit.
Doch wie sieht es aus bei kategorialen Variablen? Nehmen wir als Beispiel die Marktanteile von 6 Kaffeemarken. Marke AA kommt auf 21,7% (dem SPSS-Beispieldatensatz coffee.sav entnommen). In welchem Konfidenzintervall liegt dieser Anteil?
Hier hilft Bootstrapping, eine sog. Resampling-Methode, die auf Bradley Efron (1979) zurückgeht. Einer Stichprobe wird eine Vielzahl (voreingestellt sind 1.000) von Teilstichproben entnommen, für jede Teilstichprobe wird die Teststatistik berechnet. Aus dieser Menge an Ergebnissen lässt sich das Konfidenzintervall ableiten.
Wie geht das praktisch mit SPSS? Analysieren – Deskriptive Statistiken – Häufigkeiten. Hier gibt es das Schaltfeld „Bootstrap“. Bootstrapping aktivieren, Vertrauensintervall auf 95%-Niveau lassen (je nach Fragestellung und Daten können auch 99% oder sogar 90% sinnvoll sein). Anschließend enthält die Häufigkeitstabelle wie gewünscht das Konfidenzintervall. In unserem Beispiel liegt der Anteil der fiktiven Kaffeemarke AA mit 95-prozentiger Sicherheit im Bereich zwischen 20,6% und 23,0%.
Anmerkung: Bootstrapping bleibt aktiv, bis es wieder deaktiviert wird. Trotz moderner Rechenpower kann es die Analyse spürbar verzögern.
Syntaxbeispiel:
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES INPUT=brand
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
Für eine ausführlichere Diskussion über die Auswahl der geeigneten statistischen Methode siehe den Beitrag Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?
Ein Gedanke zu „Wie ermittelt man Konfidenzintervalle für relative (prozentuale) Anteile?“