Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen

Chi-Quadrat_Kuehlschrank2

Angenommen, Sie betreiben Marktforschung für eine Ladenkette, die Kühlschränke verkauft. Ihr Auftrag lautet, zwei Kundengruppen hinsichtlich ihres Kaufinteresses zu vergleichen. Sie erhalten folgende Kreuztabelle:

Chi-Quadrat_Kuehlschrank1

Es gibt zwar gewisse Unterschiede zwischen den Kundengruppen (hier vereinfacht mit 0 und 1 bezeichnet), diese sind laut Chi-Quadrat-Test jedoch nicht signifikant (p=0,102). Ist der Auftrag damit bereits erledigt?

Neu: Der Chi-Quadrat-Test im Video

 



Die Unterschiede sind vor allem in den beiden mittleren Kategorien auffällig (je rund 20 Prozentpunkte), werden jedoch durch die geringen Anteile und Fallzahlen in den Randkategorien „verwässert“. Der Chi-Quadrat-Test arbeitet kategorial, d. h. er berücksichtigt nicht die Rangfolge der Kategorien. Aus methodischer Sicht wäre daher ein Mann-Whitney-U-Test sinnvoller, er bestätigt in diesem Fall auch knapp einen signifikanten Gruppenunterschied (p=0,049). Der ebenfalls denkbare t-Test ist knapp nicht signifikant (p=0,074). Hier möchte ich jedoch bei anschaulichen und für Laien (Kunden!) besser verständlichen Kreuztabellen bleiben. Um den subjektiv empfundenen Gruppenunterschied deutlicher erkennbar zu machen, fasse ich daher die Kategorien „sehr interessiert“ und „ziemlich interessiert“ einerseits sowie „kaum“ und „überhaupt nicht interessiert“ andererseits zusammen. Das sieht so aus:

Chi-Quadrat_Kuehlschrank2

60,6% Interessierte in Gruppe 1 vs. 36,3% Interessierte in Gruppe 0 sprechen für einen relevanten Unterschied, der jetzt auch statistisch bestätigt wird: der Chi-Quadrat-Test liefert mit p=0,015 ein klar signifikantes Ergebnis (auf dem üblichen Niveau einer Irrtumswahrscheinlichkeit von 5%).

In diesem Zusammenhang ist mir der Hinweis wichtig, dass Recodierungen wie die hier vorgenommene Zusammenfassung von Gruppen inhaltlich begründet sein sollten und nicht vorrangig der Suche nach signifikanten Ergebnissen entspringen sollten. Im vorliegenden Beispiel erscheint mir die Zuordnung anhand der sprachlichen Formulierungen angemessen. Bei seriöser Forschung wird das Vorgehen inkl. des ersten Testergebnisses und der dahinter stehenden Überlegungen nachvollziehbar dokumentiert.

Douglas Adams hatte nur fast Recht. Die korrekte Antwort lautet: p=0,042**

5 Gedanken zu „Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen“

    1. Hallo Herr Götzl,
      die Berechnung erfolgt auf Basis der Abweichungen zwischen erwarteten und beobachteten Häufigkeiten. Die erwarteten Häufigkeiten entsprechen der Gesamtverteilung (z. B. 31,5% bei „ziemlich interessiert“). Die beobachteten Häufigkeiten weichen mehr oder weniger stark davon ab. Die Prüfsumme, die aus den Abweichungen ermittelt wird, ist (bei ausreichenden Fallzahlen) annähernd Chi-Quadrat-verteilt.

  1. Danke für den Hinweis!
    Bei der Frage, ob der t-Test angewendet werden darf, denke ich gern an Jürgen Bortz, der mit dem Hinweis auf Monte-Carlo-Studien argumentiert, der Test reagiere auf Verletzungen seiner Voraussetzungen relativ robust.
    Genauer bin ich hier darauf eingegangen:
    T-Test oder U-Test?

  2. Ja, ich kann die Vorgehensweise der Zusammenfassung von Gruppen wie hier beschrieben nur unterstützen.
    Zur Anwendung des t-Tests auf diese Daten fehlt mir allerdings der Hinweis darauf, dass die Daten dann annähernd normalverteilt sein sollten, was hier wohl eher nicht der Fall sein wird.

Freue mich über Kommentare!