Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen

Angenommen, Sie betreiben Marktforschung für eine Ladenkette, die Kühlschränke verkauft. Ihr Auftrag lautet, zwei Kundengruppen hinsichtlich ihres Kaufinteresses zu vergleichen. Sie erhalten folgende Kreuztabelle:

Chi-Quadrat_Kuehlschrank1

Es gibt zwar gewisse Unterschiede zwischen den Kundengruppen (hier vereinfacht mit 0 und 1 bezeichnet), diese sind laut Chi-Quadrat-Test jedoch nicht signifikant (p=0,102). Ist der Auftrag damit bereits erledigt?

Neu: Der Chi-Quadrat-Test im Video

Die Unterschiede sind vor allem in den beiden mittleren Kategorien auffällig (je rund 20 Prozentpunkte), werden jedoch durch die geringen Anteile und Fallzahlen in den Randkategorien „verwässert“. Der Chi-Quadrat-Test arbeitet kategorial, d. h. er berücksichtigt nicht die Rangfolge der Kategorien. Aus methodischer Sicht wäre daher ein Mann-Whitney-U-Test sinnvoller, er bestätigt in diesem Fall auch knapp einen signifikanten Gruppenunterschied (p=0,049). Der ebenfalls denkbare t-Test ist knapp nicht signifikant (p=0,074). Hier möchte ich jedoch bei anschaulichen und für Laien (Kunden!) besser verständlichen Kreuztabellen bleiben. Um den subjektiv empfundenen Gruppenunterschied deutlicher erkennbar zu machen, fasse ich daher die Kategorien „sehr interessiert“ und „ziemlich interessiert“ einerseits sowie „kaum“ und „überhaupt nicht interessiert“ andererseits zusammen. Das sieht so aus:

Chi-Quadrat_Kuehlschrank2

60,6% Interessierte in Gruppe 1 vs. 36,3% Interessierte in Gruppe 0 sprechen für einen relevanten Unterschied, der jetzt auch statistisch bestätigt wird: der Chi-Quadrat-Test liefert mit p=0,015 ein klar signifikantes Ergebnis (auf dem üblichen Niveau einer Irrtumswahrscheinlichkeit von 5%).

In diesem Zusammenhang ist mir der Hinweis wichtig, dass Recodierungen wie die hier vorgenommene Zusammenfassung von Gruppen inhaltlich begründet sein sollten und nicht vorrangig der Suche nach signifikanten Ergebnissen entspringen sollten. Im vorliegenden Beispiel erscheint mir die Zuordnung anhand der sprachlichen Formulierungen angemessen. Bei seriöser Forschung wird das Vorgehen inkl. des ersten Testergebnisses und der dahinter stehenden Überlegungen nachvollziehbar dokumentiert.

Für eine ausführlichere Diskussion über die Auswahl der geeigneten statistischen Methode siehe den Beitrag Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?

9 Gedanken zu „Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen“

  1. Guten Tag,

    ich habe zwei Gruppen (m, w) und das Merkmal BMI. Ich wollte zunächst einmal testen, ob es einen Unterschied zwischen den Gruppen und dem BMI gibt. Das habe ich mit einem t-Test gemacht. Jetzt habe ich aber noch den BMI in HOCH, NORMAL und NIEDRIG eingeteilt und würde hier einen Chi^2 – Test machen. Ich schätze, dass dieser Test mir ein ähnliches Ergebnis wie der t-Test ausspucken würde (Habe es noch nicht verglichen). Was mich allerdings viel mehr interessiert ist, ob es z.B. einen signifikanten Unterschied in der Merkmalsausprägung HOCH gibt. Wie kann ich also einen Unterschied zwischen den Gruppen bzgl. der unterschiedlichen Merkmalsausprägungen testen? Kann ich hier einen t-Test mit Alpha-Korrektur anwenden oder welcher Test ist hier angemessen?

    Viele Grüße

    1. Chi² betrachtet die Gruppen kategorial, d. h. der Test berücksichtigt nicht, dass es eine Rangfolge von niedrig über normal bis hoch gibt. Anders ausgedrückt, die Sortierung der Kategorien ist beim Chi²-Test beliebig.
      Chi² fände ich passender, wenn es nur zwei Gruppen gibt (z. B. HOCH vs. NIEDRIG bzw. HOCH vs. NICHT HOCH).
      Wenn es um den relativen Anteil von HOCH (in Prozent) geht, kann man den Anteil der einen Gruppe nehmen (fiktiv: Frauen 10% HOCH) und den Männeranteil HOCH per Binomialtest mit diesem Wert vergleichen.

  2. Hallo Herr Riepl,
    der Beitrag ist zwar schon etwas älter, aber erleichtert mich gerade ungemein. Ich habe drei verschiedene (und verschieden große) Stichproben (ca. 40, ca. 100 und ca. 200 Personen), für die ich vergleichen möchte, ob sich ihre Geschlechterzusammensetzung bedeutsam voneinander unterscheidet, oder nicht.

    Für die Variable „Geschlecht“ gibt es jeweils die vier Möglichkeiten w, m, d, keine Angabe. Ich habe also 3×4 Zellen. Wenn ich Sie richtig verstehe, kann ich die Gleichheit bzw. Unterschiedlichkeit der Stichproben mit einem einzigen Chi-Quadrat-Test prüfen.

    Ich war schon am Verzweifeln, weil ich dachte, ich müsste die Werte zur besseren Vergleicbarkeit erst in Prozente umrechnen, aber dann könnte ich ja keinen Chi-Quadrat-Test mehr rechnen.

    1. Hallo Frau Meier-Credner,
      ja, ich denke hier passt ein Chi-Quadrat-Test. Ich würde noch überlegen, ob die „keine Angabe“ als gültige Kategorie erscheinen sollen oder von der Analyse ausgeschlossen werden sollen. Das ist eine inhaltliche Entscheidung, bei der es meines Erachtens aus rein statistischer Sicht kein Richtig oder Falsch gibt.

    1. Hallo Herr Götzl,
      die Berechnung erfolgt auf Basis der Abweichungen zwischen erwarteten und beobachteten Häufigkeiten. Die erwarteten Häufigkeiten entsprechen der Gesamtverteilung (z. B. 31,5% bei „ziemlich interessiert“). Die beobachteten Häufigkeiten weichen mehr oder weniger stark davon ab. Die Prüfsumme, die aus den Abweichungen ermittelt wird, ist (bei ausreichenden Fallzahlen) annähernd Chi-Quadrat-verteilt.

  3. Danke für den Hinweis!
    Bei der Frage, ob der t-Test angewendet werden darf, denke ich gern an Jürgen Bortz, der mit dem Hinweis auf Monte-Carlo-Studien argumentiert, der Test reagiere auf Verletzungen seiner Voraussetzungen relativ robust.
    Genauer bin ich hier darauf eingegangen:
    T-Test oder U-Test?

  4. Ja, ich kann die Vorgehensweise der Zusammenfassung von Gruppen wie hier beschrieben nur unterstützen.
    Zur Anwendung des t-Tests auf diese Daten fehlt mir allerdings der Hinweis darauf, dass die Daten dann annähernd normalverteilt sein sollten, was hier wohl eher nicht der Fall sein wird.

Freue mich über Kommentare!

Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.