Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen

Entscheidungsbaum

Kundensegmentierung ist eine häufige Anforderung bei Marktforschungsprojekten. Typische Fragen sind: Wie lassen sich meine Kunden in Gruppen einteilen? Nach welchen Kriterien unterscheiden sich diese Gruppen? Welche Kriterien sind überhaupt geeignet, um Kunden zu differenzieren? Findet man überzeugende Antworten auf diese Fragen, dann kann man unterschiedliche Kundentypen unterschiedlich ansprechen, was in vielen Fällen zu erfolgreicheren Kampagnen führt.

Eine einfache und meines Erachtens immer noch weit verbreitete Methode besteht darin, vorab bestimmte Kriterien festzulegen und dann alle Fragen nach diesen Merkmalen zu „kreuzen“. Beispielsweise fragt man nach der Bereitschaft, ein bestimmtes Produkt zu kaufen, und schlüsselt die Antworten nach Altersgruppen, Geschlecht und Wohngebiet auf. Vorteil dieser Methode ist die einfache Anwendbarkeit. Nachteil ist mangelnde Flexibilität: möglicher Weise entgehen dem Forscher relevante Unterschiede. Das kann passieren, wenn ein wichtiges Merkmal nicht zur Kreuztabellierung ausgewählt wurde. Es kann auch bei ausgewählten Merkmalen vorkommen, z. B. bei Altersgruppen: nehmen wir an, es gibt die Gruppen 21-30 Jahre und 31-40 Jahre. Vielleicht unterscheiden sich gerade Kunden Anfang 30 von Enddreißigern – das wäre in den Ergebnistabellen nicht erkennbar, da beide in derselben Gruppe zusammengefasst sind.

Eine elegante Alternative besteht im Einsatz von sogenannten Entscheidungsbäumen (decision trees). Der Forscher gibt ein Zielkriterium vor – ich verwende hier mal das Beispiel „Kinderlosigkeit“. Datengrundlage ist ein SPSS-Beispieldatensatz (survey_sample.sav). Ich habe die Anzahl der Kinder zusammengefasst in „kinderlos“ und „mindestens ein Kind“. Nun will ich wissen, ob der Ehestatus, die Häufigkeit des Zeitungslesens und die Stunden des täglichen TV-Konsums dazu taugen, Kinderlose von Eltern zu unterscheiden. Hier das Ergebnis einer Entscheidungsbaum-Analyse:



Entscheidungsbaum

Der Algorithmus (hier: Exhaustives CHAID, ein Chi-Quadrat-basiertes Verfahren) erstellt eine Baumstruktur mit sogenannten „Knoten“. Durch das Rechenverfahren ist sichergestellt, dass die Verzweigungen auf statistisch signifikanten Unterschieden beruhen. Das Zeitungslesen taucht gar nicht auf, d. h. es ist (zumindest in diesem Datensatz) kein statistisch relevantes Unterscheidungsmerkmal zwischen Kinderlosen und Eltern. Insgesamt sind 28,1% der hier betrachteten Stichprobe kinderlos (Knoten 0). Dass der Ehestatus eine große Rolle spielt, dürfte nicht arg überraschen. Gut drei Viertel derjenigen, die nie verheiratet waren (75,5%; Knoten 1) sind kinderlos; bei den Verheirateten (inkl. Getrennt, Geschieden, Verwitwet) sind es dagegen nur 13,8% (Knoten 2).

Auf der zweiten Ebene kommt der tägliche TV-Konsum ins Spiel, um die nie Verheirateten weiter zu differenzieren. Mit einer kausalen Interpretation wäre ich vorsichtig, interessant ist der Befund allemal: Befragte, die mehr als zwei Stunden täglich fernsehen, sind seltener kinderlos (67,5%; Knoten 4) als Befragte, die maximal zwei Stunden täglich fernsehen (82,7%; Knoten 3).

Vorteile der Entscheidungsbäume:

  • schnell anwendbar
  • anschauliche Interpretation anhand verständlicher Entscheidungsregeln; d. h. man kann die Ergebnisse gut an statistische Laien vermitteln
    (die Regeln können übrigens separat als Text abgerufen werden)
  • Man kommt mit relativ wenigen Zahlen zu aussagekräftigen Ergebnissen; es wird kein „Wust“ an Tabellen benötigt, in denen man „die Nadel im Heuhaufen“ suchen muss
  • wie oben angedeutet: die Verzweigungen stehen für statistisch signifikante Unterschiede („objektives“ Kriterium vs. willkürliches Herausgreifen durch den Forscher)
  • bei metrischen Variablen ermittelt das Verfahren automatisch eine geeignete „Trennlinie“ (cut point); im Beispiel oben: Fernsehkonsum in Stunden
  • Man kann die Ergebnisse als Basis für weitere Analysen einsetzen (auch einfache Tabellierungen) oder für sich stehend verwenden

Der IBM SPSS Modeler verfügt über einen CHAID-Knoten, mit dem man dieses Verfahren einfach grafisch in den Analysestream einbauen kann. SPSS Statistics beherrscht Entscheidungsbäume ebenfalls. In Stata habe ich keine Möglichkeit gesehen, Entscheidungsbäume zu erstellen – weiß jemand mehr?




3 Gedanken zu „Kundensegmentierung: Entscheidungsbaum als Alternative / Ergänzung zu Kreuztabellen“

Freue mich über Kommentare!