In Data Mining Projekten ist es nicht unwahrscheinlich, dass der Forscher mit einer Vielzahl, vielleicht hunderten oder sogar tausenden, Variablen konfrontiert wird. Wenn klare Vorgaben, zum Beispiel auf Basis einer gut etablierten Theorie, fehlen, kann die Merkmalsauswahl für die Modellbildung ein sehr zeitaufwändiger Prozess sein (vgl. CRISP-DM Prozess = Cross Industry Standard Process for Data Mining).
Der SPSS Modeler bietet eine verlockende Abhilfe: den Merkmalsauswahlknoten (englisch Feature Selection). Wie beim Modeler üblich, enthält das Lernprogramm ein einfaches Beispiel, um die Funktionsweise zu illustrieren.
Beispiel-Stream für den Merkmalsauswahlknoten (Feature Selection)
Es werden zwei CHAID-Entscheidungsbäume erstellt: ein Mal mit allen verfügbaren Prädiktoren, ein Mal mit den Top 10 Prädiktoren, die der Merkmalsauswahlknoten bestimmt hat. Ein Modellvergleich zeigt anhand des „Lift“ (Gewinns)*, dass der Entscheidungsbaum mit der vorselektierten Auswahl an Prädiktoren nur geringfügig schwächer ausfällt als das wesentlich aufwändiger zu berechnende Modell mit allen Prädiktoren. (Die Übersetzung gehört in die Kategorie „weniger gelungen“: oben mit 10 Feldern heißt im englischen Original: Using Top 10 Fields.)
* Der „Lift“ gibt an, mit wie viel höherer Wahrscheinlichkeit Datensätze in einem bestimmten Knoten in die Zielkategorie fallen im Vergleich zu allen Datensätzen. Beispielsweise kann eine Marketingkampagne anhand des Lifts optimiert werden, sodass nur Kunden angesprochen werden, die eine besonders hohe Antwortwahrscheinlichkeit aufweisen.
Wie arbeitet die Merkmalsauswahl? Ein Blick ins Algorithmus-Handbuch
Ähnlich wie bei der Automatischen Datenvorbereitung verrät das Lernbeispiel nur sehr wenig darüber, was „hinter den Kulissen“ passiert, d. h. wie der Algorithmus arbeitet. Dazu lohnt sich wiederum ein Blick in das Algorithmus-Handbuch (Algorithms Guide).
Die Merkmalsauswahl lässt sich grob in drei Arbeitsschritte einteilen:
- Screening (etwa: Vorauswahl): Ausschluss unwichtiger oder problematischer Fälle (Datensätze, Befragte, …) und Prädiktoren (Variablen)
- Ranking: Festlegung einer absteigenden Reihenfolge für die verbleibenden Prädiktoren
- Selecting: Auswahl der wichtigsten Prädiktoren für die spätere Modellierung
1. Screening: Kriterien für die Vorauswahl
Variablen werden generell nach folgenden Kriterien ausgeschlossen:
- wenn sie durchgängig Fehlwerte aufweisen
- wenn sie nur eine Konstante enthalten (alle Fälle weisen den gleichen Wert auf)
- wenn es sich um eine ID (Identifizierungsvariable) handelt, z. B. eine Fragebogen- oder Fall-Nummer
Folgende Kriterien sind einstellbar:
- Schwellenwert für den maximal erlaubten Anteil an Fehlwerten
(Voreinstellung: 70%) - Schwellenwert für den maximal erlaubten Anteil einer einzelnen Kategorie (Voreinstellung: 90%)
- maximale Anzahl Kategorien, ausgedrückt in Prozent der Datensätze (Voreinstellung: 95%)
- minimaler Variationskoeffizient (Voreinstellung: 0,1)
- minimale Standardabweichung (Voreinstellung: 0)
2. Ranking: Verfahren, um eine Rangfolge der Prädiktoren aufzustellen
Hier wird jeder Prädiktor separat betrachtet unter der Fragestellung: Wie gut ist er geeignet, um die Zielvariable vorherzusagen (bzw. zu erklären)? Je nach Messniveau kommen dabei unterschiedliche Kriterien zum Einsatz. Die Wichtigkeit wird als 1-p berechnet, wobei p die Irrtumswahrscheinlichkeit des statistischen Tests darstellt (besser bekannt als Signifikanzniveau). Beispiel: Beträgt die Irrtumswahrscheinlichkeit 4% (p=0,04), dann ist die Wichtigkeit 1-0,04 = 0,96. Die maximal erreichbare Wichtigkeit ist somit 1.
a) Kategoriale (=nominalskalierte) Zielvariable
Für den Zusammenhang kategorischer Variablen werden Chi-Quadrat, Cramer’s V und Lambda berechnet. Bei kontinuierlichen (metrischen, stetigen) Prädiktoren legt die Merkmalsauswahl eine F-Statistik zu Grunde (einfaktorielle Varianzanalyse, ANOVA). Kommen beide Arten von Prädiktoren vor, so geht der Algorithmus davon aus, dass die p-Werte der unterschiedlichen Berechnungsvorschriften vergleichbar sind.
b) Kontinuierliche (stetige, metrische) Zielvariable
Bei kategorialen Prädiktoren verwendet die Merkmalsauswahl wiederum die F-Statistik, während für Zusammenhänge stetiger Variablen (Prädiktor und Ziel) der Pearson’sche Korrelationskoeffizient zum Einsatz kommt. Bei gemischten Prädiktoren (also kategorial und stetig) werden die p-Werte wiederum als vergleichbar aufgefasst.
3. Auswahl der Prädiktoren
Um die Anzahl an Prädiktoren zu bestimmen, die in einem späteren Schritt in die Modellierung eingehen, gibt es folgende Möglichkeiten: man kann die Anzahl vorab als festen Wert vorgeben oder eine Mindest-Wichtigkeit bestimmen (siehe oben: berechnet als eins minus Irrtumswahrscheinlichkeit). Will sich der Forscher nicht festlegen, werden alle Prädiktoren anhand ihrer Wichtigkeit eingestuft. Der Modeler bietet dabei neben dem exakten Wichtigkeitswert drei Gruppenkategorien an, deren Gruppengrenzen einstellbar sind: Bedeutsam / Marginal / Unbedeutend. Voreinstellung: Bedeutsam bei einer Wichtigkeit über 0,95, d. h. der Prädiktor ist bei 5% Irrtumswahrscheinlichkeit signifikant; marginal bei 10% Irrtumswahrscheinlichkeit bzw. einer Wichtigkeit über 0,9; alle anderen Prädiktoren gelten als unbedeutend.
Welches Ergebnis liefert die Merkmalsauswahl?
Obwohl der Merkmalsauswahlknoten sich beim Modeler in der Modellpalette befindet, liefert er kein Modell im engeren Sinne. Ergebnis ist vielmehr ein Filter, der Variablen für folgende Modellierungsschritte auswählt. Der Anwender hat die Wahl, nach Wichtigkeitskriterien zu entscheiden (z. B. nur „bedeutsame“ Prädiktoren zu verwenden, siehe oben), eine feste Anzahl an Prädiktoren vorzugeben, einen Schwellenwert der Wichtigkeit zu verwenden, oder die Prädiktoren manuell auszuwählen. Ein typisches Ergebnis der Merkmalsauswahl sieht so aus:
Im oberen Fenster ist der Rang, der Feldname (Variablenname), das Skalenniveau (Messung) sowie die Wichtigkeit ablesbar – als Kategorie (von bedeutsam bis unbedeutend bzw. englisch important, marginal, unimportant) und als Index zwischen 0 und 1. In diesem Beispiel werden 19 von insgesamt 128 verfügbaren Prädiktoren vorgeschlagen; der Forscher kann links neben dem Rang Häkchen setzen, um Prädiktoren auszuwählen.
Im unteren Fenster sind aussortierte Felder dargestellt. Man erkennt unterschiedliche Begründungen: meist ist eine Einzelkategorie zu groß, sodass die Variable nicht gut zwischen den Fällen differenziert und daher nicht gut für Vorhersagen geeignet ist. Bei anderen Variablen liegen zu viele Fehlwerte vor oder der Variationskoeffizient (Varianz bzw. ihre Wurzel, die Standardabweichung) ist zu gering.
Fazit: Ist die Merkmalsauswahl praxistauglich?
Erfahrene Statistiker (Datenanalysten, Data Scientists etc.) sind eventuell skeptisch, wenn die Maschine nun alles selbst macht: Wo bleibt die Intelligenz, die Branchen- und Sachkenntnis des Forschers? Beim Thema Big Data wird manchmal Theorielosigkeit beklagt – oder auch mal begrüßt: mit ausreichend großen Datensätzen und heutiger Rechenpower findet man schon das „beste“ Modell, auch ohne große Vorüberlegungen.
Ich plädiere für eine nüchterne Sichtweise. Meines Erachtens ist die Sachkenntnis des Forschers weiterhin unabdingbar. Auch im Zeitalter von Big Data müssen Ergebnisse sinnvoll interpretiert werden, und es ist weiterhin möglich, unsinnige Modelle aufzustellen und falsche Schlussfolgerungen zu ziehen.
Den Merkmalsauswahlknoten sehe ich als praktisches Werkzeug, das Vorarbeiten erleichtern und Entscheidungshilfen bieten kann. Eine der Stärken des IBM SPSS Modeler besteht darin, dass man mit sehr wenig Aufwand auf einer grafischen Oberfläche verschiedene Modellansätze neben einander stellen und vergleichen kann. Vor allem ist die Merkmalsauswahl hilfreich, wenn es um sehr große Datenmengen oder zeitkritische Prozesse geht. Von der Verantwortung, neben statistischen Kriterien inhaltlich „mitzudenken“, befreit sie nicht. Zum Beispiel ist der Forscher bei ähnlichen und ähnlich wichtigen Prädiktoren gefragt.
Jetzt sind Sie dran: Hat Ihnen der Artikel weitergeholfen? Dann sagen Sie es weiter!
Haben Sie bereits Erfahrungen mit dem Modeler allgemein bzw. mit dem Merkmalsauswahlknoten gemacht? Verwenden Sie andere Tools mit ähnlichen Features?