CRISP-DM steht für CRoss-Industry Standard Process for Data Mining. Dieses branchenübergreifende Prozess-Modell wurde ab 1996 im Rahmen eines EU-Förderprojekts entwickelt, und zwar von so namhaften Teilnehmern wie DaimlerChrysler (damals noch Daimler-Benz) und SPSS (damals ISL). Es ist nicht eigentumsrechtlich geschützt.
Update: Der neuere Standard heißt ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics).
Es werden sechs Phasen in Data Mining-Projekten unterschieden, wobei man sich diese Phasen nicht als einmaligen, sequentiellen Ablauf vorstellen sollte. Häufig muss zwischen verschiedenen Phasen hin- und her gewechselt werden.
Die Phasen sind:
- Business Understanding (Geschäftsverständnis): Festlegung der Ziele und Anforderungen; Ableitung der konkreten Aufgabenstellung und der groben Vorgehensweise
- Data Understanding (Datenverständnis): Datensammlung bzw. erste Sichtung der zur Verfügung stehenden Daten; Ermittlung möglicher Probleme mit Datenqualität
- Data Preparation (Datenvorbereitung): Konstruktion des finalen Datensatzes für die Modellierung
- Modeling (Modellierung): Anwendung geeigneter Data Mining-Verfahren, Optimierung der Parameter; gewöhnlich Ermittlung mehrerer Modelle
- Evaluation (Evaluierung): Auswahl des Modells, das die Aufgabenstellung am besten erfüllt. Sorgfältiger Abgleich mit der Aufgabenstellung.
- Deployment (Bereitstellung): Aufbereitung und Präsentation der Ergebnisse; evtl. Integration des Modells in einen Entscheidungsprozess des Auftraggebers
Vor allem die Datenvorbereitung sollte nicht unterschätzt werden – oft ist sie der zeitaufwändigste Schritt in Data Mining Projekten!
Der SPSS Modeler unterstützt den Anwender dabei, sich am CRISP-DM Prozess zu orientieren. Er bietet ein Verfahren, Projekte anhand dieses Modells zu organisieren. So können Dateien, auch SPSS-externe Dokumente, der passenden Phase zugeordnet werden. Zudem gibt es ein spezielles CRISP-DM-Hilfesystem.
Literatur (Hinweis: bezahlte Links):
Von Data Mining bis Big Data: Handbuch für die industrielle Praxis
4 Gedanken zu „CRISP-DM: Ein Standard-Prozess-Modell für Data Mining“