CRISP-DM: Ein Standard-Prozess-Modell für Data Mining

Die sechs Phasen des CRISP DM (Prozessdiagramm)

CRISP-DM steht für CRoss-Industry Standard Process for Data Mining. Dieses branchenübergreifende Prozess-Modell wurde ab 1996 im Rahmen eines EU-Förderprojekts entwickelt, und zwar von so namhaften Teilnehmern wie DaimlerChrysler (damals noch Daimler-Benz) und SPSS (damals ISL). Es ist nicht eigentumsrechtlich geschützt.

Update: Der neuere Standard heißt ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics).

Die sechs Phasen des CRISP DM (Prozessdiagramm)
Die sechs Phasen des CRISP DM
Urheber: Kenneth Jensen; Quelle: Wikipedia

Es werden sechs Phasen in Data Mining-Projekten unterschieden, wobei man sich diese Phasen nicht als einmaligen, sequentiellen Ablauf vorstellen sollte. Häufig muss zwischen verschiedenen Phasen hin- und her gewechselt werden.

Die Phasen sind:

  1. Business Understanding (Geschäftsverständnis): Festlegung der Ziele und Anforderungen; Ableitung der konkreten Aufgabenstellung und der groben Vorgehensweise
  2. Data Understanding (Datenverständnis): Datensammlung bzw. erste Sichtung der zur Verfügung stehenden Daten; Ermittlung möglicher Probleme mit Datenqualität
  3. Data Preparation (Datenvorbereitung): Konstruktion des finalen Datensatzes für die Modellierung
  4. Modeling (Modellierung): Anwendung geeigneter Data Mining-Verfahren, Optimierung der Parameter; gewöhnlich Ermittlung mehrerer Modelle
  5. Evaluation (Evaluierung): Auswahl des Modells, das die Aufgabenstellung am besten erfüllt. Sorgfältiger Abgleich mit der Aufgabenstellung.
  6. Deployment (Bereitstellung): Aufbereitung und Präsentation der Ergebnisse; evtl. Integration des Modells in einen Entscheidungsprozess des Auftraggebers

Vor allem die Datenvorbereitung sollte nicht unterschätzt werden – oft ist sie der zeitaufwändigste Schritt in Data Mining Projekten!

Der SPSS Modeler unterstützt den Anwender dabei, sich am CRISP-DM Prozess zu orientieren. Er bietet ein Verfahren, Projekte anhand dieses Modells zu organisieren. So können Dateien, auch SPSS-externe Dokumente, der passenden Phase zugeordnet werden. Zudem gibt es ein spezielles CRISP-DM-Hilfesystem.

Literatur (Hinweis: bezahlte Links):

Von Data Mining bis Big Data: Handbuch für die industrielle Praxis

Data Mining (De Gruyter Studium)

Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.