Statistiker, Mathematiker und Experten für Maschinelles Lernen denken unterschiedlich

IBM SPSS Modeler: Merkmalsauswahl

Im Zeitalter von Big Data müssen die Fähigkeiten von Statistikern, Mathematikern und Experten für Maschinelles Lernen in immer stärkerem Maße verbunden werden, um „Datenschätze“ zu heben. Dabei kann es sehr hilfreich sein, sich der unterschiedlichen Denkweisen bewusst zu werden, die mit der jeweiligen Ausbildung einhergehen. Die folgende Geschichte veranschaulicht das eindrucksvoll.

Arbeiten Statistiker, Data Scientists und Mathematiker mit den gleichen Techniken?

Googles Forschungsdirektor, Peter Norvig, wollte zeigen, dass Statistiker, Data Scientists und Mathematiker die gleichen Techniken verwenden. Er gab einem Statistiker und einem Mathematiker den gleichen (sehr großen) Datensatz, an dem er selbst auch arbeitete. Nach einer Weile wollten sie ihre Arbeiten vergleichen. Norvig, ein Data Scientist, hatte ein komplexes Vorhersagemodell entwickelt. Der Statistiker hingegen hatte eine 1%-Stichprobe des Datensatzes gezogen, den Rest ignoriert und nachgewiesen, dass die Daten bestimmten Annahmen entsprachen. Der Mathematiker hatte den Datensatz nicht einmal angefasst! Stattdessen bewies er Eigenschaften einiger Formeln, die (theoretisch) auf die Daten angewendet werden könnten!

Auf dem Galvanize-Blog gibt es eine schöne Übersicht (auf Englisch), die Unterschiede zwischen Data Scientists („Machine Learners“) und Statistikern zusammenfasst. U. a. geht es für Statistiker eher um a-priori-Annahmen über Verteilungen und Parameter, die für eine möglichst gute Annäherung an die theoretischen Annahmen sorgen sollen. Beim Maschinellen Lernen werden weniger Annahmen getroffen, es geht weniger um Unsicherheit, eher darum, „aus den Daten“ zu lernen. Meiner Ansicht nach ist die im Galvanize-Blog dargestellte Abgrenzung zu streng. Die wenigsten Modelle kommen ganz ohne Annahmen aus.



IBM SPSS Modeler: Merkmalsauswahl
IBM SPSS Modeler: Beispiel-Stream (Merkmalsauswahl)

Statistische Software wie R oder der IBM SPSS Modeler beinhalten zunehmend sowohl Methoden der „klassischen“ Statistik als auch Methoden, die aus der Tradition des Maschinellen Lernens stammen.

Dieser Beitrag ist ein Update zu SPSS Modeler: Maschinenlernen vs. Statistische Modelle.

Douglas Adams hatte nur fast Recht. Die korrekte Antwort lautet: p=0,042**

Freue mich über Kommentare!