Nun ist auch der Machine Learning-Kurs von DataCamp abgeschlossen.
Es ging um die drei Themenbereiche Klassifikation, Regression und Clustering. Von maschinellem Lernen wird nur gesprochen, wenn ein Algorithmus ein Modell ermittelt, das auf andere Daten (z. B. künftige Beobachtungen) angewendet werden kann. Deskriptive Statistiken (häufigste Farbe, durchschnittliche Größe) zählen somit nicht zum maschinellen Lernen.
Einige Kursinhalte:
- Gütemaße für Machine Learning-Modelle; Konfusionsmatrix
- Trainings- und Testdaten
- Overfitting (Überanpassung)
- Der Kompromiss zwischen Bias und Varianz (bias-variance tradeoff)
- Überanpassung (Overfitting)
- Kreuzvalidierung
- Entscheidungsbäume
- KNN: K nearest neighbors bzw. K nächste Nachbarn
- ROC-Kurven
- Regressionsmodelle
- Clusteranalysen: k-means und hierarchisch
Wie immer bei DataCamp war es eine gute Mischung aus erklärenden Videos und praktischen Übungen mit R-Code – auch wenn die Kursgeber nicht den spannendsten Vortragsstil pflegten.