R Zertifizierung abgeschlossen: Daten importieren und aufbereiten – Fallbeispiele.
Hier gab es im Vergleich zu bisherigen DataCamp-Kursen nichts Wesentlich Neues – dieser Kurs ist sehr praxisorientiert. Datenbereinigung ist nicht so spektakulär wie das Entwickeln fortgeschrittener DataMining-Modelle, aber oft sehr zeitaufwändig.
R-Pakete zur Datenbereinigung und Datenaufbereitung
Neben etlichen Basisfunktionen kamen überwiegend Pakete von Hadley Wickham zum Einsatz: die R-Pakete dplyr, tidyr (das ich jetzt lieber verwende als reshape / reshape2, vor allem, um Daten für ggplot vorzubereiten: gather), lubridate (für Zeit- und Datumsfunktionen), readxl (Datenimport aus Excel, wesentlich schneller als z. B. gdata, siehe Beitrag Excel-Datensätze in R laden: Geschwindigkeits-Test verschiedener R-Pakete), ggplot2, data.table (mit schnellem Datenimport mittels fread), stringr (für Stringfunktionen bzw. Bereinigung von Textfeldern) und ein Mal sogar gdata.