Post to Tumblr - Preview

statistik-dresden.de

Doubletten ausschließen in R: unique() und wie man es schneller macht | Statistik Dresden

Eine Kundin erzählte mir kürzlich, dass sie die Base R-Funktion unique() nutzt, um Doubletten aus ihren Daten auszuschließen. Sie erhält damit das gewünschte Resultat, allerdings sei ihr Code zu langsam. Zwei Ideen kamen mir, den Code zu beschleunigen: 1. Statt alle Spalten bei der Suche nach Doubletten zu berücksichtigen, müsste eine Auswahl an Spalten genügen Mit data.table's unique() statt der Base R-Variante konnte der Ausschluss von Doubletten um mehr als das Hundertfache beschleunigt werden.