ASUM-DM: Ein Standard-Prozessmodell für Data Mining und Predictive Analytics

2015 veröffentlichte IBM eine Überarbeitung und Erweiterung von CRISP-DM (CRoss-Industry Standard Process for Data Mining). Der neue Standard nennt sich ASUM-DM, in Langform: Analytics Solutions Unified Method for Data Mining/Predictive Analytics. ASUM-DM: Versionen und Ziele Von ASUM-DM gibt es zwei Versionen: eine freie, im Internet erhältliche, sowie eine proprietäre, die für den IBM-internen Gebrauch vorgesehen ist. Aufgabe und Ziel … „ASUM-DM: Ein Standard-Prozessmodell für Data Mining und Predictive Analytics“ weiterlesen

R für Umsteiger von Excel und SPSS: Automatisierte Berichte

In den letzten Jahren wurden mehrfach Artikel publiziert, die auf ein gravierendes Problem hinwiesen: Schätzungen zufolge sind deutlich mehr als die Hälfte der prä-klinischen Studienergebnisse nicht reproduzierbar. Wissenschaftliche Studienergebnisse oft nicht reproduzierbar So titelte das Wall Street Journal im Dezember 2011: “Scientists‘ Elusive Goal: Reproducing Study Results“. In der New York Times hieß es im … „R für Umsteiger von Excel und SPSS: Automatisierte Berichte“ weiterlesen

R Zertifizierung: R für SAS / SPSS / Stata Anwender (DataCamp)

Weitere R-Zertifizierung abgeschlossen: R für SAS / SPSS / Stata Anwender. Im Vergleich zu anderen Kursen bei DataCamp war dieser wesentlich umfangreicher, mit insgesamt 21 statt der üblichen drei bis fünf Kapiteln. Für Neueinsteiger bei DataCamp empfehle ich, diesen Kurs früh zu absolvieren, wenn man bereits Erfahrung mit wenigstens einem der Statistik-Pakete SAS, SPSS oder … „R Zertifizierung: R für SAS / SPSS / Stata Anwender (DataCamp)“ weiterlesen

R-Zertifizierung: Daten in R importieren (DataCamp)

Weitere R-Zertifizierung abgeschlossen: Importing Data into R Datenimport – klingt langweilig? Heutzutage gibt es eine Vielzahl an Datenformaten, und insbesondere der Umgang mit Daten aus dem Internet kann durchaus herausfordernd sein. In dem Kurs ging es u. a. um folgende Themen: Import von Dateien in den Formaten csv und txt R-Pakete (packages): utils, readr, data.table; … „R-Zertifizierung: Daten in R importieren (DataCamp)“ weiterlesen

SPSS 23: Einige neue Leistungsmerkmale

Kein Aprilscherz: Kürzlich ist SPSS 23 erschienen. Worin unterscheidet sich die neue Programmversion von ihren Vorgängern? Zeit und Raum Erweiterte zeit- und raumabhängige Vorhersagemodelle: STP – Spatio-Temporal Prediction Kausale Beziehungen in zeitlicher Abhängigkeit: TCM – temporal-kausale Modellierung Test, ob Entwicklungen direkt oder indirekt mit einem bestimmten Ort in Verbindung stehen: GSAR – Generalized Spatial Association Rule … „SPSS 23: Einige neue Leistungsmerkmale“ weiterlesen

Signifikanztests bei Mehrfachantworten in SPSS

Kann man bei Mehrfachantworten Signifikanztests ausführen? Mehrfachantworten setzen sich typischerweise aus mehreren Variablen zusammen. Z. B. könnte in drei Variablen erfasst werden, welche Zeitungsarten jemand liest: Tageszeitung, Wochenzeitung, Fachzeitschrift. Nun wollen wir wissen, ob es bei den Lesegewohnheiten Geschlechtsunterschiede gibt bzw. anders formuliert, ob Lesegewohnheiten und Geschlecht von einander unabhängig sind.   Chi-Quadrat-Test für Kreuztabellen … „Signifikanztests bei Mehrfachantworten in SPSS“ weiterlesen

t-Test, Korrelation und Regression im Vergleich (Video-Tutorials)

Als Student fand ich die Vielzahl an statistischen Tests verwirrend. Das waren mir zu viele Schubladen – jeder Test macht irgendwie etwas anderes, wie soll man die auseinanderhalten und sich das alles merken? Dabei gibt es eine klare Verbindung zwischen den parametrischen Signifikanztests. Im Allgemeinen Linearen Modell (ALM) bzw. seiner Erweiterung Generalisiertes Lineares Modell (GLM, … „t-Test, Korrelation und Regression im Vergleich (Video-Tutorials)“ weiterlesen

Korrelation: Pearson vs. Spearman als Youtube-Video

Es ist ein Phänomen: Der über drei Jahre alte Artikel Korrelation: Pearson vs. Spearman ist nach wie vor der meistgelesene Beitrag auf statistik-dresden.de. Jetzt gibt’s den Vergleich dieser beiden Zusammenhangsmaße als Video: Der Unterschied zwischen der Pearson-Korrelation und der Spearman-Korrelation wird anhand eines Praxisbeispiels demonstriert. Dabei tritt der ungewöhnliche Fall auf, dass einer der beiden … „Korrelation: Pearson vs. Spearman als Youtube-Video“ weiterlesen

Codierung offener Textantworten: Automatisierung mit SPSS Syntax-Tricks

Viele Befragungen enthalten offene Textantworten. Wenn diese Antworten quantitativ-statistisch ausgewertet werden sollen, müssen sie nachcodiert werden. Oft geschieht das manuell. Mehrfachnennungen und unterschiedliche Schreibweisen erschweren automatisches Umcodieren per Programmierung. Mit den folgenden Tricks kann man sich die Arbeit vereinfachen. Manuelle Nacharbeit ist damit nicht vollkommen ausgeschlossen, aber der Aufwand kann doch sehr verringert werden. Anwendungsbeispiel: … „Codierung offener Textantworten: Automatisierung mit SPSS Syntax-Tricks“ weiterlesen

PSPP: Wie gut ist die kostenlose Alternative zu SPSS?

IBM SPSS ist eine mächtige statistische Analysesoftware mit großem Funktionsumfang – und teuer. Wer die Lizenzgebühren nicht aufbringen kann oder will, stößt früher oder später auf PSPP, eine kostenlose Alternative, die unter der GNU General Public Licence steht. Der Name hat keine offizielle Bedeutung – er spielt lediglich auf SPSS an. Es gibt aber inoffizielle … „PSPP: Wie gut ist die kostenlose Alternative zu SPSS?“ weiterlesen