Angenommen, es liegen Daten in folgendem Format vor:
ID | Messzeitpunkt | Messwert |
1 | 1 | 7 |
1 | 2 | 10 |
2 | 1 | 4 |
2 | 2 | 3 |
… |
Nun soll überprüft werden, ob die Daten des ersten Messzeitpunkts sich signifikant vom zweiten Messzeitpunkt unterscheiden. Ganz einfach, könnte man meinen: t-Test, Testvariable=Messwert, Gruppe=Messzeitpunkt (Gruppe 1 = Zeitpunkt 1, Gruppe 2 = Zeitpunkt 2), fertig. Technisch funktioniert das – ist aber falsch. Das Festlegen der Gruppe passt bei unabhängigen Stichproben (independent samples). Das bedeutet, dass ein Messwert einer Gruppe keinem bestimmten Wert in der anderen Gruppe zugeordnet wird. Ein typisches Beispiel ist der Vergleich von Schulnoten zwischen Mädchen und Jungen.
Im vorliegenden Beispiel handelt es sich jedoch um Messwiederholungen. Es geht darum, dass der erste Messwert einer ID (z. B. ID 1) einem ganz bestimmten Wert der zweiten Messung zugeordnet wird, nämlich der Wiederholungsmessung derselben ID (wieder ID 1) usw. Man spricht hier von abhängigen Stichproben (paired samples). Wählt man nun den t-Test für abhängige Stichproben, so muss man Variablenpaare angeben. Beim oben gezeigten Aufbau des Datensatzes ist das jedoch nicht möglich: die einzige Testvariable heißt Messwert. Was ist also zu tun?
Der Datensatz muss umstrukturiert werden, und zwar in folgendes Format:
ID | Messung.1 | Messung.2 |
1 | 7 | 10 |
2 | 4 | 3 |
… |
Beim oberen Datensatz spricht man vom „long“-Format (langes Format), beim unteren vom „wide“-Format (breites Format; gibt es mehr als einen Messwert, erhält der neue Datensatz weniger Zeilen/Fälle und dafür mehr Spalten/Variablen). Im unteren Beispiel sind die Daten, die zu einer ID gehören, in der gleichen Zeile untergebracht. Nun kann man Messung.1 und Messung.2 als Variablenpaar angeben und damit den t-Test für abhängige Stichproben (oder eine Varianzanalyse mit Messwiederholung) durchführen.
Wie kommt man vom oberen zum unteren Datenformat? In SPSS gibt es dazu einen Assistenten unter Daten – Umstrukturieren bzw. Data – Restructure. Der Syntaxbefehl heißt casestovars (Fälle zu Variablen) und sieht so aus:
SORT CASES BY ID .
CASESTOVARS
/ID = ID
/GROUPBY = VARIABLE.
(Nach Ausführung dieses Befehls werden noch zwei Variablen Messzeitpunkt.1 und Messzeitpunkt.2 angelegt, die jedoch gelöscht werden können, da sie Konstanten sind, d. h. durchgängig die Werte 1 bzw. 2 enthalten, und keinen analytischen Wert bieten.)
Die umgekehrte Prozedur, mit der man den eben ausgeführten Schritt rückgängig machen kann, heißt entsprechend varstocases (Variablen zu Fällen) und sieht so aus:
VARSTOCASES /ID = ID
/MAKE Messung FROM Messung.1 Messung.2
/INDEX = Messzeitpunkt(2)
/KEEP =
/NULL = KEEP.
Diese Überlegungen gelten natürlich auch für nichtparametrische Tests. Das Pendant zum (parametrischen) t-Test für unabhängige Stichproben ist der Mann-Whitney-U-Test; statt des t-Tests für abhängige Stichproben kann der Wilcoxon-Test verwendet werden. Vgl. Artikel T-Test oder U-Test?
In Stata heißen die Befehle reshape wide bzw. reshape long.
Die Datenaufbereitung (Data Preparation) wird bei Analyseprojekten oft unterschätzt. Nicht umsonst gilt sie im Rahmen des CRISP-DM-Schemas (Cross Industry Standard Process for Data Mining) als der zeitintensivste Arbeitsschritt.
Für eine ausführlichere Diskussion über die Auswahl der geeigneten statistischen Methode siehe den Beitrag Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?
Fragen Sie bei Bedarf den Datenanalytiker Ihres Vertrauens …
Ein Gedanke zu „Datenaufbereitung für abhängige Stichproben: long- und wide-Format“