Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?

SPSS: Ausschnitt aus der Testauswahl im Menü "Analysieren"

Fragst Du Dich: Welcher statistische Test passt für meine Aufgabe, meine Daten, meine Fragestellung?

Die Universität Zürich bietet eine empfehlenswerte Hilfestellung bei der Auswahl des geeigneten statistischen Tests bzw. der passenden multivariaten Analysemethode. In einem Entscheidungsbaum sind Unterschiedstests und Verfahren für Zusammenhangs- und Interdependenzanalysen dargestellt; farbliche Abstufungen berücksichtigen das Skalenniveau (nominalskaliert, ordinalskaliert oder intervallskaliert); zusätzlich wird auch dargestellt, ob normalverteilte Daten vorausgesetzt werden oder ob es sich um ein verteilungsfreies (nichtparametrisches) Verfahren handelt:

Entscheidungshilfe zur Auswahl des geeigneten statistischen Tests

Zusätzlich gibt es noch einen interaktiven Entscheidassistent, bei dem man mit Fragen Schritt für Schritt und Klick für Klick zur geeigneten statistischen Methode geführt wird.

Hier das Video zur Entscheidungshilfe:

Theoriegeleitetes Testen vs. exploratives Vorgehen (Strukturen entdecken)

Zunächst ist zu klären, ob bereits eine konkrete Fragestellung vorliegt oder ob ein Algorithmus Strukturen entdecken und damit weitergehende Fragen vorbereiten soll. Im letzteren Fall werden Faktorenanalysen zur Zusammenfassung von Variablen oder Clusteranalysen zur Gruppierung von Objekten / Personen vorgeschlagen.

Welcher statistische Test: Zusammenhangsanalysen

Im ersteren Fall (konkrete Fragestellung) muss man sich zwischen Zusammenhangsanalysen und Unterschiedsanalysen entscheiden.

Zusammenhänge von zwei Variablen können mit Korrelationen untersucht werden. Je nach Skalenniveau wird die Pearson-Korrelation (intervallskalierte Merkmale) oder die Rangkorrelation nach Spearman (ordinalskalierte Merkmale) oder der Chi-Quadrat-Test (kategoriale Merkmale) empfohlen.

Für Zusammenhänge zwischen mehr als zwei Variablen steht eine Palette an Regressionsmodellen zur Verfügung. Je nach abhängiger Variable (AV) ist die multiple lineare Regression (AV intervallskaliert) oder die logistische Regression (AV mit zwei Ausprägungen) angezeigt. Es liegen Erweiterungen der logistischen Regression für ordinalskalierte (ordinale logistische Regression) sowie für nominalskalierte Merkmale mit mehr als zwei Ausprägungen vor (multinomiale logistische Regression).

Unterschiedsanalysen: Parametrisch vs. nichtparametrisch („verteilungsfrei“)

Bei Unterschiedshypothesen ist zu klären, worauf sich die Unterschiede beziehen: Auf Mittelwerte bzw. zentrale Tendenz; auf Varianzen; auf Proportionen / Häufigkeiten. Hier weichen wir etwas vom Entscheidassistent ab: Dort taucht die Frage nach „verteilungsfrei vs. normalverteilt“ in vielen Unterpunkten auf – wir ziehen sie vor.

Parametrische Verfahren treffen Verteilungsannahmen: v. a. die berühmt-berüchtigte Normalverteilungsannahme, die in der Realität mehr oder weniger stark verletzt sein kann. Leider haben Tests auf Normalverteilung (NV) wie der Shapiro-Wilk-Test die unangenehme Eigenschaft, leichter bei größeren Stichproben signifikant zu werden – gerade dann können statistische Tests jedoch Abweichungen von der NV besser verkraften. Kleine Stichproben sind da kritischer. Deshalb sollte die NV-Annahme auch grafisch geprüft werden, z. B. mit einem Histogramm mit NV-Kurve. Es gibt einen gewissen Entscheidungsspielraum; im Zweifelsfall können parametrische Tests durch ihr nichtparametrisches Pendant ergänzt und die Ergebnisse verglichen und diskutiert werden.

Nichtparametrische Tests treffen keine Verteilungsannahmen, sie gelten als „verteilungsfrei“. In der Regel werden die Daten dazu in Rangplätze umgewandelt. Beispiel: Aus 9,90s vs. 9,91s vs. 16s für drei Athleten beim 100m-Lauf, wobei der dritte verletzt war, wird 1, 2, 3 bzw. erster, zweiter, dritter – unabhängig von den gemessenen Zeitabständen.

Welcher statistische Test: Abhängige vs. unabhängige Stichproben

Ein weiteres Kriterium, das sich bei mehreren Verzweigungen zeigt, ist die Frage, ob zwei (oder mehr) Stichproben (Gruppen) von einander unabhängig sind. Abhängige Stichproben werden im Entscheidassistent etwas vereinfacht definiert als die gleiche Gruppe, die mehrfach befragt wird. Oft handelt es sich in der Tat um Messwiederholungen der gleichen Probanden, z. B. Vorher-Nachher-Messungen bei Patienten vor und nach einer Behandlung. Abhängige Stichproben können jedoch auch vorliegen, wenn es sich um verschiedene Personen (Untersuchungsobjekte) handelt, z. B. bei Ehepaaren oder Zwillingen. Entscheidend ist, dass ein Element der einen Gruppe einem ganz bestimmten Element der anderen Gruppe zugeordnet ist (dem Ehepartner, Zwilling, …).

Bei unabhängigen Stichproben ist das nicht der Fall: Die „Sortierung“ innerhalb der Gruppen spielt keine Rolle, es gibt keine paarweise Zuordnung der Probanden der einen Gruppe zu jeweils ganz bestimmten Probanden der anderen Gruppe.

Unterschiedsanalysen: Mittelwerte / zentrale Tendenz

Will man Mittelwerte („parametrisch“) bzw. die zentrale Tendenz („nichtparametrisch / verteilungsfrei“) vergleichen, stehen folgende Tests zur Verfügung:

  • unabhängige Stichproben, parametrisch
    zwei Gruppen: t-Test für unabhängige Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse
  • unabhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Mann-Whitney-U-Test
    mehr als zwei Gruppen: Kruskal-Wallis-Test
  • abhängige Stichproben, parametrisch:
    zwei Gruppen: t-Test für abhängige (=verbundene) Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse mit Messwiederholung
  • abhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Wilcoxon-Test; bei nominalskalierter abhängiger Variable: Vorzeichentest
    mehr als zwei Gruppen: Friedman-Test

Welcher statistische Test: Unterschiedsanalysen – Varianzen

  • normalverteilt: F-Test
    Anmerkung: Eine Voraussetzung des t-Tests sind gleiche Varianzen in den Gruppen. Dazu wird in einigen Statistik-Paketen (z. B. SPSS) ein F-Test vorgeschaltet. Es gibt jedoch einen Korrekturfaktor (der sich auf die Freiheitsgrade auswirkt). In R kann man den Welch-Test durchführen, der diese Korrektur enthält.
  • verteilungsfrei: Chi-Quadrat-Test

Unterschiedsanalysen: Proportionen / Häufigkeiten

  • zwei Ausprägungen: Binomialtest
  • mehr als zwei Ausprägungen: Chi-Quadrat-Test

Zu speziellen Entscheidungsfragen siehe folgende Beiträge:

Korrelation: Pearson vs. Spearman
T-Test oder U-Test?
Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen (behandelt den Chi-Quadrat-Test)

Zum Entscheidassistent der Universität Zurich

Nun fällt die Antwort auf die Frage: Welcher statistische Test? hoffentlich leichter. Viel Erfolg!

Abschließend noch ein paar Literaturempfehlungen (bezahlte Links!). Wer gern auf Englisch liest, dem sei Andy Field wärmstens empfohlen. Mit seinen abstrusen Beispielen und seinem schrägen Humor könnte Statistik (fast??) Spaß machen – ganz entgegen dem alten Studi-VZ-Motto: SPSS – Das „A“ fehlt nicht umsonst. Es gibt auch eine (spätere) Version für R.

Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler

Andy Field: Discovering Statistics Using IBM SPSS Statistics

Andy Field: Discovering Statistics Using R

377 Gedanken zu „Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?“

  1. Hallo Herr Riepl,
    leider habe ich längere Zeit keine Untersuchungen durchgeführt, weshalb ich jetzt in der Wahl der korrekten Testverfahren nicht ganz sicher bin. Ich habe eine Untersuchung mit einer Interventions- und einer Kontrollgruppe bestehend aus jeweils 9 Personen durchgeführt (Prä- und Posttest) wobei nur 1 Parameter ermittelt wurde. Jetzt möchte ich zunächst eine Prüfung auf Normalverteilung durchführen (auch wenn bei der geringen TN-Anzahl nicht davon auszugehen ist). Anschließend interessiert mich, ob sich die Resultate über die Messzeitpunkte hinweg signifikant verändert haben. Darüber hinaus interessiert mich, ob es einen signifikanten Unterschied zwischen der Interventions- und der Kontrollgruppe gibt (demzufolge ob eine spezifische Intervention einen „positiven Effekt“ aufweist.

    Vielen Dank im Voraus für deine Antwort
    Jury

    1. Hallo Jury,

      bei 9 Personen würde ich nicht auf Normalverteilung testen. Signifikanztests benötigen eine gewisse Fallzahl, um überhaupt signifikant werden zu können. Die Wahrscheinlichkeit ist hoch, dass der Test nicht signifikant ausfällt – das bedeutet jedoch nicht, dass die Daten normalverteilt sind. Mit n=9 kann man kaum eine brauchbare Annäherung an die Gaußsche Normalverteilungskurve erreichen. Ich würde unabhängig vom NV-Test auf nichtparametrische Verfahren setzen. In der Literatur werden parametrische Verfahren oft ab etwa n=30 empfohlen, was jedoch keine „harte“ Grenze ist. N=9 wird jedoch zu wenig sein.

      Veränderung über die Messzeitpunkte: Verbundene Stichproben bzw. Messwiederholung. Ich empfehle den Wilcoxon-Test.
      Vergleich zwischen Interventions- und Kontrollgruppe: Unabhängige Stichproben. Ich empfehle den Mann-Whitney-U-Test.

      Viel Erfolg!

  2. Lieber Herr Riepel,

    Nochmals eine Frage zur Post hoc Power-Analyse. Macht es da Sinn, zu berechnen, mit welcher Stichprobengrösse die Ergebnisse signifikant geworden wären? Ich finde dazu nicht viel Literatur und bin etwas überfordert, wie ich das berechnen sollte (bspw. gibt es in G*Power unter „Post-Hoc“ keine Möglichkeit dazu).

    Vielen Dank im Voraus!

    Liebe Grüsse
    Salome

    1. Mit G*Power habe ich lange nicht gearbeitet. In R mit dem pwr-Paket kann man eine der gesuchten Größen weglassen, diese wird dann berechnet. So kann man wahlweise etwa Effektstärke oder benötigte Stichprobengröße ermitteln.

  3. Hallo Herr Riepl,

    leider kann ich unter Ihren letzten Beitrag nicht mehr kommentieren, deshalb muss ich einen „neues“ Kommentarfenster öffnen. Bezüglich meines letzten Beitrages musste ich nun feststellen, dass ein Satz unvollständig war. Bitte entschuldigen meinen Fehler. Wie Sie schon richtig angenommen haben, gibt es zwei Gruppen. Gruppe A mit den Werten von 1 bis 50 bis einschließlich 100.
    Wie Sie bereits unter a) geschildert haben, habe ich einen t-Test für gleiche Varianzen angewendet, da die Varianz in beiden Gruppen fast identisch ist. Speziell ging es mir um den Unterschied der Mittelwerte beider Gruppe in Bezug auf AV. Hinsichtlich b) habe ich ebenfalls eine Korrelationsanalyse durchgeführt. Ich denke, dass ich soweit alles habe und bedanke mich vielmals für Ihre Hilfe und Unterstützung.

    Grüße

  4. Sehr geehrter Herr Riepl,

    im Rahmen meiner Auswertung mittels R bin ich mir noch unsicher bezüglich der richtigen Auswahl statistischer Tests und Analyseverfahren. Eventuell Können Sie mir weiterhelfen.

    Zunächst zur Ausgangssituation. Es geht allgemein um die Untersuchung, inwiefern sich die Umgebungsbedingungen auf das Lernverhalten von Schülern auswirkt. Der Datensatz beinhaltet eine abhängige Variable, den Score (numerisch stetig, von 0 bis 100) und 3 unabhängige Variablen. Alle 3 unabhängigen Variablen sind numerisch. 2 von diesen 3 Variablen sind weiterhin binär codiert mit den Ausprägungen 0 und 1, wärhend die dritte unabhängige Variable numerisch diskret (Werte zwischen 0 bis 100, ganze Zahlen) ist.

    Bevor ich am Ende eine multiple Regression durchführe, würde ich gern jede einzelne unabhänige Variable im Zusammenspiel mit der abhängigen Variable analysieren. Sowohl die Zusammenhänge, als aich die Unterschiede (gemäß des Entscheidungsbaums).

    Ich habe bereits einige Tests angewendet und wollte Sie an dieser Stelle fragen, ob ich denn die richtige Auswahl getroffen habe:

    1. und 2. Fall: abhängige Variable und unabhängig binär –> Korrelation nach Pearson (Zusammenhangsanalyse) und Mann-Whitney (Unterschiedsanalyse). Die Daten der unabhängigen binären Variable sind innerhalb der Stichprobe untereinander unabhängig und nicht normalverteilt.

    Spannender ist der 3. Fall, da ich mir auch hier sehr unsicher bin.
    Gegeben: Weiterhin die abhängige stetige numerische Variable und die unabhängige diskrete Variable. Die diskrete unabhängige Variable würde ich weiterhin in 2 Gruppen unterteilen. Der Grenzwert innerhalb dieser Gruppe bildet dabei die Anzahl an Lernräumen, die zur Verfügung stehen. Dabei würde ich gern eine Klassifizierung in groß und klein vornehmen. Welche Testverfahren würden Sie an dieser Stelle anwenden? Für die Zusammenhansanalyse habe ich 3 Korrelationstests angewendet. Einmal für jede Gruppe in Bezug auf die abhängige Variable und einmal ohne Gruppendifferenzierung in Bezug auf die abhängige Variable. Welchen Test würden sie insbesondere im Rahmen der Unterschiede empfehlen?

    Ich wäre Ihnen sehr dankbar, wenn Sie mir weiterhelfen können und bedanke mich vorab.

    Einen angenehmen Tag und mit freundlichen Grüßen

    1. Hallo Herr Mayer,

      UV binär, AV numerisch stetig: Korrelation ist möglich, aber nicht „typisch“; typische Interpretation ist „Je höher x, desto höher / niedriger y“. Bei einer binären UV kommt man mit je / desto nicht weit. Zudem kann eine binäre Variable nicht normalverteilt sein. Für die Frage, ob parametrischer oder nicht-parametrischer Test, geht es um die Verteilung der AV und um die Fallzahlen. Je nach Verteilung und Fallzahl Mann-Whitney oder t-Test.

      3. Fall: Ja, Korrelation. Separat für groß / klein klingt ok, würde ich inhaltlich begründen.
      Ich denke nicht, dass man einen Unterschiedstest übers Knie brechen muss, wenn es um Zusammenhänge zwischen zwei metrischen Variablen geht (diskret oder stetig sehe ich hier als nicht entscheidend).
      Wenn es inhaltlich interessant ist, können Sie die AV nach groß vs. klein aufschlüsseln, z. B. per t-Test (oder Mann-Whitney).

      1. Hallo Herr Riepl,

        vielen lieben Dank für Ihre sehr schnelle Antwort. Ich habe meine Analyse von Grund auf neu aufgesetzt und ihre Tipps dabei befolgt. Für Fall 1 & 2 verzichte ich auf einen Korrelationstest. Durch das Ausprobieren innerhalb R’s habe ich einfach gemerkt, dass dieses Vorgehen einfach nicht zielführend ist. Aufbauend darauf habe ich einen zweistichporben-t-test für unabhängige Stichproben durchgeführt (Welch-test). Zuvor habe ich überprüft, ob AV normalverteilt ist (trifft zu!) Bei meinem vorigen Post hatte ich vergessen zu erwähnen, dass AV normalverteilt ist und dass die Fallzahl 1001 beträgt.
        Hinsichtlich Fall 1&2 hätte ich noch eine Frage, ob eine lineare Regression sinnvoll zwischen einer stetigen und einer binären Variable ist. Das Streudiagramm inklusive Regressionsgerade sieht natürlich „spannend“ aus 🙂
        Letztlich wäre es angedacht, eine multiple Regression mit allen UV’s durchzuführen.

        Ich bedanke mich vorab und wünsche Ihnen noch einen schönen Abend

        lg

          1. Hallo Herr Riepl,

            vielen Dank für Ihre Rückmeldung. Ein letztes Anliegen hätte ich da noch. Und zwar geht es um einen „neuen ähnlichen“ Sachverhalt wie in Fall 3. Ich habe zwei metrische Variablen, die beide intervallskaliert sind. AV ist normalverteilt. UV ist nicht normalverzeilt. Fallzahl jeweils 1000>. Bezogen auf UV möchte ich eine Trennung vornehmen und zwei Gruppen erstellen. Die Werte dieser Gruppe reichen von 0 bis 100, wobei der Grenzwert bei 50 liegt, sprich Gruppe A 50. Welchen statistischen Test können sie empfehlen, um eine „Unterschiedsanalyse“ durchzuführen, also quasi der Unterschied der Mittelwerte (Mittelwert als Beispiel) bezogen auf die AV. Zuvor war es relativ leicht, da ich immer den t-test verwendet habe. Nun liegen aber zwei metrisch-intervallskalierte Variablen vor.

            Grüße und vielen Dank für Ihre Unterstützung!

          2. Versuche zu verstehen: Sie bilden zwei Gruppen. Dann?
            a) die beiden Gruppen hinsichtlich der AV vergleichen: t-Test. Hier werden innerhalb jeder Gruppe die unterschiedlichen Werte der UV nicht mehr berücksichtigt, die UV wird „dichotomisiert“.
            b) für beide Gruppen jeweils separat den Zusammenhang zwischen UV und AV ermitteln, wobei einmal der Wertebereich der UV von 0 bis 50 (49.9?) reicht, einmal von 50 (50.1?) bis 100. Hier würde ich nicht von „Unterschied“ sprechen, sondern von „Zusammenhang“. Korrelation oder lineare Regression. Da UV nicht normalverteilt, kann man die Rangkorrelation nach Spearman nehmen. Oder Werte transformieren, z. B. logarithmieren.

            Zu „Unterschied“ vs. „Zusammenhang“: In beiden Fällen geht es darum, ob die Werte der einen Variable (AV) systematisch mit den Werten der anderen (UV) variieren oder ob die Variation zufällig sein kann.

  5. Hallo!

    Nach der Berechnung meiner linearen Regression und der multiplen linearen Regression, stellt sich die Frage, ob ich bei beiden Testungen eine post-hoc-Poweranalyse machen kann. Ich finde nur sehr wenig Literatur zu einer Poweranalyse für die lineare Regression… Bei der multiplen hätte ich dies mittels f^2 gemacht. Macht das Sinn und gibt es eine Möglichkeit, eine Poweranalyse für die lineare Regression zu machen? Wenn ja, anhand welcher Effektstärke?

    Vielen Dank im Voraus!

    1. Ich denke es ist prinzipiell das gleiche Verfahren, ob lineare Einfachregression oder multiple lineare Regression. Es gibt Online-Tools, z. B. hier:
      https://www.danielsoper.com/statcalc/calculator.aspx?id=9

      In R gibt es das pwr-Paket. Effektstärken für lineare Modelle können mit der Funktion pwr.f2.test() berechnet werden. Die Vignette enthält Beispiele:
      help(package = „pwr“)
      Auf „User guides, package vignettes and other documentation“ klicken, „pwr-vignette“ – Getting started with the pwr package. Abschnitt „pwr.f2.test – test for the general linear model“.

  6. Guten Abend Herr Riepl,

    vielen Dank erstmal für Ihre informativen Texte und den Hinweis auf den Entscheidungsbaum der Methodenberatik Zürich! Ich komme leider ebenfalls bei meiner Masterarbeitsstatistik (Fach Psychologie) mit R nicht weiter und suche daher nach Tipps/Hilfe.

    Ich schreibe über die Veränderung der psychischen Gesundheit von Kindern und ihren Familien durch COVID-19. Dafür habe ich 2 Fragebögen:
    1) einen von dem Auftraggeber selbst entwickelten, welcher allgemeine Infos zu dem Kind & der Familie enthält + das Belastungsempfinden von Veränderungen wie Home-Schooling, Quarantäne etc.
    2) 3 Jahrgänge des SDQs (Fragebogen zu Stärken und Schwächen von Kindern)

    Der 1. Fragebogen enthält kaum metrische Items (nur Alter des Kindes, Jahrgänge der Eltern und Wohnraum) und das Belastungsempfinden wird mit einer Likert-Skala (1 = kaum belastend bis 4 = äußerst belastend) erfasst. Ist es möglich, das Belastungsempfinden bei einer so kleinen Likert-Skala trotzdem als quasi-metrisch und nicht ordinal zu behandeln? Bei meiner Recherche hatte ich gelesen, dass ich die Skalenmittelwerte berechnen könnte und diese wie intervallskaliert behandeln dürfte.

    Meine Frage zu dem 2. Fragebogen: Bei Prüfung der intervallskalierten Items auf Normalverteilung bekomme ich mit dem Shapiro Test immer ein p-Wert über 0.05 (außer bei einer Skala), wonach die vorliegenden Daten nicht normalverteilt sind. Ich habe eine Stichprobengröße von N=180 und habe bei der Recherche schon sehr oft widersprüchliche Infos gelesen. Inwiefern darf ich eine Verletzung der Normalverteilung ignorieren?

    Diese Frage wurmt mich ebenfalls bei dem Datensatz des ersten Fragebogens, da ich dort eine Stichprobengröße von N=423 habe.

    Ich hoffe, Sie können mir einen Tipp geben, da mein Kopf schon so unfassbar raucht von den ganzen Seiten im Internet und in den Büchern.

    Beste Grüße
    Kristina

    1. Hallo Kristina,

      eine vierstufige Skala ist schon recht grob. Es gibt da meines Erachtens kein klares Richtig oder Falsch. Bei vielen Auswertungen werden Likert-Skalen als quasi-metrisch angenommen. Oft geht es bei wissenschaftlichen Arbeiten mehr darum, wissenschaftliches Denken nachzuweisen, als 100% „richtig“ zu arbeiten (was ohnehin kaum geht bei solchen Ermessensspielräumen). Daher zwei Vorschläge:

      a) Ich würde einen Abschnitt einfügen, der z. B. „Methodenkritik“ oder „Kritische Diskussion der verwendeten Methoden“ oder so heißen kann. Darin kann man diskutieren, inwiefern man eine 4stufige Likertskala als metrisch auffassen kann. Das zeigt Problembewusstsein. Außerdem gilt: Je größer die Stichprobe, desto weniger fallen Verletzungen der Voraussetzungen in Gewicht.
      b) Zusätzlich nichtparametrische Verfahren einsetzen, z. B. Mann-Whitney-U-Test zusätzlich zum t-Test etc. Wenn beide zum gleichen Schluss kommen, hat man mehr Beleg für die Hypothese.

      p > 0,05 bei Shapiro-Wilk heißt KEINE Verletzung der Normalverteilungsannahme. Meinten Sie p < 0,05? Allerdings gilt auch hier: Je größer die Stichprobe (N=180 ist in der Hinsicht schon recht groß), desto besser können statistische Verfahren mit Verletzungen der Normalverteilungsannahme umgehen. Tests wie Shapiro-Wilk haben leider auch die Eigenschaft, bei größerer Stichprobe eher signifikant zu werden, während es bei kleinerer Stichprobe kritischer ist, ob die Annahme hält. Viel Erfolg! Wolf

      1. Vielen Dank für Ihre Antwort!
        Besonders den Tipp, einen Abschnitt zum Thema Methodenkritik einzufügen, werde ich auf jeden Fall beherzigen.
        Meine Professorin hat entschieden, die vierstufige Liker-Skala als quasi-metrisch anzunehmen. Meine Unsicherheit bzgl. der Normalverteilung muss/darf ich dem Statistikprofessor vorstellen. Ich habe nochmal die p-Werte überprüft und sie sind alle p<0,05, sowohl bei Fragebogen 1 (N = 423) als auch bei Fragebogen 2 (N = 180). Da mein Statistikprofessor leider wenig Verständnis für Statistikunverständnis hat, würde ich Ihnen gerne noch zwei Fragen stellen:

        1.) Ich möchte die nun als quasi-metrisch zu behandelnden Items zum Belastungsempfinden vergleichen, bzw. berechnen, ob ihre Mittelwerte sich statistisch signifikant voneinander unterscheiden. Ich habe also z.B. die Frage nach dem allgemeinen Belastungsempfinden 2021 und 2022 im wide-Format vorliegen. Bei der Berechnung bin ich bislang von einer abhängigen Stichprobe ausgegangen und habe daher den Wilcoxon-Test berechnet. Der p-Wert war sehr klein (< 2.2e-16) und ich habe mithilfe von Andy Fields Funktion (rFromWilcox) eine Effektstärke berechnen können. Um auf Nummer sicher zu gehen wollte ich noch den t-Test für abhängige Stichproben berechnen und habe für den Levene-Test die beiden Items in ein long-Format umgewandelt, da mir sonst nicht klar war, wie ich die beiden auf Varianzhomogenität prüfen soll. Der p-Wert war signifikant (p<0.05).
        Bin ich mit meinen Überlegungen / Berechnungen überhaupt auf dem richtigen Weg?

        2.) Ich bin leider immer wieder verunsichert, welche(n) Test(s) ich verwenden sollte. Bei Fragebogen 2 (SDQ) habe ich die Ergebnisse aus 3 Jahrgängen und möchte diese nun nach Geschlecht des Kindes und Jahrgang vergleichen. Da die Daten (bislang) als nicht normalverteilt gelten, habe ich bei Andy Field folgendes gefunden: Robuste unabhängige faktorielle ANOVA / Multiple Regression.
        Die Frage klingt vielleicht banal, aber wonach entscheide ich, ob ich einen Unterschied oder einen Zusammenhang untersuche?

        Vielen Dank nochmal! Ich möchte nicht total verunsichert in meine Statistikberatung gehen..

        Beste Grüße,
        Kristina

        1. Bei größeren Stichproben (N=180, erst recht bei N=423) fallen statistische Tests fast immer signifikant aus.

          zu 1: klingt plausibel. Effektstärke berechnen ist gut, die ist unabhängig von der Fallzahl, anders als der p-Wert.
          zu 2: 3 Jahrgänge, das klingt für mich nach abhängigen Stichproben, Messwiederholung.

          „Unterschied“ vs. „Zusammenhang“: da sind die Begriffe wohl nicht ganz trennscharf. Bei Unterschied denke ich eher an Kategorien (Vergleich von 2, 3 oder mehr Gruppen), bei Zusammenhang eher an metrische Merkmale (Korrelation, Regression bei metrischen Variablen). Manchmal ist es nur eine Formulierungsfrage und austauschbar: „A hängt mit B zusammen“ kann das gleiche bedeuten wie „Die Kategorien von A unterscheiden sich hinsichtlich Merkmal B“. Kein Effekt heißt dann entsprechend kein Zusammenhang bzw. kein Unterschied.

  7. Hallo,
    ich hoffe, Sie können mir auch weiterhelfen. Meine Datenauswertung muss bis zum Ende des Monats fertig sein. Für meine Masterarbeit validiere ich einen digitalen Stress Test. Ich habe insgesamt 2 Stresstests an zwei verschiedenen Tagen erhoben (within-Design). Ich habe vor und nach jedem Stresstest verschiedene Stressparameter (zu 5 Messzeitpunkten) erhoben (Cortisol, Blutdruck, Fragebögen etc.). Ich möchte nun separat für jeden Stresstest prüfen, ob vor dem Stresstest (Messzeitpunkt T1) und nach dem Stresstest (Messzeitpunkt T2, T3, T4, T5) unterschiede bezüglich meiner Stressmessungen bestehen. Zudem habe ich eine between-subject Variable („Geschlecht“: männlich, weiblich). Nun soll ich in R ein multivariates mixed model berechnen (within: Zeitvariable mit 5 Messzeitpunkten, between: Geschlechtervariable und als abhängige Variable die verschiedenen Stressparameter). Wissen Sie mit welchem R-Paket ich diese Berechnungen durchführen kann? Meine Daten sind im long-Format.

    Vielen Dank schon einmal im Voraus!
    Doramé

  8. Hallo!

    Hier scheinen einige Studierende weitergekommen zu sein, somit möchte ich mein Glück auch versuchen:

    In meiner Masterarbeit untersuche ich ein Rating, die die Passung von Therapeutin und Patientin erfasst (Skala von -3 bis +3) und einen Patientenstundenbogen (Subskala Therapiebeziehung, Likertskala von -3 bis +3).

    Bei folgenden Hypothesen sind Fragen aufgetaucht:
    H1 / H2: Je höher die verbale Passung, desto höher die Therapiebeziehung / Je höher die nonverbale Passung, desto höher die Therapiebeziehung.
    H3: Es gibt einen Unterschied zwischen der verbalen und der nonverbalen Passung hinsichtlich des Einfluss auf die Therapiebeziehung.

    H1 / H2: Berechnet mit einer lineare Regression (Normalverteilung der Residuen nicht gegeben, aber grosse Stichprobe, restliche Voraussetzungen erfüllt). Frage: Wie berechne ich die Effektstärke des Modells? Mittels Determinationskoeffizient R^2? Gibt es eine Heuristik, wie dieser eingeschätzt werden soll?

    H3: Welchen Test könnte hier angewendet werden? Ich bilde zwar Mittelwerte, womit ein T-Test ins Spiel kommt, jedoch weiss ich nicht, wie ich den „Einfluss auf die Therapiebeziehung“ miteinbringen soll. Des Weiteren steht eine Korrelation im Raum, vielleicht übersehe ich da aber auch eine Möglichkeit.

    Liebe Grüsse
    Anna

    1. Hallo Anna,

      R² kann man als Effektstärke sehen. Im Gegensatz zu den Regressionskoeffizienten, die sich auf die Skalen der Variable beziehen, hat R² einen fest definierten Wertebereich und ist somit über verschiedene Modelle (auch mit unterschiedlich skalierten Variablen) vergleichbar.
      Es gibt verschiedentliche Hinweise, R² zu interpretieren. Ich wäre da vorsichtig, allgemeingültige Regeln aufzustellen. Was „gute“ Modelle oder „starke“ Effekte sind, ist sehr kontextabhängig. In technischen Kontexten mag ein R² von 0,9 zu wenig sein, in gesellschaftswissenschaftlichen Kontexten treten oft deutlich niedrigere Werte auf, da es viele zum Teil nicht messbare bzw. kontrollierbare Einflüsse gibt.

      Idee zu H3: multiples lineares Modell mit Therapiebeziehung als abhängiger Variable und verbale sowie nonverbale Passung als unabhängige Variablen. Wenn beide Passungsarten im gleichen Modell enthalten sind, kann man ihre Effekte vergleichen. Da die Skalen gleich sind, kann man direkt die Regressionskoeffizienten vergleichen, zusätzlich auch die p-Werte.

      Was halten Sie davon, die Hypothese gerichtet zu formulieren? Bei welcher Passungsart erwarten Sie den stärkeren Effekt auf die Therapiebeziehung?

      1. Vielen Dank für die hilfreichen Antworten!

        Das R^2 beträgt 0.08 – ich würde dies als kleinen Effekt einstufen.

        H3: Hm, schwierig zu sagen, beide Passungsarten sind sehr einflussreich. Ich könnte auch explorativ (es gibt noch nicht viel Forschung dazu) eine Annahme machen. Könnte man die multiple Regression auch bei der ungerichteten Hypothese durchführen? Müsste nicht noch eine Überprüfung auf Signifikanz der Unterschiede der Regressionskoeffizienten durchgeführt werden?

        Liebe Grüsse
        Anna

        1. H3: Vorsicht – es ist keine gute wissenschaftliche Praxis, eine Hypothese anhand von Daten aufzustellen und an denselben Daten zu testen. Ich würde es inhaltlich überlegen / begründen. War nur ein Vorschlag – die Regression ist auch geeignet, die ungerichtete Hypothese zu testen.

          Signifikanztest für die Unterschiede der Regressionskoeffizienten: Falls einer signifikant ist und einer nicht, ist das wohl nicht notwendig. Auch nicht, wenn beide nicht signifikant sind. Sollten beide signifikant sein, könnten Sie ein weiteres Modell mit Interaktionsterm aufnehmen, d. h. die beiden unabhängigen Variablen multiplizieren. Fällt dieser Term signifikant aus, dann gibt es eine Wechselwirkung, d. h. die Einflüsse verlaufen nicht parallel, sind also unterschiedlich.

    2. Guten Tag Herr Riepl,

      ich habe zwei Fragen bezüglich einer statistischen Auswertung. Ich habe einen Sporttest bestehend aus 5 Testaufgaben, für welche es pro Aufgabe 0-4 Punkte gab mit verschiedenen Probanden durchgeführt. Zum einen soll der Test auf seine Reliabilität hin getestet werden. Dafür habe ich einen Re-Test unter gleichen Versuchsbedingungen 12 Wochen später mit den selben Personen durchgeführt. Kann ich für den Nachweis der Reliabilität einen t-Test verwenden und für jedes Item den Rangkorrelationskoeffizient nach Spearman berechnen oder eigenen sich dafür eine andere Auswertungsmethode besser? Zum Anderen möchte ich in einem zweiten Schritt die Eingangstestung dafür nutzen, um zu untersuchen, welche Einflussfaktoren (wie Alter, Geschlecht, BMI, Herkunft) das Endergebnis in dem Sporttest beeinflussen. Welche Teststatistik eigneet sich dafür am besten? Ich hatte überlegt, die Einflussfaktoren eventuell über einen Mosaik-Plot zu bestimmen aber bin mir unsicher, ob das der richtige Ansatz ist.

      Vielleicht können Sie mir weiterhelfen.
      Freundliche Grüße
      Luise

      1. Hallo Luise,

        zur Reliabilität:
        Da gibt es verschiedene Dimensionen, die Retest-Reliabilität ist nur eine davon. Eine andere ist die Interne Konsistenz, für die man (ohne Messwiederholung) Cronbach’s Alpha berechnen kann.
        Für die Retest-Reliabilität halte ich die Spearman-Korrelation hier für geeignet.

        Zu den Einflussfaktoren:
        Da gibt es verschiedene Möglichkeiten, die z. B. von der Komplexität, den Hypothesen und auch dem Skalenniveau abhängen. Wie wird das „Endergebnis im Sporttest“ abgebildet? Wenn es die Summe oder der Mittelwert der 5 Testaufgaben ist, ist das schon mal eine recht fein abgestufte Variable. Wenn sie einigermaßen normalverteilt ist, kann man parametrische Verfahren wie t-Test oder auch Regressionsanalysen anwenden. Man kann die Einflussfaktoren jeweils einzeln testen, z. B. t-Test für Geschlecht oder Korrelation für BMI oder Varianzanalyse für Herkunft. Es ist auch möglich, ein gemeinsames Modell mit mehreren Einflussfaktoren aufzustellen. Ich empfehle „vom Einfachen zum Komplexeren“, um ein gutes Gespür für die Daten zu bekommen. Oft gibt es Wechselwirkungen zwischen Einflussfaktoren, sodass Einzeltests ein anderes Bild zeigen als ein gemeinsames Modell. Stichworte Multikollinearität, Scheinkorrelation, verdeckte Korrelation. Mosaik-Plot ist auch ein guter Baustein, um Zusammenhänge zu erkennen.

        1. Lieber Herr Riepl,

          vielen Dank für die schnelle Rückmeldung. Jetzt habe ich auf jeden Fall einen guten Ansatz für die weitere Datenauswertung. Das Endergebnis setzt sich aus der Summe der Testaufgaben zusammen. Die Einflussfaktoren einzeln zu testen war ein sehr guter Hinweis.

  9. Lieber Herr Riepl,

    ich wäre Ihnen sehr dankbar für die Beantwortung einer Frage, mit der ich mich schon einige Stunden beschäftige:

    In einer Seminararbeit möchte ich den Einfluss der Bezugsnormorientierung von Lehrern (kategoriale Variable mit 3 Stufen) auf verschiedene abhängige Variablen auf Schülerseite untersuchen. Dafür würde ich gerne eine ANCOVA rechnen. Es ergeben sich nun zwei Probleme, mit denen ich nicht umzugehen weiß:

    1) Die abhängige Variable sowie die Kovariate ist ordinalskaliert (5 Stufen). Ich habe Ihren vorherigen Kommentaren entnommen, dass es akzeptabel ist, diese Variablen als metrisch zu betrachten, solange man darauf in der Diskussion hinweist. Das Problem ist, dass die abhängigen Variablen mit nur wenigen Items erfasst werden. Im Internet stand, dass likertskalierte Items als metrische Variablen behandelt werden können, wenn die Skala aus mehreren Items besteht, was bei mir aber nicht der Fall ist. Ist es trotzdem akzeptabel, die Items als metrisch zu betrachten?

    2) Ich würde gerne ein Prä-Post-Test-Design durchführen und die Prätestdaten als Kovariate in die Varianzanalyse mit aufnehmen. Ist es bei einem solchen Design legitim, eine ANCOVA zu rechnen, da die Prä- und Posttest-Daten ja voneinander abhängig sind.

    Ich habe schon einige Stunden mit der Recherche nach nicht-parametrischen Verfahren verbracht, allerdings scheint es kein weit verbreitetes Verfahren zu geben. Ich wäre Ihnen extrem dankbar, wenn Sie mir weiterhelfen könnten.

    Vielen Dank im Voraus!

    Liebe Grüße

    Edessa

    1. Hallo Edessa,

      1: Da gibt es kein „hartes“ Kriterium, wann es noch geht oder wann nicht mehr. Ich würde mir die Verteilung der abhängigen Variable anschauen. Wenn z. B. 90% der Teilnehmer auf der gleichen Stufe geantwortet haben, wird die Variable nicht mehr viel für die Auswertung hergeben.
      Eine Alternative wäre ordinal-logistische Regression, die allerdings selten verwendet wird und deutlich anspruchsvoller ist in der Handhabung, Prüfung der Voraussetzungen (proportional odds) und Interpretation (Odds Ratios; klare Unterscheidung von Wahrscheinlichkeiten, Chancen und Chancenverhältnissen).
      Ich würde, wenn möglich, die ordinal-logistische Regression vermeiden, bei Ihrer präferierten Methode bleiben und die Voraussetzungen diskutieren.

      2: Design mit Messwiederholung. Je nach Software kann das unterschiedlich heißen. Mixed Effect Model.

      Nichtparametrisch: Für zwei Gruppen gibt es Mann-Whitney-U-Test (unabhängige Stichproben) und Wilcoxon-Test (abhängige Stichproben bzw. Messwiederholung). Erweiterungen bei mehr als zwei Gruppen: Kruskal-Wallis-Test bzw. Friedman-Test.

      Eine weitere Alternative könnte sein, Gruppen der abhängigen Variable zusammenzufassen. Z. B. auf zwei Gruppen vereinfachen (hoher vs. niedriger Wert, inhaltlich oder nach Verteilung entscheiden) und dann z. B. binär-logistische Regression rechnen.

      1. Vielen, vielen Dank für die schnelle Antwort! Ich hätte noch eine Rückfrage zum zweiten Teil Ihrer Antwort: Bedeutet das, ich kann bei einem Prä-Post-Test-Design keine ANCOVA rechnen (mit den Prätestdaten als Kovariate)?
        An den Kruskal-Wallis-Test habe ich auch schon gedacht, allerdings habe ich es nach meinen Recherchen so verstanden, dass man bei diesem keine Kovariate in die Analyse aufnehmen kann. Oder gibt es doch die Möglichkeit, das zu tun?

        Vielen Dank nochmal!

        1. Ich denke, dass man explizit ein Messwiederholungs-Design (bzw. abhängige Stichproben, wie auch immer das in der jeweiligen Software bezeichnet sein mag) einstellen muss.

          Ja, ich denke Kruskal-Wallis bedeutet Verzicht auf Kovariate (und unabhängige Stichproben). Wilcoxon (2 Gruppen) und Friedmann (>2) für gepaarte = abhängige Stichproben, ohne Kovariate.

  10. Hallo Herr Riepl,
    ich würde mich über eine Antwort zu einer Statistik-Frage sehr freuen.

    Es geht darum, dass Patienten befragt wurden und deren Antworten dann jeweils einer von 4 Kategorien zugeordnet wurden. Es waren Mehrfachantworten pro Patient erlaubt, weshalb die Antworten eines Patienten theoretisch in verschiedenen der 4 Kategorien zu finden sein können.
    Nun wollte ich eigentlich Chi-Quadrat-Tests durchführen und z.B. zu überprüfen ob weibliche und männliche Patienten unterschiedliche Antwortmuster zeigen. Aufgrund der Mehrfachantworten sind jedoch die Messungen nicht unabhängig oder? Dies ist ja eine Voraussetzung des Chi-Quadrat-Tests.

    Ich konnte leider noch keine Testalternative finden außer den McNemar Test und den Cochran’s Q Test, die jedoch nicht so ganz zu meinen Daten und der Fragestellung zu passen scheinen.
    Gäbe es denn noch weitere Tests oder ist ein Chi2 Test zur Not vielleicht doch in Ordnung?

    Vielen Dank und liebe Grüße
    Svea

    1. Tatsächlich etwas tricky. In SPSS gibt es Signifikanztests speziell für Mehrfachantworten. Ansonsten sind es ja mehrere Variablen, je nach Codierung. Man kann die Kategorien separat testen, z. B. gibt es einen Gruppenunterschied weiblich vs. männlich hinsichtlich Kategorie 1 ausgewählt oder nicht ausgewählt. Ggf. bei Mehrfach-Tests das Signifikanzniveau anpassen, z. B. mit Bonferroni-Korrektur. Siehe etwa https://www.stat.berkeley.edu/~mgoldman/Section0402.pdf

      1. Vielen Dank für die schnelle Antwort und den Tipp. Ich habe mir Ihr Video zum Chi-Quadrat-Test für Mehrfachantworten angesehen und die Analyse ausprobiert. Ich frage mich aber, ob es auf diese Weise auch möglich ist noch mehr Informationen außer den p-Wert zu erhalten so wie dies bei „normalen“ Kreuztabellen möglich ist, also z.B. die erwarteten Werte, die Effektstärke sowie die angepassten standardisierten Residuen für eine Post-Hoc Analyse bei Signifikanz. Ist dies möglich?

  11. Guten Morgen Herr Riepl,

    auch ich plage mich mit der Frage der richtigen Analyse.

    Es handelt sich bei mir um eine kleine Schulerhebung, bei der Schüler*innen zu zwei Messzeitpunkten einen Fragebogen erhalten haben, in dem verschiedene motivationale Konstrukte (bspw. Selbstkonzept etc.) erfragt wurden.
    Bei beiden Messzeitpunkten handelte es sich um die gleichen Klassen, jedoch können die Daten des zweiten Messzeitpunktes nicht eindeutig den Daten der Schüler*innen des 1. MZ zugeordnet werden, da aus ökonomischen Gründen auf (pseudo)personalisierte Fragebögen verzichtet wurde.

    Nun möchte ich überprüfen, ob ein Ereignis zwischen den Messzeitpunkten eine Veränderung in den Daten bewirkt hat und ob diese von anderen UVs moderiert wird.

    Eigentlich wollte ich eine Varianzanalyse mit Messwiederholung anwenden, scheitere jedoch an dem Umstand, dass die Daten zu beiden Messzeitpunkte in SPSS zeilenweise und nicht spaltenweise (da keine Zuordnung möglich ist) vorhanden sind, so dass eine Anova nicht berechnet werden kann.
    Muss ich meine Daten aufgrund der fehlenden Zurordnung nun als unabhängig betrachten, obwohl es die gleichen Schüler*innen sind? Ich weiß aktuell nicht mehr, welche Analyse geeignet ist und hoffe, Sie können das Durcheinander in meinem Kopf etwas lösen.

    Vielen Dank und beste Grüße
    Johanna

    1. Hallo Johanna,
      tja, ein Dilemma: fachlich korrekt, aber technisch nicht möglich ist Varianzanalyse mit Messwiederholung.
      Technisch möglich, aber fachlich nicht korrekt sind Tests ohne Messwiederholung, d. h. für unabhängige Stichproben.
      Ich würde das pragmatisch sehen: Daten sind in der Praxis oft nicht so, wie man sie idealerweise gern hätte. Ich würde die Datenerhebung beschreiben. Manchmal gibt es einen Abschnitt „Diskussion der verwendeten Methoden“, in dem man auf Vor- und Nachteile eingeht, da kann man das offenlegen. Unsauberer wäre es, diese Umstände unter den Tisch fallen zu lassen.

  12. Hallo Herr Riepl,

    vielen Dank für Ihr Video!

    Ich schreibe derzeit meine Masterarbeit und bin auf der Suche nach dem richtigen Test für meine Fragestellung. Vielleicht können Sie mir weiterhelfen, das wäre sehr toll!

    In der Arbeit geht es darum, inwiefern Persönlichkeitszüge die Intention Remote Work zu nutzen, beeinflussen. Hierzu wird ein Fragebogen erstellt, bei dem zum Einen die Ausprägung von 5 Persönlichkeitszügen mittels Likert-Skala erfasst wird. Zum Anderen wird die Intention der Remote Work in den Abstufungen 20%/40%/60%/80%/100% erfasst. (a la „Wie oft würden Sie gerne remote arbeiten?“)

    Hypothesen sind dann z.B. ‚Desto introvertierter eine Person ist, desto eher wird sie remote work nutzen wollen‘; analog dann dazu die Hypothesen für die übrigen 4 Persönlichkeitsmerkmale.

    Es soll getestet werden, ob es hier Signifikanzen gibt bzw. ob es Signifikanzen trotz Störgrößen wie beispielsweise Wegzeit zum Arbeitsplatz oder Wohnungsgröße gibt.

    Kann man hierfür die Pearson-Korrelation der einzelnen Persönlichkeitsmerkmale in Zusammenhang mit der Intention zu Remote Work berechnen? Oder doch eine (multiple?) Regressionsanalyse? Das wären jetzt meine beiden Gedanken, wobei ich mir nicht sicher bin, wie ich das mit den Störgrößen reinbringen kann…

    Ich würde mich sehr über eine Antwort freuen!

    Viele Grüße und einen schönen restlichen Sonntag,

    Laura

    1. Hallo Laura,

      Korrelationen sind natürlich möglich. Passen für den Zusammenhang zwischen zwei Variablen, ohne Berücksichtigung von Drittvariablen. Im Zweifelsfall bei diesen Daten empfehle ich eher Spearman als nichtparametrische Methode für Ordinalskalen (Rangplätze).

      Mit multiplen Regressionsmodellen ist die Berücksichtigung von Drittvariablen („Störgrößen“) möglich. Hier würde ich zumindest diskutieren, inwieweit die Voraussetzungen erfüllt sind. Die Regression geht von normalverteilten, intervallskalierten Merkmalen aus – wird aber häufig bei Likertskalen und Ordinalskalen eingesetzt.

      Es gibt auch eine ordinal logistische Regression, die erfordert aber gründliche Einarbeitung und ist deutlich anspruchsvoller zu interpretieren als die lineare Regression.

  13. Sehr geehrter Herr Riepl,

    vielen Dank für die wohlwollenden Antworten und die tollen Infos hier! Ich würde mich daher auch sehr über eine Einschätzung meines Analyseplans freuen!
    In meiner MA rechne ich eine Messwiederholungsanova mit zwei unabhängigen, nominalskalierten UVs, within-suject (je 2 Ausprägungen, also ein 2×2-Design). Meine AV ist einmal Reaktionszeit (intervall), einmal eine Einschätzung auf einer Likert-Skala (oridinal/intervall). Dazu keine Fragen.
    Doch nun habe ich noch eine kontinuierliche, intervallskallierte Skala eingebaut, für die ich für jede Person einen Mittelwert errechne. Das bedeutet aber, dass ich hier nun keine Gruppen mehr miteinander vergleiche, sondern, dass es Sinn machen würde, das Ausmaß der Skala direkt mit der Reaktionszeit/ der Einschätzungswerte zu korrelieren? Oder gar eine Regression zu rechnen? Oder würde ich die Skala als Zwischensubjektfaktor einfach in die rmANOVA mitaufnehmen?

    Vielen herzlichen Dank im Voraus!
    Liebe Grüße
    Anna Leitz

    1. Hallo Frau Leitz,
      ich denke die Frage ist eher inhaltlich als statistisch zu beantworten. Ich würde Hypothesen aufstellen. Welche Zusammenhänge vermuten Sie, welche Zusammenhänge interessieren Sie? Danach würde ich die Methode(n) auswählen. Ich sehe die Statistik als Hilfsmittel, um Fragen zu beantworten. Sozusagen als Dienerin, nicht als Chefin.

  14. Hallo Herr Riepl,

    ich bin verzweifelt auf der Suche nach einer Antwort für mein Statistik-Problem. Über Google bin ich bei Ihnen gelandet und trotz der vielen Infos – danke dafür – bin ich noch immer nicht sicher, wie in meinem Fall die optimale Vorgehensweise ist. Vielleicht wissen Sie ja Rat?

    Bei 20 Probanden werden kontinuierlich EEG-Gehirnwellen gemessen. 10 Minuten als Basis/Referenz Zustand R, 10 Minuten Zustand A und 25 Minuten Zustand B. Die Daten wurden in 1-Minuten-Sektionen unterteilt, um etwaige Ausreißer (Bewegungsartefakte) entfernen zu können, ohne die gesamte Messung verwerfen zu müssen. D.h. in der Regel habe ich nicht 10/10/25 Stichproben, sondern je Proband 3 verschiedene Anzahlen an Stichproben für die Zustande R, A und B. Die Unterschiede zw. den Zuständen A gegenüber R bzw. B gegenüber R würde ich gerne innerhalb der Probanden statistisch erfassen. Die Daten können normalverteilt angenommen werden.

    Meiner Überlegung nach, wäre innerhalb der Probanden an abhängiger t-Test passend, nur habe ich aufgrund der unterschiedlichen Anzahl an Stichproben per se keine Werte-Paare. Was wäre Ihrer Meinung nach besser: Für den anhängigen t-Test Paare erzwingen und somit Stichproben verwerfen oder den ggf. weniger passenden unabhängigen t-Test durchführen unter Verwendung aller verfügbaren Stichproben?
    Ihre Meinung dazu würde mich sehr interessieren, da ich mich hier im Kreis drehe und keine Lösung finde…

    Mit bestem Gruß
    Martin

    1. Hallo Martin,
      der t-Test für unabhängige Stichproben passt bei Messwiederholungen nicht.
      Die Erfassung der „1-Minuten-Sektionen“ ist mir nicht ganz verständlich. Vielleicht ist es sinnvoll, für jeden Probanden je einen Wert für die Zustände R, A und B anzusetzen. Sei es ein plausibler Wert (kein Ausreißer / Bewegungsartefakt) oder ein Mittelwert / Median aus mehreren Werten. Das ist inhaltlich zu entscheiden, dafür stecke ich zu wenig in den Details.
      Jedenfalls gibt es, soweit ich es verstehe, für jeden Probanden so oder so mehr als zwei Werte. Es ist nicht ganz sauber, mehrere Vergleiche mit separaten t-Tests (für abhängige Stichproben) durchzuführen, z. B. R vs. A, R vs. B, A vs. B. Stichwort Alpha-Fehler-Kumulierung. Besser wäre ein Modell, das mehrere Messzeitpunkte berücksichtigt, z. B. Anova mit Messwiederholung bzw. Mixed Linear Model (da gibt es unterschiedliche Bezeichnungen in verschiedenen Software-Paketen).

      1. Hallo Wolf,
        vielen Dank – ich schätze Deine Rückmeldung sehr.

        Also der paired t-Test…diese Aussage hilft mir.

        Die 1-Minuten-Sektionen sind Willkürlich und kommen aus der digitalen Signalverarbeitung. Die EEG-Signale werden in Frequenzspektren umgewandelt. Das passiert mit überlappenden 2-Sekunden-Zeitfenstern. Bei Ausreißern/Artefakten reduziert sich die Anzahl der verwendbaren Zeitfenster innerhalb der 1-Minuten-Sektion und damit auch die Anzahl der Medianwertbildungen und somit auch das Signal zu Noise-Verhältnis. Die 1-Minuten-Sektionen erlauben mir somit „schlechte“ Messungen zu verwerfen, ohne die anderen Messungen der betreffenden Kondition zu beeinflussen. Dank Deines Denkanstoßes werde ich nochmals über eine Möglichkeit nachdenken, einen einzelnen repräsentativen Wert je Kondition (R, A, B) abzuleiten.

        Ich habe nachgesehen – das Softwarepaket (auf EEG-Signalverarbeitung ausgelegte MATLAB-Anwendung) bietet leider keine Multifaktor-Statistik wie Anova etc. an.

        Danke für den Hinweis bzgl. der Alpha-Fehler-Kumulierung!
        Danke und beste Grüße, Martin

  15. Hallo Herr Riepl,

    ich wäre sehr dankbar, wenn Sie mir bei einer Statistik-Frage helfen könnten.
    Ich habe ausschließlich nominal skalierten Variablen (mit je 2 oder mehr Ausprägungen) und dazu habe ich gerichtete Hypothesen formuliert (z.B. Frauen schreiben ihre Krankheit mehr externen Ursachen zu als Männer). Nun war eigentlich mein Plan Chi-Quadrat Tests durchzuführen, da ja alle Variablen kategorial sind. Wenn ich das nun aber richtig verstanden habe, ist es gar nicht möglich mit Chi-Quadrat Tests gerichtete Hypothesen zu testen sondern nur zu schauen ob es überhaupt einen Unterschied gibt? Gäbe es denn dann einen anderen statistischen Test um eine gerichtete Hypothese mit nominalen Variablen zu testen? Oder geht das irgendwie auch mit einem Chi-Quadrat Test?
    Vielen Dank im Voraus!
    Liebe Grüße
    Svea

    1. Wenn es z. B. binär externe vs. interne (? jedenfalls nicht-externe) Ursachen gibt, kann man relative Häufigkeiten vergleichen. Ist die Häufigkeit externer Ursachen bei Frauen höher als bei Männern? Dann ist eine gerichtete Hypothese auch per Chi-Quadrat-Test überprüfbar. D. h. der Test sagt aus, ob der Unterschied statistisch signifikant ist, und der Blick auf die relativen Häufigkeiten sagt aus, in welche Richtung der Unterschied weist.

  16. Guten Tag Herr Riepl,

    ich schreibe gerade Bachelorarbeit und bin mir der statistischen Analyse nicht sicher. Könnten sie mir evtl. einen Tipp geben?

    Thema: Persönlichkeitsunterschiede in der Präferenz von Reinigungsprodukten nach der Wiedergabe einer unmoralischen Handlung

    UV: moralische Handlung (Kontrollgruppe) / unmoralische Handlung
    UV: Ausprägung von Persönlichkeitsmerkmalen z.B. Gewissenhaftigkeit „zuverlässig, selbstdiszipliniert“ auf einer Skala von 1 (trifft überhaupt nicht zu) bis 7 (trifft voll und ganz zu)
    AV: Bewertung der Attraktivität von Reinigungsprodukten und Nicht-Reinigungsprodukten auf einer Skala von 1 (überhaupt nicht) bis 7 (sehr stark)

    Hypothesen

    1) Personen, die sich als gewissenhaft einschätzen, bewerten Reinigungsprodukte nach der Beschreibung einer unmoralischen Handlung positiver, verglichen mit Nicht-Reinigungsprodukten als Personen, die sich als weniger gewissenhaft einschätzen.

    2) Personen, die sich als verträglich einschätzen, bewerten Reinigungsprodukte verglichen mit Nicht-Reinigungsprodukten nach der Beschreibung einer unmoralischen Handlung positiver als Personen, die sich als weniger verträglich einschätzen.

    3) Personen, die sich als ängstlich einschätzen, bewerten Reinigungsprodukte verglichen mit Nicht-Reinigungsprodukten nach der Beschreibung einer unmoralischen Handlung positiver als Personen, die sich als weniger ängstlich einschätzen.

    Welche statistischen Methoden sind hier sinnvoll? Multiple Regression? Moderation? ANOVA?
    Wie wandle ich die ordinalskalierten Variablen zu metrisch bzw. nominalen Variablen um?

    Ich würde mich über eine Antwort ihrerseits freuen!

    Beste Grüße,
    Marie

    1. Hallo Marie,

      meine Gedanken dazu:

      1. Ich verstehe die Hypothesen so, dass sie sich auf die Teilgruppe der Personen beziehen, denen eine unmoralische Handlung beschrieben wurde. Man könnte zunächst nur für diese Teilgruppe bivariat den Zusammenhang zwischen Persönlichkeitsmerkmalen und der Bewertung der Reinigungsprodukte untersuchen.

      2. Die Hypothesen klingen nach Zweiteilung der Persönlichkeitseigenschaften in zwei Gruppen hoch / niedrig (bzw. gewissenhaft oder nicht, verträglich, ängstlich oder nicht). Das kann man machen. Alternative wäre, die Antworten auf der 7er-Skala zu belassen und z. B. Korrelationen zu berechnen. Formulierung dann besser „Je gewissenhafter (verträglicher, ängstlicher), desto positiver die Bewertung der Reinigungsprodukte.

      3. Bis hierhin tauchen diejenigen, denen eine moralische statt einer unmoralischen Handlung beschrieben wurde, noch nicht auf.
      Zunächst würde ich die gleichen Untersuchungen wie oben für diese Teilgruppe vornehmen. Das gibt es besseres Verständnis für die Daten.

      Wenn es dann noch etwas fortgeschrittenere Methoden sein sollen, kann man sich an ein Gesamtmodell für alle Probanden machen. Es gibt mehrere Möglichkeiten: moralische vs. unmoralische Handlung kann den Zusammenhang zwischen Persönlichkeit und Bewertung Reinigungsprodukt verstärken, abschwächen, umkehren, oder keinen Effekt haben. Die Art der beschriebenen Handlung kann eine Kontrollvariable sein, es könnte auch einen Interaktionseffekt (Moderation) geben. Ich würde mehrere Modelle aufstellen, um Schritt für Schritt die Zusammenhänge besser zu verstehen. Das geht mit multipler Regression oder ANOVA, je nach Vorliebe.

      1. P. S. Zum Skalenniveau: 7er-Skale sind streng genommen ordinal, werden in solchen Untersuchungen aber häufig als (quasi-)metrisch angenommen. Ein „perfektes“ Modell mit „idealen“ Variablen gibt es selten. Ich würde das irgendwo diskutieren (z. B. ein einem Abschnitt „Kritische Diskussion der verwendeten Methoden“), um zu zeigen, dass ich mir darüber Gedanken gemacht habe.

  17. Hallo lieber Herr Riepl,
    ich habe mir eben die meisten Kommentare durchgelesen und hoffe, dass Sie auch mir so gut helfen können.

    Ich arbeite aktuell an meiner Masterarbeit und bin im Hinblick auf die Testverfahren noch etwas überfragt. In meiner MA möchte ich gerne herausfinden, welche Empfehlungen (Freunde vs. App vs. keine Empfehlung = Kontorllgruppe) am besten funktionieren. Dafür habe ich einen Fragebogen mit zwei Manipulationen erstellt (1. Empfehlung der App, 2. Empfehung des Freundes und 3. keine Empfehlung = Kontrollgruppe).

    Für die Variable „Investitionsentscheidung“ habe ich eine Skala, die aus 4 Items besteht, erstellt. Außerdem messe ich Overconfidence Bias/ Herding Effect/ etc. in Form von Skalen, die jeweils eine Likert-Skala von 1-7 aufweisen und somit ordinal sind.

    1. Habe ich es richtig verstanden, dass ich alle Items aus einer Skala nun jeweils zu einer neuen Variable (MEAN/MEDIAN) berechnen muss oder rechnet man dann beispielsweise auch mal nur mit einem Item?
    2. Welches Skalenniveau gebe ich den neu berechneten Variablen?
    3. Ich möchte beispielsweise die Hyptothese: „Frauen nehmen häufiger Empfehlungen an als Männer“ testen. Da ich gleich viele Männer wie Frauen habe, ist dies normalverteilt. Nun kommt meine vorherige Frage ins Spiel. Nehme ich nun die neu berechnete Variable (Investitionsentscheidung zusammengefasst aus allen Items)?: Wenn diese auch normalverteilt ist -> t-Test für unabhängige Stichproben? Oder nehme ich ein Item -> Da das aber ordinal ist würde ich den Mann-Whiteny-U-Test verwenden?
    4. Ich würde außerdem gerne testen, ob overconfidence bei Männern mehr zutrifft als bei Frauen & in Zusammenhang mit dem Gehalt, ob Geringverdiener weniger Investitionsempfehlungen annehmen als Menschen mit hohem Einkommen. Ich bin allerdings bei den Tests noch sehr sehr unsicher.

    Ich hoffe Sie können mir ein Wenig weiterhelfen und freue mich sehr über Ihre Antwort. Vielen Dank und liebe Grüße! 🙂

    1. Hallo Sabrina,
      1. Das gibt nicht die Statistik vor, sondern inhaltliche Erwägungen. Wenn Sie Hypothesen für einzelne Items haben oder die Zusammenhänge spannend finden, rechnen Sie damit. Wenn es Ihnen inhaltlich um die Skalen geht, nehmen Sie nur die.
      2. Variablen, die aus mehreren Items zusammengesetzt sind, sind feiner abgestuft als einzelne Items auf Ordinalskalen. Häufig werden sie als (quasi-)metrisch angenommen. Wenn Sie Zeit und Platz haben, können Sie diese Annahme diskutieren – „perfekte“ Intervallskalen sind bei solchen Arbeiten selten. Ich würde mir die Verteilungen der neu gebildeten Variablen ansehen, am besten grafisch (z. B. Histogramm mit Normalverteilungskurve) und statistisch (z. B. Shapiro-Wilk-Test). Außerdem gilt: Je höher die Fallzahl, desto eher können statistische Methoden mit Verletzungen der Normalverteilungsannahme umgehen.
      3. Gleich viele Männer und Frauen – das ist Gleichverteilung, nicht Normalverteilung. Normalverteilung bezieht sich auf intervallskalierte Merkmale, nicht kategoriale / binäre Merkmale.
      Zum Test: Wie oben – wenn die Investitionsentscheidung einigermaßen normalverteilt ist, t-Test. Bei Einzelitems ist Mann-Whitney gut. Sie können ja beide Tests rechnen und Ergebnisse vergleichen. Häufig führen sie zum gleichen Rückschluss auf die Hypothese. Wenn nicht, liegt es meist an Ausreißern (die sich stärker auf den parametrischen t-Test auswirken als auf den nichtparametrischen MW-Test, der die Daten ordinal auffasst).
      4. Hier können Sie mit den gleichen Tests arbeiten.

      Wenn Sie Kontrollvariablen berücksichtigen wollen, können Sie zusätzlich z. B. Regressionsmodelle aufstellen.

      1. Lieber Herr Riepl,

        ich habe auch eine Frage zu meiner Bachelorarbeit und wäre über jede Hilfe sehr dankbar. Ich habe eine Feldstudie durchgeführt und dabei zwei Datensätze generiert. Die Daten sind alle dichotom. Ist es möglich einen T-Test zu verwenden oder kann ich nur mit Chi Quadrat testen?
        Vielen Dank für ihre Hilfe.
        Viele Grüße
        Friederike

        1. Hallo Friederike,
          der t-Test ist nicht für dichotome abhängige Variablen gedacht. Es soll ja (annähernd) Normalverteilung vorliegen, dazu braucht es feinere Abstufungen.
          Wenn es inhaltlich sinnvoll ist, mehrere dichotome Variablen zusammenfassen, z. B. durch Summenbildung (ja = 1, nein = 0), entsteht eine feiner abgestufte Skala, die (bei einigermaßen geeigneter Verteilung) als abhängige Variable des t-Tests dienen kann.

  18. Hallo Wolf,
    ich möchte einen Gruppenunterschied zwischen 2 unabhängigen Gruppen testen, dabei 2 Kovariaten mit einbeziehen (1x ordinal, 1x metrisch), die AV ist 11 stufig, also ebenfalls ordinal, Normalverteilung ist nicht gegeben, die Stichprobengröße ist groß!
    – Kann ich hier trotz der Verstöße (keine metrische, sondern ordinale AV und Kovariate) eine ANCOVA rechnen?

    —> oder könnte man auch den Kruskal Wallis Test machen und da die Kovariate als weitere UV miteinbeziehen?
    –> oder gibt es noch für ein alternatives Verfahren, bei dem man 2 Kovariaten (1x metrisch, 1x ordinal) miteinbeziehen kann und die AV ordinal sein darf?
    hab schon super viel recherchiert und bin sehr dankbar über jegliche Antwort
    viele Grüße
    Fritzi

    1. Hallo Fritzi,
      Datenanalyse ist oft kein Wunschkonzert … Spezielle Methoden für ordinale AV sind komplizierter zu handhaben (v. a. in der Interpretation) als Methoden für intervallskalierte AV. 11 Stufen werden oft als „quasi-metrisch“ angenommen. Man kann diskutieren, inwieweit die Modellannahmen erfüllt sind. Uneingeschränkt erfüllt sind sie selten. Je größer die Stichprobe, desto weniger schaden Abweichungen von der Normalverteilung.
      Kruskal-Wallis ist meines Erachtens bivariat – ich wüsste nicht, wie man da eine weitere UV einbezieht.
      Bei ordinalen Merkmalen mit wenigen Ausprägungen kann man alternativ eine Dummy-Codierung verwenden, dabei geht allerdings die Information über die Rangfolge der Merkmale verloren. (Z. B. Kategorie 1: 0 = nein, 1 = ja; Kategorie 2: 0 = nein, 1 = ja, usw.)
      Regressionsmodelle basieren auf den gleichen Grundlagen wie varianzanalytische Verfahren.

  19. Pingback: The Best varianzanalyse mit excel New Update - Tratamientorosacea.com
  20. Hallo Wolf,

    auch ich habe eine kleine Frage. Ich möchte untersuchen, ob Product Overload einen Einfluss auf die Zufriedenheit hat. Meine Hypothese lautet: Je höher der Product Overload, desto niedriger die Zufriedenheit.
    Nun zu meinen Fragen:
    – Product Overload messe ich mithilfe einer Likert-Skala, die ich in der Literatur finden konnte. Diese war ursprünglich 10-stufig, ich habe sie aber zu einer 7-stufigen Likert-Skala abgewandelt (ich habe gelesen, dass weitere Abstufungen eher verwirren). Ist das überhaupt „erlaubt“?
    – Meine Zufriedenheit messe ich auch mit einer Likert-Skala aus der Literatur. Diese ist jedoch 5-stufig. Ist es ein Problem, dass meine uV und aV verschiedene Merkmalsausprägungen (also 5er Likert-Skala vs. 7er Likert-Skala) haben?
    – In meiner Hypothese gehe ich ja von einer je-desto-Beziehung aus. Meine Variablen sind beide quasi-metrisch. Kann ich dann eine univariate Regression berechnen?

    Vielen, vielen Dank vorab für deine Antwort und Hilfe!
    Emmi

    1. Hallo Emmi,
      Dein beschriebenes Vorgehen ist nicht unüblich. Solange Du alles gut dokumentierst und begründest, sehe ich da kein Problem. Es ist gut, sich der Grenzen der Methoden bewusst zu sein – sowohl der Messung (Befragung) als auch der Statistik. Exakte, auf Dezimalstellen belastbare Ergebnisse bekommt man bei solchen Fragestellungen kaum, aber man kann Zusammenhänge und Wirkungsrichtungen (Vorzeichen) schon interpretieren.

  21. Hallo!
    Ich frage mich aktuell welches Verfahren sich eignet um sich die Entwicklung einer angenommenen (partiellen) Mediation über vier Messzeitpunkte für nicht parametrische Daten anzuschauen, finde allerdings nichts wirklich passendes. Können Sie mir da vielleicht einen Tipp geben?
    Liebe Grüße
    Kathrin

    1. Den Fall hatte ich ehrlich gesagt noch nicht. Mediation gehört zu den (parametrischen) Regressionsverfahren … Vielleicht gibt’s da spezielle Verfahren im Rahmen der gemischten Modelle (mixed models).

  22. Hallo Wolf!
    Ich möchte untersuchen, ob die Beziehung zwischen belastenden Ereignissen (erhoben habe ich 9 unterschiedliche Ereignisse z.B. Trennung, Covid etc, in erlebter Intensität 1-10, intervallskaliert) und der Ausbildung depressiver Symptome (Fragebogen mit Gesamtwert, intervallskaliert) durch einen Faktor X (Fragebogen, Gesamtwert, intervallskaliert) moderiert wird. Nun dachte ich, mache ich in SPSS (via Makro Process) für jedes Ereignis eine moderierte Regression. Nun meine Fragen:

    1. Was aber, wenn ich Unterschiede bzgl. TeilnehmerInnen (z.B. Altersgruppen 30-35 vs. 50-55-jährige / Schulabschluss, zusammen mit jeweiliger Ausprägung Faktor F) mit einbeziehen möchte? Kann ich Gruppenvergleiche in eine moderierte Regression einbeziehen, oder sollte ich dann besser ein Strukturgleichungsmodell nutzen? Bzw. welches Vorgehen wäre dafür angezeigt?

    2. Welchen Test nehme ich, wenn ich nur vom Vorliegen eines Ereignisses aus untersuchen bzw. vergleichen möchte, ob Faktor X den Zusammenhang moderiert? Also jemand hat nur ein belastendes Ereignis erlebt (also kategorial, evtl. Einteilung in Intensität niedrig – mittel – hoch) vs. jemand hat drei erlebt -> wird dann die Beziehung zur Ausbildung depressiver Symptome moderiert. Kann ich mit kategorialem Niveau der UV auch eine Moderation rechnen? Wie beziehe ich die Intensität mit ein?

    Grüße und vielen Dank
    Maya

    1. Hallo Rica,

      1. Ja, die Regression kann Kontrollvariablen enthalten, wie Alter oder Schulabschluss. Bei kategorialen Merkmalen (auch bei Altersgruppen) am besten Dummy-Codierung, eine Kategorie nicht aufnehmen, die dient als Referenzkategorie (Bezugsgröße).
      Strukturgleichungsmodelle sind wesentlich anspruchsvoller. Würde ich nur empfehlen, wenn Du damit Erfahrung hast oder bereit bist, Dich intensiv einzuarbeiten.

      2. Eine dichotome Variable kann wie eine metrische Variable in einer Regression verwendet werden, also auch als Moderator (belastendes Ereignis erlebt ja / nein, übliche Codierung 1 / 0). Bei mehr als zwei Kategorien wird es schwieriger. Dann würde ich argumentieren, dass man die Variable als „quasi-metrisch“ betrachtet. Bei der Anzahl der belastenden Ereignisse halte ich das für vertretbar (0, 1, 2, 3, … belastende Ereignisse erlebt).

      1. Hallo Herr Riepl,
        auch ich schreibe gerade an meiner Bachelorarbeit und bin mir bei der Auswahl der statistischen verfahren nicht sicher.

        meine Variablen sind wie folgt skaliert:
        #Geschlecht: „männlich“, „weiblich“, nominalskala, nicht normalverteilt
        #Alter: in ganzen Jahren, Verhältnisskala, normalvertelt
        #Arbeitsstunden: in Stunden, Verhältnisskala , nicht normalverteilt)
        #Homeoffice: in Stunden, Verhältnisskala , knapp nicht normalverteilt)
        #Anteil_HO: in %, Verhältnisskala , knapp nicht normalverteilt)
        #HO: „kein Homeoffice“, „bis zu 50% Homeoffice“, „mehr als 50% Homeoffice“ ordinalskaliert, nicht normalverteilt
        #PEQ: Summenscore, intervallskaliert, nicht normalverteilt
        #Achtsamkeit_N: Summenscore, intervallskaliert, normalverteilt
        #Resil: Summenscore, intervallskaliert, normalverteilt
        #Flourishing: Summenscore, intervallskaliert, normalverteilt

        In meinem ersten Hypothesenblock möchte ich Zusammenhänge untersuchen.
        H1.1 PEQ und Achtsamkeit haben keinen Zusammenhang.
        H1.1A PEQ und Achtsamkeit haben einen positiven Zusammenhang.

        Hier habe ich mich für eine lineare Regression entschieden, da ich von der Theorie her davon ausgehen kann einen positiven Zusammenhang vorzufinden (Broaden- and- Build- Theorie nach Fredrickson 1998). Oder müsste ich hier eher eine Korrelation nach Braivais Pearson rechnen?

        In meinem 2. Hypothesenblock möchte ich untersuchen, inwiefern Homeoffice diesen Zusammenhang moderiert.
        H2.1 Homeoffice hat keinen Einfluss auf die Korrelation zwischen PEQ und Achtsamkeit.
        H2.1A: Homeoffice hat einen positiven Einfluss auf die Korrelation zwischen PEQ und Achtsamkeit.
        Hier bin ich mir zum einen nicht sicher, ob ich Unterschiede (Homeoffice vs. kein Homeoffice) untersuche, oder mich im Bereich einer Zusammenhangshypothese befinde. Entsprechend bin ich unentschlossen, ob ich eine multiple Regression oder eine mehrfaktorielle Varianzanalyse durchführen soll.

        In meinem 3. Hypothesenblock kommt eine weitere Moderatorvariable hinzu.
        H3.1 Alter und Homeoffice haben keinen Einfluss auf die Korrelation zwischen Resilienz und Flourishing.
        H3.1A: Alter und Homeoffice haben einen Einfluss auf die Korrelation zwischen Resilienz und Flourishing.
        Hier würde ich das gleiche Verfahren anwenden, wie im 2. Hypothesenblock (die Entscheidung, welches ist ja noch offen :))

        Vielen Dank für Ihr Feedback

        1. Hallo,

          zu 1: Lineare Reg. oder Pearson-Korrelation – beides möglich, Ihre Entscheidung. Korrelation passt gut zu Zusammenhangshypothesen, trifft im Gegensatz zur Regression keine Annahme zur Wirkungsrichtung. Wenn Sie nur jeweils 2 Variablen verwenden, sollten beide Methoden den gleichen p-Wert liefern. Regression: Koeffizient in Einheiten der abhängigen Variable interpretierbar; Korrelation: Koeffizient normiert zwischen -1 und +1.
          Im Zweifel beides machen und vergleichen, dann wird es evtl. klarer.

          zu 2: Auch Ihre Entscheidung 🙂 Für Moderation dürfte eine ordinalskalierte Variable mit mehr als 2 Ausprägungen schwieriger handhabbar sein. Zu den Regressionsannahmen (Modell mit Moderatorterm) passen besser entweder metrisch skaliert oder binär (2 Ausprägungen).

          zu 3: Ich würde nicht mehrere Moderatorvariablen ins gleiche Modell aufnehmen – da werden die Wechselwirkungen sehr komplex. Verschiedene Moderatoren lieber in separaten Modellen testen.

  23. Hallo Wolf, zunächst vielen herzlichen Dank für deine super Übersicht!

    Ich sitze gerade über den Auswertungen für meine Doktorarbeit und da sind jetzt ein paar Fragen aufgetaucht.

    1. Ich habe Patienten mit geheilten und nicht geheilten Knochen und will die Verdichtung im Röntgen (gleich – diskret verdichtet – stark verdichtet) bzw. die Dauer bis zur Diagnose ( 4 Wochen) zwischen diesen Patientn vergleichen. Nehme ich hierfür den Mann-Whitney-U-Test oder Chi-Quadrat?

    2. Ich will die Knochendichte (metrisch) zwischen geheilten und nicht geheilten Patienten vergleichen. Ich habe das mit dem Mann-Whitney-U Test auf Lageunterschiede untersucht und einen hoch signifikanten Unterschied erhalten.
    Anschließend habe ich eine ROC-Analyse durchgeführt und basierend auf den Cut-offs Sensitivität/Spezifität/PPW und NPW berechnet. Der Mann-Whitney-U-Test weißt nun aber streng genommen ja nur einen Lageunterschied und keine Korrelation nach oder? Gibt es da eine Möglichkeit eine Korrelation zwischen der Knochendichte (metrisch) und Heilung (dichotom) zu berechnen?

    Vielen herzlichen Dank für deine Hilfe!!

    1. 1. Es kommt auf das Skalenniveau an. Verdichtung kann man als ordinal sehen, allerdings mit nur drei Kategorien. Dauer bis zur Diagnose: Metrisch in Tagen / Wochen? Ist das ein statistisch zu betrachtender Messwert?
      Geheilt / nicht geheilt vs. Verdichtung kann man mit Chi-Quadrat testen, wobei der die Rangfolge nicht berücksichtigt. Mann-Whitney berücksichtigt die Rangfolge, aber drei Stufen sind recht wenig. Ggf. beide Tests durchführen, Ergebnisse vergleichen.
      2. Knochendichte metrisch: Bei ausreichender Fallzahl und einigermaßen normalverteilten Daten wäre auch t-Test möglich.
      Korrelation mit einer metrischen und einer dichotomen Variable ist möglich. Dichotom kann wie metrisch behandelt werden, d. h. Pearson-Korrelation ist möglich. Allerdings erhält man nicht so fein abgestufte Ergebnisse wie bei Variablen mit vielen unterschiedlichen Ausprägungen.

  24. Hallo!

    Ich hätte eine Frage bezüglich der Auswahl eines Testverfahrens. Welcher Test soll verwendet werden, wenn man einen signifikanten Unterschied zwischen 3 metrisch skalierten Variablen/Gruppen testen will, ohne eine weitere ordinale oder nominale Variable als unabhängige Variable (Faktor) hinzuzufügen.

    Bin noch immer am Grübeln und habe lange darüber nachgedacht, aber kann die Frage nicht beantworten…

    Zur Wissenstransparenz – es stehen leider nur beschränkt Testverfahren zu Verfügung: T-test (abhängig oder unabhängig), Einfaktorielle Anova, Anova für Messwiederholungen, Lineare Regression, Multiple Lineare Regression, Korrelation. Ebenso wären nicht-parametrische Tests zulässig.

    Eine Antwort würde echt viel helfen, vielen Dank.

    LG Thomas Holm

    1. Hallo Thomas,
      mir ist die Frage nicht ganz klar. 3 metrisch skalierte Variablen und / oder 3 Gruppen? Kannst Du die Variablen genauer beschreiben? Eine kategoriale Variable mit 3 Ausprägungen = Gruppenvariable, dazu eine oder mehrere metrische abhängige Variablen?

  25. Hallo Wolf,
    ich verzweifele gerade etwas mit dem Thema Statistik und Auswertung von Daten.

    Zum Hintergrund: es wurde eine experimentelle Studie durchgeführt mit folgenden Informationen:
    – eine Interventions- und eine Kontrollgruppe
    – in beiden Gruppen wurden 3 Behandlungen durchgeführt
    – es wurden jeweils 3 „Messungen“ durchgeführt, d.h. Messung der Lungenfunktion vor und nach jeder der drei Behandlungen, Messung der „forward head posture“ vor und nach jeder der drei Behandlungen, Messung der Lebensqualität mit dem WHO5-Fragebogen vor der 1. Behandlung, vor der 2. Behandlung, vor der 3. Behandlung und ein Follow-up (2 Wochen nach der 3. Behandlung)
    Im Prinzip soll getestet werden, ob Behandlungen einen Einfluss auf die Lebensqualität, die Lungenfunktion und den Forward Head Posture innerhalb von 3 Behandlungen haben.
    Ich würde erstmal mit einer deskriptiven Statistik beginnen (MW, SD, prozentuale Verteilung, etc. von Geschlecht, Alter, Gewicht, Größe, BMI)
    Dann könnte man doch prüfen, ob es eine Veränderung bei den einzelnen Messmethoden innerhalb der 3 Behandlungen gab.
    Und dann beginne ich mich im Kreis zu drehen und bekomme die Enden nicht zusammen wie ich was am besten teste.

    Vielleicht können Sie mir ja auf die Sprünge helfen. Besten Dank vorab!

    1. Hallo Alexandra,

      hier fällt die Antwort ähnlich aus wie beim vorigen Kommentar von Elli (4. März). Es gibt viele Verfahren zur Auswahl und es kommt darauf an, wie einfach es sein darf bzw. wie komplex es werden soll. In der Inferenzstatistik gibt es Tests, die jeweils eine Variable hinsichtlich zwei oder mehr Gruppen vergleichen. Hier kann man zwischen „Quer-Vergleichen“ und „Längs-Vergleichen“ unterscheiden. Mit quer meine ich: Gleicher Zeitpunkt, Interventions- vs. Kontrollgruppe – das sind unabhängige Stichproben. Mit längs meine ich: Innerhalb jeder Gruppe die Messwiederholung, d. h. gibt es Unterschiede zwischen vor und nach der Behandlung.
      Dann gibt es multivariate Verfahren, die mehrere Aspekte in einem gemeinsam Ansatz berücksichtigen können. Kurz gesagt gibt es sog. „Gemische Modelle“ (Mixed Models), in denen man sowohl die verschiedenen Zeitpunkte als auch den Vergleich Interventions- vs. Kontrollgruppe unterbringen kann. Die sind anspruchsvoller zu spezifizieren (die genauen Bezeichnungen können sich zwischen verschiedenen Statistik-Programmen unterscheiden) und zu interpretieren. Inwiefern sie sinnvoll sind, hängt auch von den Fallzahlen ab.

      Ich empfehle, einfach zu beginnen (deskriptiv ist gut), dann mit Inferenzstatistik weiterzumachen, und dann so weit zu gehen, wie es nötig ist / gefordert ist / wie es Dir Spaß macht …

  26. Hallo!
    Ich bin gerade auf der Suche nach dem richtigen statistischen Testverfahren für eine Bachelorarbeit und dabei auf diese tolle Website gestoßen.

    Das Setting der Arbeit ist wie folgt: es gibt zwei verschiedenen Behandlungsmethoden, die an Patienten getestet werden.
    Den Patienten wird per Zufall vor der Behandlung eine Therapiemethode zugewiesen. Jeder Patient erhält also nur eine Behandlung –> es gibt 2 (unabhängige?) Gruppen von Patienten.
    Dabei werden mehrere, verschiedene Faktoren jeweils vor und nach der Behandlung gemessen.
    Es soll die Frage beantwortet werden, welche Behandlungsmethode sich als die bessere erweist.
    Zusätzlich wurden Variablen wie Alter, Geschlecht etc. erhoben, welche auf mögliche Effekte überprüft werden sollen.

    Ich bin mir so unsicher bzgl. des statistischen Tests, da ja einmal ein Zusammenhang zwischen den gemessenen Faktoren (vor und nach der Behandlung) getestet werden soll und einmal ein Unterschied zwischen den Behandlungsmethoden. Gibt es einen Test der beides vereint oder muss ich zwei Tests nacheinander durchführen?

    Vielen Dank bereits im Voraus für die Hilfe!

    1. Hallo Elli,
      es gibt da eine große Vielfalt an Verfahren zur Auswahl. Ja, die Patienten mit den Therapiemethoden sehe ich auch als unabhängige Gruppen. Die Messwerte vor und nach der Behandlung sind hingegen abhängig.
      Mit einfacheren Verfahren kann man separat entweder Therapiemethoden vergleichen (unabhängige Stichproben, „Quer-Vergleich“) oder innerhalb einer Therapiemethode den Behandlungserfolg (abhängige Stichproben, „Längs-Vergleich“).
      Mit Varianz- oder Regressionsanalysen kann man Kontrollvariablen wie Alter, Geschlecht etc. mit aufnehmen. Üblicherweise gibt man dort pro Modell jeweils nur eine abhängige Variable an (die Du als „mehrere, verschiedene Faktoren“ bezeichnet hast).
      Es gibt auch fortgeschrittenere Methoden, die mehrere Tests / Fragestellungen / Hypothesen abdecken können. MANOVA ist eine Erweiterung der Anova (Analysis of Variance, Varianzanalyse), die mehrere abhängige Variablen gemeinsam testen kann.
      Mit sog. gemischten Modellen (Mixed Effects Models) kann man Quer- und Längsvergleiche kombinieren. Wie diese Modelle genau heißen und wie die Einstellungen im Detail vorzunehmen sind, kann je nach verwendeter Software etwas unterschiedlich sein.
      Meine Empfehlung wäre, mit einfacheren Methoden zu beginnen, die Daten auch deskriptiv und grafisch gut kennen zu lernen, und sich dann zu fortgeschritteneren Methoden vorzutasten. Je nach Vorgaben muss man da wahrscheinlich nicht alles machen, was möglich wäre, gerade für eine Bachelorarbeit. Falls möglich, mit Betreuer abstimmen, bevor Du Dich verrennst. Je komplexer die Modelle, desto anspruchsvoller die Interpretation.

  27. Guten Tag!

    Ich hätte eine Frage. Ich plane gerade meine Masterarbeit und bin ein wenig verzweifelt.
    Ich möchte gerne untersuchen, ob das Körpergewicht (BMI, Unterteilung in Untergewicht, Normalgewicht, Übergewicht) einen signifikanten Einfluss auf Suizidalität hat (Suizidalität wird hierbei unterschieden zwischen Suizidgedanken vs. konkreter Suizidversuch).
    Meine Fragestellungen:
    – Weisen Personen mit einem BMI Wert über 30 (adipös) eine signifikante erhöhte Anzahl von Selbstmordversuchen auf?
    – Weisen Personen mit einem BMI Wert über 30 (adipös) eine signifikante erhöhten Anzahl an Selbstmordgedanken auf?
    – Weisen Personen mit einem BMI Wert normalgewichtig eine signifikante erhöhte a Anzahl an Selbstmordgedanken auf?
    – Weisen Personen mit einem BMI Wert normalgewichtig eine signifikante erhöhte Anzahl von Selbstmordversuchen auf?

    Gerne möchte ich für die Variablen Geschlecht und Alter kontrollieren.
    Ist eine ANCOVA hier die richtige Vorgehensweise?
    Ich bin mir sehr unsicher, da die abhängige Variable (Suizidalität) ja 2 Ausprägungen hat (Suizidversuch vs. Suizidgedanke).
    Oder rechne ich einfach 2 ANCOVA’s?

    VIELEN DANK!!

    1. Hallo Corinna,

      für mich sind Suizidversuch und Suizidgedanke zwei verschiedene abhängige Variablen. Die ANCOVA geht von einer abhängigen Variable aus. Insofern kann man zwei getrennte ANCOVAs rechnen.
      (Die Ausprägungen der abhängigen Variablen sind für mich die jeweiligen Anzahlen, nicht die Frage, ob S-versuch oder S-gedanke.)

      Wenn Sie S-versuch und S-gedanke in einem gemeinsamen Modell überprüfen möchten, gibt es alternativ die MANOVA bzw. MANCOVA. Das würde ich nur machen, wenn explizit gefordert. Die Interpretation ist etwas anspruchsvoller als bei separaten ANCOVAs.

      Ich hoffe das hilft. Viel Erfolg!

  28. Hallo!
    Ich sitze gerade (verzweifelt) an der Auswertung meiner MA-Arbeit. Durchgeführt wurde eine Intervention (T0 & T1), deren Wirksamkeit anhand von >4 AVs in 2 Gruppen erhoben wurde. Jetzt sollen zuerst die Baselineunterschiede INNERHALB der Gruppen untersucht werden & dann die Unterschiede in der Wirksamkeit der Intervention ZWISCHEN den Gruppen.
    Die Forschungsfrage lautet, ob sich die Wirksamkeit der Intervention für Frauen & Männer unterscheidet.

    Grundsätzlich wäre ich davon ausgegangen, eine multivariate Varianzanalyse durchzuführen (um Verlust der Testmacht durch mehrere ANOVAS zu vermeiden) – aber sie testet nur zwischen nicht innerhalb der Gruppen?
    Gibt es eventuell andere Möglichkeiten die ich übersehe – oder liege ich vielleicht komplett falsch?

    Vielen Lieben Dank schon im Voraus und Liebe Grüße!
    Ida

  29. Gibt es auch eine Alternative zu einer mehrfaktoiellen ANOVA? Ich habe zwei unabhängeg Variablen die nominalskaliert sind und mehrere abhängige Variablen die odrinalskaliert sind. Vielen Dank und beste Grüße

    1. Mehrfaktorielle ANOVA ist recht anspruchsvoll, zudem wäre es für dieses Modell besser, intervallskalierte abhängige Variablen zu haben. Ist es unbedingt erforderlich, mehrere AVs in einem gemeinsamen Modell unterzubringen? Sonst würde ich jede AV separat behandeln und die Ergebnisse diskutieren. Evtl. nichtparametrische Verfahren nehmen.

  30. Hallo!
    Ich bin in meinem zweiten Semester in Psychologie (also statistisch noch nicht ganz so erfahren). Wir müssen für ein Fach eine Art theoretische Ausarbeitung in der Art einer Bachelorarbeit schreiben. Meine These war grundlegend, dass negative Stereotype über Jungen die Leistungen negativ beeinflussen. Da aber die Studienlage (anders als bei den Mädchen) recht inkonsistent ist, wurde mir von meinem Professor vorgeschlagen, die These zu „drehen“ und zu argumentieren, warum bei Jungs Stereotype nicht so einen negativ Effekt haben (um die These interessanter zu gestalten). Nun bin ich mir aber nicht ganz sicher, wie man eine Hypothese „kein Effekt“ überhaupt statistisch messen würde. Eigentlich sucht man ja immer nach Varianzen, die man auf etwas zurückführen kann. Sollte ich dann versuchen, mögliche Einflussfaktoren (z.B. scheint Emotionsregulation einen Einfluss zu haben) zu erheben und anhand einer Regressionsanalyse prüfen, inwiefern sich Unterschiede in der Emotionsregulation auf die Wirksamkeit der Stereotype auswirken? Soweit ich weiß ist auch der Nachweis für „keine Varianzen“ statisch schwerer, als der Nachweis von Varianzen.
    Für die Arbeit müssen wir „nur“ unsere Methodik zwei Seiten beschreiben, aber dennoch wäre ich hier für ein paar Anregungen sehr dankbar!
    Viele Grüße und Danke im Voraus
    Christian

    1. Hallo Christian,
      ich sehe das ganz entspannt: Statistisch ändert sich nichts gegenüber dem üblichen Vorgehen, bei dem man prüft, ob Effekte vorliegen. Der Unterschied ist für mich nur inhaltlich in der Interpretation, beim Blickwinkel. Statistisch würde ich genau wie üblich mit Nullhypothese (kein Effekt) und Alternativhypothese (Effekt liegt vor) arbeiten. Die Forschungshypothese ist dann eben die Nullhypothese.

      1. Hallo Wolf, danke für die schnelle Antwort, das stimmt mich positiv! Noch eine Frage dazu: Wenn ich nun aber mit meiner Theorie Begründe, dass z.B. wegen Emotionsregulation Stereotpye keinen Einfluss auf Jungen haben, kann ich das statistisch in einer Art „nachweisen“? Spontan würde ich eben dann schauen, ob Jungen die z.B. weniger Angst während der Prüfung haben auch signifikant mehr positive Strategien eiinsetzen und besser abschneiden. Da der Effekt scheinbar generell bei Jungen zu finden ist, bräuchte ich wahrscheinlich eine große Stichprobe zum Nachweis der kleinen Differenzen.

        1. Die statistischen „Nachweise“ sind immer vorläufig, egal ob man einen Effekt belegt oder keinen Effekt belegt. (Es kann verdeckte Korrelationen oder Scheinkorrelationen geben, die erst erkannt werden, wenn die entsprechende Drittvariable berücksichtigt wird, die jetzt vielleicht nicht erhoben und nicht bekannt ist.)
          Wenn die Nullhypothese beibehalten werden kann (p > 0.05), kann man das als Beleg für Deine Forschungshypothese sehen.
          Die Formulierungen „weniger Angst“ und „sig. mehr positive Strategien“ sprechen hingegen, anders als oben diskutiert, für Alternativhypothesen, also die Annahme von Effekten im üblichen Sinn.
          Ergänzend zu p-Werten kann man auch Effektstärken berechnen. p-Werte hängen von der Fallzahl ab, Effektstärken nicht.

          1. Hallo Wolf! Ich hätte noch eine Frage. Meine These hat sich jetzt etwas umgestellt. Grundidee ist, dass Jungen trotz Voruteile (Jungen sind z.B. schlechter in Französisch) in einem Fach nicht schlechter abschneiden (und Mädchen dafür schon). Dafür habe ich nun Mediatoren identifiziert, sie sind der zentrale Kern der Hausarbeit z.B. scheinen Jungen während der Prüfung fokussierter zu sind, weniger Angst zu haben und ihre Emotionen besser im Griff zu haben (als Mädchen).
            Meine Idee wäre jetzt gewesen, (wir müssen dies ja nur theoretisch Durchdenken) eine KG zu haben, in der diese Vorurteile nicht erzählt werden und zwei EG, in der einmal Mädchen und einmal Jungen erzählt wird, sie seien schlecht bei der Aufgabe. Dann würde ich währendessen die verschiedenen Einflussfaktoren, wie bessere Aufmerksamkeit, weniger Angst usw. erheben. Dann würde ich vermutlich über eine Regressionsanalyse untersuchen, ob Jungen diese Mediatoren häufiger als Mädchen nutzen und diese Faktoren die Leistung signifikant aufklären (?). Hier bin ich mir nicht ganz sicher, ob die Auswertungsmethode korrekt ist. Ich hoffe du verstehst ungefähr meine Idee!
            Danke und viele Grüße!

          2. Hört sich gut an. Man kann einfach anfangen (deskriptiv, bivariat), um die Daten gut kennen zu lernen, und dann zu multiplen Regressionsmodellen mit mehreren UVs übergehen.

  31. Guten Tag!

    Ich habe eine Frage zur Auswertung meiner Doktorarbeit. Ich möchte untersuchen, ob es bei verschiedenenen Variablen (sowohl metrisch als auch ordinal und nominalskalierte) Unterschiede zwischen drei unabhängigen Gruppen gibt. Leider ist meine Fallzahl sehr klein (n1=4, n2=5, n3=3). Verwende ich dann für die metrischen und ordinalen Variablen den Kruskal-Wallis-Test? Und kann ich für die nominalskalierten Variablen den exakten Fisher-Test verwenden?

    Vielen Dank und viele Grüßé,
    Luise

    1. Die Tests sind ok, aber bei den Fallzahlen nur sehr begrenzt aussagekräftig. Ich würde Mediane beschreiben, die Ergebnisse auch auf Einzelfallbasis diskutieren und die Statistik nur als Ergänzung betrachten.

  32. Ich möchte für einen task gerne Wörter vorgeben, die nach valence geratet wurden und nun möchte ich schauen, ob diese valence in beiden Gruppen gleich ist (also die positiven Wörter sollen in etwa gleich geratet sein wie die negativen wenn man das Minus davor weglässt) Nun bin ich mir nicht sicher ob es sich um eine abhängige oder unabhängige Stichprobe handelt. Die ratings zu diesen Worten stammen aus einer Datenbank wo hunderte Personen diese Worte geratet haben, also jede Person alle Worte und ich wollte die Mittelwerte aus dieser Datenbank für einen t-Test verwenden (von den Worten die ich mir ausgesucht habe). Ich hätte eigentlich einen t-Test für unabhängige Stichproben machen wollen aber nun bin ich skeptisch da die Worte ja schon von den selben Personen geratet wurden. Ich hoffe meine Frage ist verständlich und ich freue mich sehr über Ihre Antwort. (Normalverteilung ist übrigens vorhanden)

    1. Hallo Melanie,
      ja, so wie ich es verstehe, geht es um Messwiederholungen, wenn die gleichen Personen Worte in beiden Gruppen bewerten. D. h. es gibt eine paarweise Zuordnung der Bewertungen in der einen Gruppe zu den Bewertungen in der anderen Gruppe. Das sind für mich abhängige Stichproben.

  33. Ich habe vermutlich eine ganz einfach Frage. Ich möchte die Voraussetzung der Normalverteilung für einen unabhänigen t-test berechnen.

    Sollte ich hier für bei Variablen (die normale und die gruppierte) getrennt auf Normalverteilung untersuchen oder gebe ich die Variable als av und die Gruppierungsvariable als Faktor ein (Explorative Datenanalyse).

    1. Nur eine kontinuierliche (metrische) Variable kann normalverteilt sein – die AV beim t-Test. Empfehlung: Shapiro-Wilk-Test. Auch grafisch ist sinnvoll, z. B. Histogramm mit Normalverteilungskurve.

      1. Ich weiß, dass ich auf Deskriptive Statistik -> explorative Datenanalyse muss. Und dann?
        Variable und Gruppierungsvariable einzeln auf Normalverteilung testen (beide bei av eintragen)
        Variable in der Gruppe prüfen. metrische Variable als abhängige Variable und Gruppierungsvariable als Faktor

        Eher letzteres oder?

        1. Ich würde nur die AV separat auf Normalverteilung testen und die Gruppierungsvariable hierbei nicht berücksichtigen. Arbeite nicht mehr mit SPSS, kann daher nichts Aktuelles zu den Menüs sagen. Ich glaube es ging auch außerhalb der Explorativen Datenanalyse, unter Nichtparametrische Tests?

          1. Ich meinte: NV-Test nur für eine Variable, ohne Gruppierungsvariable / Faktor. Wenn das auch bei Explorativer Datenanalyse geht, umso besser.

  34. Hallo Herr Riepl,

    hatten sie schon mal einen solchen Fall oder wissen wie dieser zu ebwerten ist?
    Bei der Mediationsanalyse (über PROCESS) zeigt die uv keinen sig. direkten Effekt auf die av ohne Mediator und keinen sig. direkt auf die av mit Mediator. Jedoch gibt es einen indirekten Effekt. Wie kann man so etwas interpretieren. Heißt es die uv hat nur einen indirekten Effekt?

    1. Hallo Emila,
      ja, das ist gut möglich.
      Sie können ja zur Kontrolle ohne PROCESS ein Modell mit der UV und dem Mediator als AV rechnen, sowie eins mit dem Mediator als UV und der AV. Vielleicht hilft das zum Verständnis.
      (Ich arbeite nicht mit PROCESS und auch nicht mehr mit SPSS.)

      1. Da sie nicht mehr mit PROCESS arbeiten formuliere ich es anders:

        Der Pfad a und b sind signifikant
        Pfad c ist nicht signifikant (uv auf av ohne Mediator)
        Pfad c‘ ist nicht signifikant (uv auf av mit Mediator), jedoch wird der Effekt plötzlich negativ.

        Jedoch zeigt PROCESS einen indirekten Effekt, da 0 nicht im Konfidenzintervall ist.

        Aber kann man hier tatsächlich von einem indirekten Effekt sprechen? Normal gibt es doch nur ein en indirekten Effekt, wenn der Koeffizient oder die signifikanz von Pfad c zu c‘ sinkt oder?

        und ist es dann auch eine vollständige Mediation?

  35. Ich habe zwei Fragen zur Mediationsanalyse. Einmal zur Prüfung und einmal zu Interpretation.

    1)Ich möchte eine Mediationsanalyse rechnen mittel PROCESS über SPSS. Hier habe ich zwei Dummy kodierte uv und eine metrische av sowie einen metrischen Mediator.

    Die Voraussetzungen um diese durchzuführen sind:
    -Normalverteilung der Residuen: Dies würde ich eigentlich mit einem P-P-Diagramm der Residuen prüfen. Macht dies aber für eine dichotome uv Sinn?
    -Homoskedastizität: Auch hier wie viel Sinn macht ein Streudiagramm der Residuen mit einer dichotomen uv?

    Falls die Annahmen nicht erfüllt werden, wird vorgeschlagen bei der Auswertung Bootstrapping zu benutzen. Da die Mediationsanalyse mittels PROCESS auf Bootstrapping passiert, verstehe ich nicht, warum die Vorrausetzungen überhaupt geprüft werden müssen. Vielleicht habe ich hier aber auch einen Denkfehlern, den jemand aufklären kann.

    2)Weiterhin beschäftige ich mit der Interpretationen des Outputs. Hier zeigt sich, dass eine uv einen direkten Effekt auf die av hat, jedoch auch vollständig über den Mediator mediiert wird. Also liegt ein direkter sowie indirekter (vollständige Mediation vor). Kann ich sagen, es gibt direkte und indirekte Effekt oder basiert der gemessene direkte Effekt nur auf dem Einfluss des Mediators. Ich weiß zwar, dass beim Pfand c kein Mediator mitberechnet wird, aber ich denke an so etwas wie eine scheinkorrelation, dass es aussieht als würde es einen direkten Effekt geben, diesem aber die vollständige Mediation zu Grunde liegt. Vielleicht ist das aber zu kompliziert gedacht und ich kann einfach von direkten und indirekten Effekten ausgehen.

    1. 1) Es ist schon sinnvoll, sich diagnostische Plots anzusehen, um einen besseren Eindruck vom Modell zu erhalten (welche Abweichungen treten an welchen Stellen im Wertebereich der AV auf). Ich sehe in den Befunden kein hartes Ausschlusskriterium – die Kriterien sind so gut wie nie streng erfüllt.
      2) Ich würde verschiedene Modelle vergleichen, um die Zusammenhänge zwischen den Variablen besser zu verstehen: Nur UV -> AV / UV + Mediatorvariable -> AV / Mediator-Modell. Und überlegen: Gibt es weitere Variablen im Datensatz, die den Zusammenhang beeinflussen können?

      1. Vielen Dank für die Antwort.

        Also Uv -Av ist signifikant; uv- Mediator- Av ist dann nicht mehr signifikant. Das bedeutet der Effekt wird vollständig mediiert.

        Kann man dann sagen es gibt direkte und indirekte Effekte. Oder gibt es keinen direkten Effekt, da eine vollständige Mediation vorliegt.

        1. Ein weiteres Kriterium ist, dass die UV einen sig. Einfluss auf den Mediator ausübt, d. h. in diesem Modell ist der Mediator die abhängige Variable.

          Hinweis: Ich arbeite nicht mehr mit SPSS und auch nicht mit PROCESS.

  36. Hallo Wolf,

    Ich bin gerade ganz begeistert deine Website entdeckt zu haben! Ich bin gerade etwas ratlos beim Thema Auswertungsplanung meiner Bachelorarbeit. Meine Hypothese lautet „Die Steigerung der Achtsamkeit durch Achtsamkeitstraining verringert den Einsatz maladaptiver Emotionsregulationstrategien“. Ich plane einen Versuch mit einer Kontrollgruppe und einer Experimental Gruppe mit zwei Messzeitpunkten (vor- und nach einer Intervention). In beiden Gruppen wird vor und nach der Intervention der MAAS (Mindfulness Attention Awareness Scale, 15 Fragen, 6-Punkte Likert Skala, wird zu einem Gesamtwert zusammengefasst) und der ERQ (Emotion Regulation Questionnaire, 10 selbstbezogene Aussagen auf 7-Punkte Likert Skala die zu zwei Subskalen verrechnet werden – positive und negative Emotionsregulationsstrategien) erhoben. Die Intervention besteht aus einem 4-wöchigem Achtsamkeitstraining. Nun bin ich mir unsicher wie ich 1) Die Wirksamkeit der Intervention und 2) Die Hypothese am besten statistisch prüfen kann.

    Vielen Dank dir und lieben Gruß, Sarah

    1. Da gibt es sicher mehrere Möglichkeiten. 1) ist eine typische Messwiederholung. Geeignet sind Tests für abhängige (=verbundene) Stichproben, z. B. t-Test für abhängige Stichproben oder ANOVA mit Messwiederholung.
      Für 2) könntest Du die Differenzen der Achtsamkeit und der Emotionsregulation berechnen (Nachher – Vorher) und dann z. B. eine Korrelation (oder Regression / Anova mit Kontrollvariablen) berechnen.

  37. Hallo,
    ich habe mittels multipler Regressionsanalyse direkte Effekte von drei Variablen auf eine av untersucht. Die Semipartial Korrelationen zeigten, dass uv3 redundant ist und unter Kontrolle von uv1 unduv2 keinen einfluss hat. Anschließend habe ich die gleichen drei uv genommen und wollte deren indirekten Effekt über einen Mediator auf die av untersuchen (mit SPSS Process). Alle drei variablen haben einen direkten Einfluss auf die av über den Mediator. Aber könnten nicht auch hier Redundanzen vorliegen? Wie kann man diese bei einer Meditationsanalyse untersuchen? So wie ich sehe kann man immer nur eine x-Variable einfügen. Jedoch gibt es die Möglichkeit mit Kovariaten zu arbeiten. Da x1 und x2 jedoch nicht metrisch sind, weiß nicht, ob man das darf

    1. Die Alternative zu metrischen Kovariaten ist die Dummycodierung: Merkmal liegt vor oder nicht, 1 / 0. Bei mehr als zwei Kategorien entsprechend mehr Dummyvariablen. Eine Kategorie weglassen, das ist die Referenzkategorie. D. h. bei drei Kategorien zwei Dummyvariablen als Kovariaten einsetzen. (Wenn ein Fall entweder Merkmal A, B oder C sein kann, genügt es zu wissen, ob es A oder B ist. Dann weiß ich auch, ob es C ist.)

      1. Danke für ihre Antwort. Ich habe mich mit dem Thema Dummyvariablen beschäftigt und doch noch zwei fragen:
        1) Meine uv1 heißt Kompetenz mit den Ausprägungen 1= niedrig und 2= hoch; müsste hier einfach 1 durch Null und zwei durch 1 ersetzen oder müssen aus dieser einen Variable zwei Variablen (hoch und tief) entstehen
        2) Weiterhin kann ich die original Variable mit Ausprägungen 1 und 2 auch nicht als uv in der Meditation verwenden oder? Denn auch hier müsste ich eine Dummyvariable (0/1) erstellen, da es sich ja um eine Regression handelt

        1. Hallo Olaf,
          1) Zwei Ausprägungen -> eine Dummyvariable. Ja, ich würde 0 = niedrig und 1 = hoch codieren. Manche benennen die Variable nach der 1er-Kategorie, das ist eindeutiger. Zum Beispiel: Kompetenz_hoch, 0 = nein, 1 = ja. (Zum Vergleich: „Geschlecht“ mit 0 / 1 für männlich / weiblich ist nicht so eindeutig wie „weiblich“ mit 0 = nein und 1 = ja.)
          2) Für den Koeffizienten sollte 0/1 oder 1/2 keine Rolle spielen, aber die Konstante (Intercept) ändert sich. 0/1 ist üblich, weil die Konstante dann etwas besser interpretierbar ist (Mittelwert, wenn alle UVs Null sind). Ich würde mich an die Konvention halten und lieber 0/1-Codierung als 1/2 verwenden. Variable ist für Mediation sowie bei Bedarf auch für Meditation geeignet 🙂

          1. Vielen Dank. Für die Dummy-Variable würde ich nun auf jeden Fall 1 und 0 kodieren. Leider habe ich meine komplette Masterarbeit mit den Ausprägungen 1 und 2 gerechnet (T-Tests, Anova usw.). Würden sie empfehlen den Aufwand zu betreiben, alles nochmal zu rechnen mit der umkodierten Variable? Bzw.wie kritisch wird eine kodierung 1 und 2 in der Statistik gesehen?

          2. Beim t-Test macht es keinen Unterschied, und bei der Anova wohl auch nicht. Bei der Regression (Mediation) dürfte es sich nur auf die Konstante auswirken. p-Werte und Koeffizienten sollten gleich bleiben. Ich würde nicht alles umschmeißen.

  38. Guten Tag Herr Riepl,

    ich brüte etwas über Statistik und habe eine Frage:

    Ich möchte berechnen, ob Probanden, die von T0 zu T1 eine Erhöhung in Variable A gezeigt haben, auch eine Erhöhung von T0 zu T1 in Variable B gezeigt haben.

    Als Beispiel:

    Haben Probanden, die von T0 zu T1 eine Erhöhung in Technikaffinität gezeigt haben, auch eine Erhöhung von T0 zu T1 in Selbstwirksamkeit gezeigt.

    Ist das irgendwie per Test möglich?

    Ich habe schon einiges ausprobiert und bin mir nicht ganz sicher, ob es legitim war, deswegen meine Frage. Eventuell stehe ich gerade etwas auf dem Schlauch.

    Liebe Grüße,
    Tjorven Stamer

    1. Hallo Herr Stamer,

      da gibt es wohl mehrere Möglichkeiten, je nachdem, wie man die Formulierung in Statistik „übersetzt“ (operationalisiert).

      Idee: Daten filtern. Mit einer Abfrage diejenigen heraussuchen, bei denen A(T1) > A(T0). Nur für diese Teilgruppe analysieren, ob B(T1) > B(T0). Das kann man deskriptiv machen (Differenzen bilden) oder etwa per t-Test für abhängige Stichproben.

      Idee: Korrelation der Differenzen
      Variable A_Dif berechnen: Für jeden Probanden die Differenz aus A(T1) und A(T0). Ebenso B_Dif = B(T1) – B(T0). Dann die Korrelationen zwischen A_Dif und B_Dif berechnen.
      Variation: Kombination mit Filter: Nur für die Probanden berechnen, bei denen A_Dif positiv ist.
      Die Korrelation prüft, ob die Veränderung von T0 zu T1 in den Merkmalen A und B analog verläuft. Positive Korrelation: Je größer A_Dif, desto größer B_Dif. Negative Korrelation: Je größer A_Dif, desto kleiner B_Dif.

      1. Guten Tag Herr Riepl,

        erst einmal vielen herzlichen Dank für die schnelle und toll erklärte Antwort! Haben Sie wirklich vielen Dank, das hilft mir bereits sehr!

        Eine kleine Frage noch zu der Idee mit der Korrelation der Differenzen:

        Wie berechne ich die Differenz von A(T1) und A(T0) für jeden Probanden?

        Gibt es in SPSS eine entsprechende Berechnung oder muss ich schlicht und händisch sämtliche Werte pro Proband heraussuchen und die jeweilige Differenz bilden und danach diese Differenzen zusammenrechnen und durch die Anzahl der Probanden teilen?

        Oder genügt es, wenn ich schlicht „Variable A (T1)“ minus „Variable A (T0“ berechne?

        Und aus Interesse: Was für eine Abfrage ermöglicht es mir, diejenigen herauszusuchen, bei denen A(T1) > A(T0)..?

        Liebe Grüße,
        Tjorven Stamer

        1. > Oder genügt es, wenn ich schlicht “Variable A (T1)” minus “Variable A (T0” berechne?
          Ja.

          Für die Berechnung von Statistiken wie t-Tests oder Korrelationen ist es wichtig, Daten pro Proband zu haben und nicht nur einen einzelnen Wert für den gesamten Datensatz.

          > Was für eine Abfrage ermöglicht es mir, diejenigen herauszusuchen, bei denen A(T1) > A(T0)..?

          Filter, Bedingung setzen. Geht über Menü.
          (Ich arbeite nicht mehr mit SPSS, nur noch mit R.)

  39. Hallo Herr Riepl,

    ich hätte auch eine Frage, bei der ich einfach nicht weiter komme.

    Ich habe innerhalb meines experimentellen Desings zwei uvs manipuliert. Eine dritte uv habe ich lediglich abgefragt und nicht manipuliert. Im Anschluss habe ich, da es viele Arbeiten in diesem Feld so machen, die manipulierten uvs (uv 1 und uv 2) mittels Median Split geteilt. Da der Median-Split häufig kritisiert wird habe ich diskutiert. Dementsprechend habe ich die nun dichotomisierten Variable (uv 1 und uv 2) als feste Faktoren in die Varianzanalyse aufgenommen. Die dritte Variable (uv 3), welche nicht manipuliert wurde, habe ich als Kovariate mit in das Modell aufgenommen.

    Nun zeigt sich, dass das Modell unbalanciert ist:

    Uv 1: niedrig: 100
    Hoch: 101

    Uv 2: niedrig: 91
    Hoch: 110

    Uv 3 (metrische Kovariate): 201

    Meine Fragen:
    Wie hoch darf die Differenz zwischen den Gruppen sein, damit eine Anova auch bei unbalancierten Design richtige Ergebnisse bringt?
    Sollte ich die Ergebnisse der ANOVA verwerfen und mit den drei metrischen Variablen lieber eine Regressionsanalyse rechnen, da die unbalanciertheit ja nur aus dem Median-Split resultiert?

    1. Hallo Lena,
      meines Erachtens sind die Unterschiede in den Fallzahlen bei UV2 nicht problematisch. Wenn Zeit und Platz in der Arbeit da sind, kannst Du ja auch mit metrischen Kovariaten rechnen, Ergebnisse vergleichen und diskutieren. Der Mediansplit an sich kann mehr ausmachen als die Frage der Fallzahlen / Balanciertheit, da ein Teil der Information durch die Dichotomisierung verloren geht. (Anova und Regression sind beides Spezialfälle des Allgemeinen bzw. Verallgemeinerten Linearen Modells – es ist nicht entscheidend, welches Modell man nimmt, man kann mit beiden die gleichen Ergebnisse erzielen.)

      1. Danke für Ihre schnelle Antwort. Tatsächlich ist der Median-Split schuld an der ungleichverteilung. 22 Probanden haben bei der uv2 den Wert vier angegeben, was dem Median entspricht. Ich habe in der Arbeit jedoch auch bereits mit metrischen Variablen gerechnet und die gleichen Ergebnisse erhalten.

        Eine Frage hätte ich jedoch noch:

        Im Modell sind uv1 und uv2 signifikant, uv3 jedoch nicht. Ich befürchte, dass es sich hier vielleicht um eine Redundanz handelt, da uv3 allein signifikant ist. Also das die Variablen denselben Teil der Varianz erklären. In der Anova kann man dies ja mit dem Modell-! überprüfen. Kennen sie ein ähnliches Vorgehen für die Regressionsanalyse.

        1. In der Regression ist es im Prinzip genauso. Einzeln (UV3 als einziger Prädiktor) wird UV3 wohl sig. sein. Nimmt man UV1 und/oder UV2 mit auf, vermutlich nicht mehr. UV3 wird mit mindestens einer der beiden anderen UVs korrelieren. Das sehe ich nicht als Problem, sondern als Information über die Daten, die ein Modellvergleich sichtbar macht.

          1. Genau im Modell sind uv1 und uv2 signifikant und uv3 nicht. In meiner Interpretation habe ich deshalb geschrieben, Personen müssen Eigenschaft 1 (uv1) und Eigenschaft 2 (uv2) haben um die Kaufabsicht zu steigern. Uv3 hat dagegen keinen Einfluss.

            Nun habe ich mir die Semipartielle korrelation angeschaut. Es zeigt sich für alle Variablen einen Abfall von der Bivariaten Korrelation zur Semipartielle korrelation. Uv3 hat jedoch eine geringe semipatielle Korrletion (Abfall von 0,274 auf 0.98). Was mir hier schwer fällt ist die Interpretation, was bedeutet das nun genau?

            Hat uv3 nun einen Einfluss oder nicht? Ich denke, uv3 hat nur allein einen Einfluss. Sobald die Eigenschaften 1 und 2 dazu kommen erklären diese den Anteil der Kaufbereitschaft, den die Attraktivität alleine erklären würden. Weshalb meine erste Interpretation richtig war. würden sie das auch so sehen? (ich hoffe, es war verständlich)

  40. Hallo Wolf,

    ich möchte im Rahmen meiner Masterarbeit im ersten Step den Zusammenhang zwischen einzelnen Führungskompetenzen und der Gesundheit der Mitarbeiter untersuchen. Folgende Daten liegen mir hierfür vor:

    – Die Führungskräfte einer Firma wurden hinsichtlich verschiedener Kompetenzen (z.B. Kommunikationsfähigkeit) bewertet (1-5-Skala)
    – Die Krankenquote aus dem jeweiligen Bereich der Führungskraft

    Im zweiten Step möchte ich zudem sogenannte Puffereffekte untersuchen: Beispielsweise die Fähigkeit Mitarbeiter zu entwickeln kann die negativen Auswirkungen von schlechter Konfliktfähigkeit auf die Gesundheit der Mitarbeiter „abpuffern“

    Da Statistik wirklich nicht mein Steckenpferd ist, würde ich mich über Tipps bzgl geeigneter Analyseverfahren sehr freuen.

    Mit freundlichen Grüßen
    Timo

    1. Hallo Timo,
      das ist recht pauschal gefragt, da gibt es viele Möglichkeiten. Vor den Analysen würde ich möglichst präzise formulierte Hypothesen aufstellen. Für Step 1 würde ich mir Korrelationen anschauen, z. B. Spearman für Ordinaldaten. Deskriptive Statistiken und explorative Grafiken, um die Daten besser kennen zu lernen. Wenn Du weitere Variablen einbeziehen willst (z. B. demografische Kontrollvariablen wie Alter, Geschlecht, oder firmenspezifische Merkmale), bieten sich multivariate Verfahren an, etwa Regressionsverfahren.
      Step 2: Klingt nach Moderatoreffekt: Der Effekt der Konfliktfähigkeit auf die Mitarbeiter wird vermittelt (moderiert) durch die Fähigkeit, Mitarbeiter zu entwickeln. Testbar z. B. per Regression mit Interaktionsterm.

      1. Hallo Wolf,
        erstmal vielen Dank für die Antwort, das hat mir extrem weitergeholfen. Eine Frage hätte ich allerdings noch: Sowohl mit Spearman, als auch mit Kendall kann ich tatsächlich signifikante negative Zusammenhänge zwischen vereinzelten Kompetenzen und der KQ feststellen (Auch wenn nur zwischen -0,2 & -0,3). Allerdings fallen die Werte bei Kendall geringer aus. Jetzt habe ich nachgeforscht & bin darauf gestoßen, dass bei zu vielen Bindungen die Methode Kendall geeigneter erscheint. Allerdings konnte ich keine feste Regel finden, ab wann dies der Fall ist. Hätten sie da eine Empfehlung? Die genaue Stichprobe ist n=85.

        Mit freundlichen Grüßen & Danke vorab

        Timo

        1. Ich habe auch keine feste Regel. Denke nicht, dass es da ein klares Richtig / Falsch gibt. Eine saubere Methode wäre, beide Ergebnisse zu dokumentieren (und sei es nur ein Vergleich in einer Fußnote) und die Unterschiede mit dem Umgang mit Bindungen zu begründen.

  41. Hallo Herr Riepl,

    vielleicht finden sie etwas Zeit auch meine Frage unter diesen hunderten Kommentaren zu beantworten.

    Ich habe die Vorraussetzungen für ein multiple Regression geprüft. Die Zusammenhänge waren nicht perfekt linear. Mein Dozent meinte, dass die Voraussetzungen nie perfekt erfüllt sind und ich deshalb die Analyse nicht zu segr straperzieren solle und die Annahme diskutieren soll. Nun weiß ich leider nicht was er genau meint. Im Internet steht nichts davon, dass die Linearität einmal nicht ganz passt.

    Zusätzlich hat sich im Anschluss auch eine Heteroskedastizität eingestellt, was ja eigentlich aus der Nicht-Kinearität der Daten resultieren kann, deshalb habe ich die robuste Regressionsanalyse angewendet.

    Meine Frage ist nun in welche ich die Nicht perfekte Linearität diskutieren könnte. Bei einer nicht perfekten Normalverteilung gibt es den zentralen Grenzwertsatz, aber was kann man bei einer nicht perfekt linearität sagen?

    1. Die meisten Zusammenhänge in der Realität sind nicht exakt linear, insofern sehe ich das entspannt. Wenn Sie die Annahmen testen, weisen Sie nach, dass Sie gewissenhaft vorgehen. Gründe für Nichtlinearität können sein: Der Effekt verändert sich über den Wertebereich oder es gibt weitere, unbeobachtete Einflüsse (nicht erhobene Variablen).

  42. Hallo Wolf,

    vielen Dank für deinen Beitrag. Ich bin zurzeit am Auswerten meines Fragebogens für meine Bachelorarbeit. Bei dem Fragebogen gibt es zwei Gruppen, die anfangs jeweils ein anderes Szenario gestellt bekommen haben. Dabei hat die Treatmentgruppe aus einer großen Auswahlmenge ein Produkt wählen können und die Kontrollgruppe aus einer kleinen Auswahlmenge. Die konkrete Frage im Fragebogen war welche Option würden Sie wählen oder man konnte auch keine Option wählen. Meine Hypothese dazu war, dass die Teilnehmer der Treatmentgruppe sich eher dazu entscheiden keine Option zu wählen als die Teilnehmer der Kontrollgruppe, da Sie ein größeres Auswahlset zur Auswahl hatten und nach einem so genannten Choice Overload Effekt, das dazu führen kann, dass der Konsument gar nichts wählt. An Hand der Auswertungen konnte ich dann manuell berechnen dass sich in der Kontrollgruppe mit dem kleinen Auswahlset 84% für eine Option entschieden haben und 16% dagegen. In der Treatmentgruppe haben sich 73% für eine Option entschieden und 27% dagegen. Meine Frage ist jetzt wie ich diesen Unterschied auf stat. Signifikanz prüfen kann. T-Test ginge ja mit Mittelwerten, aber was mache ich wenn ich Prozentwerte vergleichen muss?
    Vielen lieben Dank im Voraus.
    Beste Grüße
    Bianca

  43. Lieber Wolf

    Gerne wende auch ich mich mit einer Frage an dich. Ich möchte zwei Gruppen bezüglich diversen kategorialen und metrischen Variablen vergleichen. Die Stichprobengrössen sind aber enorm unterschiedlich (461 vs. 4). Geplant habe ich mit Chi-Quadrat bzw. Kruskal-Wallis-Test zu rechnen. Lassen sich diese Tests unter diesen Umständen überhaupt durchführen bzw. wären andere Tests angebrachter (logistische binäre Regression??) und ist es ein Problem, wenn ich so viele verschiedene Variablen teste? Dann noch eine letzte Frage, lässt sich beim Chi-Quadrat und dem Kruskal-Wallis-Test auch mit Kontrollvariablen arbeiten?

    Danke dir vielmals!!

    Liebe Grüsse
    Julia

    1. Hallo Julia,
      bei einer Gruppengröße von n = 4 wäre ich sehr zurückhaltend mit statistischen Tests und Interpretationen. Das ist ja fast eher eine Einzelfallbeschreibung. Das muss gar nicht schlimm sein – ich würde ganz nüchtern das machen, was am besten zu den Daten passt. Keine Kontrollvariablen, keine multivariaten Verfahren, keine (logistische oder lineare) Regression. Chi-Quadrat / Kruskal-Wallis ist prinzipiell möglich, aber vorsichtig zu interpretieren. Ich würde vor allem deskriptiv arbeiten (Fallzahlen, Häufigkeiten) und die Zahlen eng mit inhaltlichen Überlegungen verknüpfen. Etwa, ob die 4 homogen und „typisch“ sind für die Grundgesamtheit, die sie repräsentieren sollen.

  44. Hallo Wolf,
    super gut, dass Du hier so eine Art Plattform schaffst! Vielleicht kannst Du mir helfen, in einer Woche ist die Abgabe meiner MA und ich bin gerade etwas verunsichert. Ich habe eine Interventionsgruppe, zwei Messzeitpunkte und neben zwei standardisierten Fragebögen die ich mithilfe des Wilcoxon Tests berechnet habe, liegen mir auch gesundheitsbezogene Daten, die ich allerdings nur mit einem Item erhoben habe, daher nicht so aussagekräftig. Nun die Frage: Mit welchen Tests rechne ich diese am besten? Es handelt sich um Unterschieds-Analysen.

    H0: Es gibt keine Unterschiede bzgl. der subjektiven Einschätzung von Achtsamkeit..
    H1: Es gibt Unterschiede…
    Frage: Würdest du dich als einen achtsamen Menschen bezeichnen? Antwortmöglichkeit: Ja / Nein
    >>Nominalskaliert und Chi2 Test?

    H0: Es gibt keine Unterschiede bzgl. der subjektiven Einschätzung der Schlafqualität…
    H1: Es gibt Unterschiede ….
    Frage „Leidest Du unter Schlafproblemen?“ Antwortmöglichkeit: Ja / Nein
    >>Nominalskaliert und Chi2 Test?

    H0: Es gibt keine Unterschiede bzgl. der Ausprägung des Stressniveaus innerhalb eines Monats..
    H1: Es gibt Unterschiede…
    Frage „Wie oft fühltest du dich im letzten Monat gestresst?“ Antwortmöglichkeiten: nie, ein bis zwei Mal, drei bis vier Mal, fünf Mal oder öfter
    >>Ordinalskaliert und welchen Test am besten?

    Vielen vielen Dank schon mal vorab!
    Gruß
    Lara

    1. Hallo Lara,
      wie sind die Gruppen definiert? Willst Du die beiden Messzeitpunkte vergleichen? Wenn es sich um abhängige Stichproben handelt (gleiche Personen zu verschiedenen Zeitpunkten), kannst Du den McNemar-Test nehmen für nominalskalierte Merkmale.
      Bei der letzten Hypothese: Ja, ordinalskaliert. Wenn es sich um abhängige Stichproben handelt, kannst Du Wilcoxon nehmen.
      Achtung: Ich kenne Deine Daten, Fallzahlen, inhaltlichen Kontext nicht, daher ohne Gewähr.

  45. Hallo Herr Riepl,

    ich führe derzeit eine Vatianzanalyse durch und habe etwas Probleme mit den Freiheitsgraden bei SPSS.
    Mein Versuch wurde mit 29 Probanden durchgeführt, die ein System in verschiedenen Konstellationen testen sollten. So konnten bei dem System drei Geschwindigkeiten und zwei Anzeigen in je 2 Ausprägungen eingestellt werden und die Reaktion des Benutzers wurde jeweils gemessen. So habe ich pro Proband 12 Messwerte.
    Nun interessiert mich, inwieweit eine Eigenschaft des Systems Einfluss auf das Verhalten der Probanden (Messwert) hat.

    Meine Auswertung mit SPSS lieferte mir nun Werte wie F(1,346)…
    Kann das sein oder müsste df2 viel kleiner sein?

    Viele Grüße

    Eva

      1. Ja, das stimmt, ich nutze das Long Format und habe sowohl within subjects (die Konditionen des Systems) als auch noch zusätzliche between subjects (Eigenschaften der Probanden). Also müsste ich dann eine Mixed ANOVA durchführen?

  46. Hi Wolf,

    erstmal danke für deine viele Mühe hier!
    Ich hätte auch eine Frage zu meiner Auswertung:

    Die Versuchspersonen sollten jeweils einen Mann und eine Frau auf verschiedenen AVs bewerten. Diesen Unterschied in der Bewertung von Mann und Frau (also ob Frauen besser/schlechter bewertet werden als Männer) würde ich ja dann jeweils am besten mit einem abhängigen t-Test bzw einer Messwiederholungs-ANOVA berechnen.

    Jetzt habe ich aber zusätzlich noch mögliche Moderatoren erhoben und möchte in meinen Hypothesen herausfinden: „Wird der Unterschied in der Bewertung von M & F von der Ausprägung des Moderators XY beeinflusst?“

    Wie gehe ich hier vor? Als Regression mit Moderationsanalyse via PROCESS ist das ja leider nicht möglich oder? Welche andere Möglichkeit habe ich, die Moderation zu testen?

    Vielleicht hast du ja eine Idee!
    Danke und liebe Grüße

    1. Schau mal unter „Linear Mixed Model“ oder „Generalized Linear Mixed Model“. Da kann man sowohl Messwiederholungen als auch Moderatoreffekte einbauen.

  47. Hallo Tag,

    auf der Suche nach statistischen Methoden, die ich für meine Abschlussarbeit verwenden kann, bin ich auf Ihrer Seite gelandet. Ich hoffe Sie können mir ein wenig weiterhelfen bei der Auswahl der Methode(n).

    Ich habe 3 Gruppen (n1=4, n2 =7, n3=11), die auf die Expression eines Antikörpers anhand der Färbeintensität untersucht wurden. Einmal sollen die Expression in beiden Testgruppen verglichen werden und einmal die beiden Testgruppen mit der Kontrollgruppe.

    Aufgrund der kleinen Stichprobe und keiner Normalverteilung hätte ich allerdings eher ein nicht-parametrischen Test wie den Mann-Whitney U-Test für den Vergleich der zwei Gruppen, und für den Vergleich aller drei Gruppen den Kruskal-Wallis-Test bevorzugt.
    Mir wurde die ANOA dafür vorgeschlagen.

    Ich bin jetzt leider etwas ratlos. Es wäre super, wenn Sie mir weiterhelfen könnten, welcher Test für die beiden Gruppenvergleiche, der beste wäre.

    Vielen lieben Dank vorab!!

    Liebe Grüße
    Sabrina

    1. Hallo Sabrina,
      bei diesen Fallzahlen würde ich auch eher auf nichtparametrische Verfahren setzen. Wenn der Betreuer ANOVA möchte, kann man beides machen, Ergebnisse vergleichen und diskutieren. Aber bei diesen Gruppengrößen halte ich ANOVA schon für recht ambitioniert.

  48. Hallo Herr Riepl,

    Ich drehe mich mit der statistischen Auswertung zu meiner Masterarbeit seit längerer Zeit im Kreis und weiß einfach nicht mehr weiter. Ich denke das Problem wäre eigentlich richtig leicht zu lösen und kommt sicherlich relativ häufig vor, aber mit jeder Information die ich im Internet finde, kommen bei mir nur noch mehr Fragezeichen auf. Jetzt habe ich diese Seite gefunden und habe ja schon mal einige gute Anhaltspunkte gefunden, dennoch bin ich mir noch unsicher wie ich das am Besten angehen soll.

    Bei meiner Arbeit geht es darum herauszufinden, ob die Behandlungsvariante einen Einfluss auf die Ausprägung einer Pflanzenkrankheit hat und ob es zwischen den Behandlungsvarianten signifikante unterschiede gibt.
    Nämlich habe ich bei der Arbeit 6 verschiedene Behandlungvarianten angelegt (eine davon ist die Kontrollgruppe), die anderen 5 unterscheiden sind durch die Mittelzusammensetzung.
    Die Früchte wurden bei der Bonitur in 6 verschiedene Gruppen eingeteilt (je nach Ausprägung der Krankheit) in 0%, 1-5%, 6-10%, 11-20%, 21-50% und >50%. Dabei wurden für jede Behandlungsvariante ca. 360 (Anzahl variiert etwas) Früchte untersucht und in die dazugehörige Gruppe eingeteilt.
    Zunächst habe ich die relative Häufigkeit (der jeweils zugeordneten Früchte) ausgerechnet (weil ja die Anzahl der Früchte der jeweiligen Versuchsvarianten etwas variiert) und dann versucht mit einer einfaktoriellen Varianzanalyse gegenüberzustellen, dabei kam raus, dass kein signifikanter Unterschied zwischen den Versuchsvarianten besteht. Aber ich denke, dass ichs mir damit zu einfach gemacht habe. Was halten Sie davon?

    liebe Grüße,
    Stefanie

    1. Varianzanalyse war auch mein erster Gedanke. Man könnte die Krankheitsausprägung mit den 6 Gruppen als ordinal auffassen und entsprechend eher nichtparametrische Verfahren einsetzen: Kruskal-Wallis zum Vergleich mehrerer unabhängiger Gruppen.

      1. Vielen Dank für die super schnelle Antwort!!
        Also ist es Ihrer Meinung nach zulässig mit der relativen Häufigkeit zu rechnen? Bin zunehmend ins Zweifeln gekommen, ob ich nicht doch die absolute Häufigkeit verwenden muss, damit das Ergebnis nicht irgendwie verzerrt wird, aber ich wusste einfach nicht wie ich das mit SPSS angehen sollte…
        vielen Dank nochmal, für die Schnelle Hilfe

  49. Hallo Wolf,

    im Rahmen meiner Dissertation untersuche ich Patienten nach einer Hirnblutung bzgl. ihres klinischen Outcomes. Dafür werte ich insgesamt drei Parameter aus den CT-Perfusionsbildern (CBF, CBV, MTT) jeweils für links und rechts aus. Für jeden Parameter gebe ich einen Score von 0 bis 6, wobei 0 keine Perfusionsverzögerung und 6 ausgeprägte Perfusionsverzögerung in allen Hirnarealen bedeuten.
    Letztendlich will ich folgendes untersuchen:

    1. Ob sich der Score zwischen der Infarkt-Gruppe und der Nicht-Infarkt-Gruppe unterscheidet.
    Da ich unabhängige, nicht normalverteilte, ordinal skaliert Variablen habe, hätte ich mich hier für den Mann-Whitney-Test entschieden. Ist das so richtig? Oder sollte ich lieber einen Kruskal-Wallis-Test durchführen?
    Ich habe für jede Gruppe insgesamt 6 Variablen (jedes Parameter links und rechts). Macht es Sinn für jeden Patienten die Summe seines Scores für links und rechts zu berechnen (also jeweils ein Wert für CBF, CBV und MRT) und das dann mit der anderen Gruppe zu vergleichen?

    2. Ob der Score mit dem klinischen Outcome korreliert, letzteres auch ordinal skaliert. Welches Test wäre hier geeignet?

    Vielen Dank und liebe Grüße
    Anni

    1. Hallo Anni,
      Mann-Whitney ist für zwei Gruppen, Kruskal-Wallis kann für mehr als zwei Gruppen eingesetzt werden. Mann-Whitney sollte hier passen. Ja, die Summen zu bilden und auf Unterschiede zu testen klingt sinnvoll.
      Ordinale Korrelation: Ich würde Spearman Rank Correlation (Rangkorrelation) nehmen.
      Viel Erfolg
      Wolf

  50. Hallo Wolf,

    erstmal super Seite und danke für deine Arbeit!
    Ich beginne gerade auch mit meiner Masterarbeit und plane ein experimentelles Design. Es soll insgesamt 6 Gruppen geben, die jeweils unterschiedliche Stimuli erhalten (unabhängige Stichproben). Eine der Gruppen ist die Kontrollgruppe, mit der die anderen 5 jeweils verglichen werden sollen. Es gibt in dem Experiment nur eine abhängige Variable und eine unabhängige Variable mit eben den 6 Faktorstufen (Gruppen). Nun bin ich ratlos, ob ich eine ANOVA durchführen kann, obwohl die jeweiligen Faktorstufen nicht alle miteinander, sondern nur mit der Kontrollgruppe verglichen werden sollen. Oder kann ich dann keine ANOVA machen (um den Haupteffekt der UV zu prüfen), sondern nur paarweise t-Tests? (Die Gruppengröße wird bei etwa 30 Personen pro Gruppe liegen (gleich groß)).
    Komme bei der Fragestellung leider nicht weiter, ich wäre dir super dankbar für einen Rat!

    Liebe Grüße
    Sophie

    1. Hallo Sophie,
      paarweise t-Tests würde ich nicht machen: siehe Stichwort Alpha-Fehler-Kumulierung. Also Anova mit Post-Hoc-Tests. Da gibt es je nach Statistik-Programm verschiedene Optionen mit vordefinierten Post-Hoc-Tests. Man kann auch selbst Kontraste vorgeben, also beschreiben, welche Gruppen man vergleichen will.

  51. Hallo Herr Riepl,

    ich bin auch gerade dabei eine Hypothese zu überprüfen und etwas ratlos.
    Ich möchte überprüfen, ob durch ein Treatment die Einstellung zu einem Verkehrsmittel bei Studierenden stärker beeinflusst wird, als bei Berufstätigen. Dafür habe ich eine Kontrollgruppe für Studierende und Berufstätige, und eine Experimentalgruppe für Studierende und Berufstätige.

    Die Daten liegen nicht normalverteilt vor, aber jeder Gruppe ist n > 30. Das soll ja im Grunde eine Mittelwertdifferenzvergleich sein. Mache ich jetzt einfach eine Varianzanalyse?

    Ich würde mich sehr über ein kurzes Feedback freuen.
    Beste Grüße,
    Simon

    1. Ich würde mir die Verteilung auch grafisch anschauen. Wenn sie deutlich nicht normalverteilt ist, hilft manchmal eine Transformation (z. B. logarithmisch). Das muss dann bei der Interpretation berücksichtigt werden (die transformierte Skala ist nicht mehr in den ursprünglichen Einheiten interpretierbar).
      Wenn die Abweichung von einer NV nicht so groß ist, kann man bei n > 30 in der Regel damit leben. Dokumentieren und diskutieren würde ich es auf jeden Fall; stillschweigend ignorieren ist keine gute Praxis. In vielen Studien sind nicht alle Testvoraussetzungen erfüllt – es zeugt von Sachkenntnis, wenn man sich dessen bewusst ist und das transparent macht. Auch eine (zusätzliche) nichtparametrische Alternative kann sinnvoll sein. Ggf. beides machen und vergleichen.

  52. Hallo Wolf,

    toller Beitrag, insbesondere der Hinweis auf den Entscheideassistenten.
    Leider geht es mir wie den anderen Kommentierenden und ich habe dennoch eine Frage.

    In meiner Masterarbeit möchte ich die Anforderungsunterschiede von Bewerbern aus 2 Nationen an den Bewerbungsprozess untersuchen/vergleichen. Also z. B.
    1. Nation A erwartet früher eine Rückmeldung vom Unternehmen als Nation B
    2. Nation B erwarten zu einem größeren Anteil ein Feedback zu einer Absage als Nation A.
    Dafür möchte ich in einem Fragebogen erstellen, bei dem z. B. bei Frage 1 die konkrete Dauer in Wochen erfragt wird und bei Frage 2 die Wichtigkeit (1 = ist mir sehr wichtig, 2 ist mir wichtig,…)

    Welche Methode oder Tests sind in diesem Fall empfehlenswert?

    Viele Grüße

    1. Hallo Lisa,
      die einfachste Variante wären wohl t-Tests. Wenn Du weitere Variablen berücksichtigen willst, kannst Du mit Regressionsanalysen / Varianzanalysen arbeiten. Es kommt natürlich auch auf Fallzahlen und Verteilungen an.
      Viel Erfolg!
      Wolf

  53. Hallo Wolf,

    ich habe ein 2 (hohe Expertise vs. geringe Expertise) x 2 (hohe Vetrauenswürdigkeit vs. niedrige Vertrauenswürdigkeit).
    Meine unabhängigen Variablen sind Expertise und Vertrauenswürdigkeit und zusätzlich Attraktivität (dafür habe ich keinen Stimulus gesetzt)

    meine abhänige Variable ist nun Einstellung und Kaufabsicht.

    Meine Fragen sind:
    Geht das innerhalb eines Experiments überhaupt, dass ich drei uv abfrage, aber nur zwei manipuliere?
    Weiterhin weiß ich nicht genau wie ich jetzt weiter vorgehen soll. Für die Stimuli hätte ich eine Varianzanalyse vorgeschlagen, aber wie berechne ich die Weikung der Attraktivität auf die aV? Mittels einer Regressionsanalyse.

    Vielen Dank im Voraus

    1. Hallo Lisa,
      bei vielen Fragestellungen kann man gar keine UV manipulieren. Ist also ein Bonus, wenn einige UVs manipuliert werden können.
      Regression und Varianzanalyse sind sehr eng verwandt (beide lassen sich auf das Allgemeine bzw. Verallgemeinerte Lineare Modell zurückführen) – ich denke mit beiden kann man hier arbeiten, je nach Vorlieben / nach dem, was in Deinem Fachbereich üblich ist.

      1. Vielen Dank für deine Antwort. Wäre folgenden Vorgehen dann richtig:

        1. univariate Varianzanalyse: uV Kompetenz (mit Gruppe hohe vs niedrige kompetenz), aV: Kaufabsicht
        2. univariate Varianzanalyse: uV Vertrauenswürdigkeit (mit Gruppe hoher vs niedriger Vertrauenswürdigkeit), aV: Kaufabsicht
        3. univariate Varianzanalyse: uV Attraktivität (keine Gruppen, da nicht manipuliert), aV: Kaufabsicht

        Oder sollte man hier eine Kovarianzanalyse wählen, um die Effekte der Attraktivität zu untersuchen?

        1. Hallo Lisa,
          ich glaube nicht, dass es hier ein einfaches richtig oder falsch gibt. Es gibt sicher mehrere Möglichkeiten. Ein (zusätzliches) gemeinsames Modell mit mehreren UVs kann interessant sein, um Wechselwirkungen zwischen den UVs zu erkennen (z. B. sind Effekte unabhängig von einander signifikant, oder überschneiden sie sich, sodass vielleicht eine UV im gemeinsamen Modell nicht mehr sig. ist?). Ich war eher Fan von Regressionsanalysen, die ich etwas klarer zu interpretieren fand. Das ist Geschmackssache, Varianz- und Regressionsanalyse lassen sich auf das gleiche Modell zurückführen (Allgemeines bzw. Verallgemeinertes Lineares Modell).
          Es kommt auf Deine Fragestellung an und wie tief Du einsteigen willst. Manchmal reicht auch die einfachere Variante.

  54. Hallo Wolf,

    vielen Dank für deinen hilfreichen Blog:) Ich habe mir alle Beiträge durchgelesen, aber leider nicht die passende Antwort auf meine Fragestellung gefunden, daher wäre ich für eine Antwort sehr dankbar:)

    Und zwar habe ich eine Kontrollegruppe und eine Szenariogruppe. In beiden Gruppen haben die Teilnehmer die freie Entscheidung, ob sie einen CO2-Ausgleich zahlen möchten oder nicht (Ja/Nein Frage) (Also habe ich quasi vier Gruppen: 1. Kontrollgruppe mit Teilnehmern, welche den CO2-Ausgleich nicht zahlen wollen, 2. Kontrollgruppe mit Teilnehmern, welche den CO2-Ausgleich zahlen wollen,3. Szenariogruppe mit Teilnehmern, welche den CO2-Ausgleich nicht zahlen wollen, 4. Szenariogruppe mit Teilnehmern, welche den CO2-Ausgleich zahlen wollen). Diese bewerten alle auf einer 7-likert Skala deren Umweltverhalten. Nun würde ich gerne den Unterschied von den Teilnehmern der Szenariogruppe, welche den CO2-Ausgleich zahlen (Gruppe 4) zu den Teilnehmern der Kontrollgruppe, welche nicht den CO2-Ausgleich zahlen wollen (Gruppe 1) auf deren Umweltverhalten untersuchen. Neben dem Gesamteffekt, würde ich aber natürlich auch gerne sehen worauf das mögliche Ergebnis zurückzuführen ist. Also ob es nur aufgrund der Zahlung des CO2-Ausgleiches oder auch auf das Szenario zurückzuführen ist.

    Meine Überlegung war für den Gesamteffekt einen t-Test zu machen und für die Untersuchung der Effekte eine mehrfaktorielle Varianzanalyse durchzuführen. Bin mir aber sehr sehr unsicher…

    Schon einmal vielen Dank für deine Mühe und liebe Grüße
    Alexander

    1. Hallo Alexander,
      die Methodenwahl hängt auch von Fallzahlen und Verteilungen (Umweltverhalten) ab. Wenn es nur ein Item der Likert-Skala ist oder das Umweltverhalten deutlich nicht normalverteilt ist, kann man auch nichtparametrische Verfahren nehmen (z. B. U-Test).
      Für die Gruppenvergleiche wäre der Kruskal-Wallis-Test eine nichtparametrische Alternative.

      1. Danke dir Wolf für die schnelle Antwort. Also insgesamt habe ich knapp 400 Teilnehmer, pro Gruppe dann mindestens 70-80 Teilnehmer. Das Umweltverhalten besteht aus mindestens 3 Items und ist normalverteilt.

        Müsste ich dann trotzdem nichtparametrische Verfahren anwenden, oder ginge es mit der merfaktiorellen Varianzanalyse?

        Vielen Dank dir:)

        1. Das klingt nach einer sehr soliden Basis. Das Schöne ist, dass Abweichungen von Annahmen wie z. B. Normalverteilung bei größeren Fallzahlen (wie Deinen) leichter zu verschmerzen sind. Würde sagen: Grünes Licht für Varianzanalysen.

  55. Hallo Wolf,

    ich schreibe gerade an meiner Masterarbeit und die Auswahl der Statistik stellt mich vor ein kleines Problem.

    Zu meinem Datensatz ist zu sagen es handelt sich um Augenbewegungsdaten (Fixationen) von 15 Versuchspersonen, die innerhalb von 40 Trials mit verschiedenen Bedingungen aufgenommen wurden.

    Als abhängige Variablen habe ich die Dauer sowie die Position für jede Fixation (n> 680000 mit großen Variationen in der Anzahl der Fixationen pro Trial). Weiterhin habe ich für jede Fixation 5 unabhängige Variablen (die Bedingungen), welche jeweils eine von 2 möglichen Ausprägungen haben kann (z.B. Seite (Links oder Rechts), Verzögerung (kurz oder lang), Komplexität (leicht oder schwer), Fixationstyp (a oder b) und Block (1 oder 2)).

    Ensprechend meines Versuchsdesigns, muss es eine Statistik mit Messwiederholung bzw. abhängigen Stichproben sein.

    Teilweise sind die Daten jedoch nicht normalverteilt (was bei 15 Datenpunkten nicht verwunderlich ist) weswegen ich erstmals an eine nichtparametrische Alternative (eg. den Wilxocon Rangsummen Test) gedacht habe, jedoch sind die Interaktionen zwischen den unabhängigen Variablen sehr wichtig, was eher für eine Mehrfaktorielle ANOVA mit Messwiederholung spricht. Da es aber nur zwei Ausprägungen pro unabhängige Variable gibt, bin ich etwas verunsichert was der beste Ansatz ist.

    Gibt in diesem Fall es eine geeignetere Alternative als eine Fünffaktorielle Anova mit Messwiederholung?

    Vielen Dank für die Hilfe und viele Grüße
    Linda

    1. Hallo Linda,
      für parametrische Verfahren ist die Anzahl der Versuchspersonen schon recht gering, besonders für eine mehrfaktorielle Anova. Ich würde die Daten ausführlich deskriptiv auswerten, Verläufe visualisieren und die unterschiedlichen Bedingungen mit separaten Linien für die Verläufe darstellen. Evtl. separate Wilcoxon-Tests für Bedingungen. Ob es was Besseres gibt, weiß ich nicht … (Bin auch grade im Urlaub)

  56. Hallo Wolf,

    erstmal vielen lieben Dank für die super Website!

    Ich sitze gerade an der Datenauswertung für meine Bachelorarbeit.
    Ich habe eine Stichprobe mit 2.044 Probanden. Ich möchte den Einfluss des Wohnortes auf die Umwelteinstellungen, und ob es dort Unterschiede zwischen Stadt und Land gibt, testen. Dafür habe ich eine Frage aus einem Fragebogen genommen, bei der die Probanden bestimmten Aussagen zu dem Thema zustimmen oder nicht zustimmen sollten. Die Skala lautet 1=Trifft überhaupt nicht zu, 2=Trifft eher nicht zu, 3=Trifft eher zu und 4=Trifft voll und ganz zu. Diese Aussagen habe ich zu einem Index aufsummiert. Also zeigt ein höherer Wert eine höhere Einstellung zur Umwelt an. Die Variable Wohnort ist mit 0=Land und 1=Stadt kodiert.

    Welchen statistischen Test sollte ich am besten dafür verwenden?

    1. Da gibt es mehrere Möglichkeiten. Einfachste Variante wird wohl der t-Test sein. Dabei nehmen wir an, die Skala sei metrisch, was man diskutieren kann. Als Index (aus mehreren Fragen zusammengesetzt) ist sie zumindest feiner abgestuft als die ursprüngliche 4er-Skala. Außerdem nimmt der t-Test an, die Daten seien normalverteilt.
      Bei der großen Fallzahl wird der Test sehr wahrscheinlich signifikant ausfallen. Da ist wohl auch eine Berücksichtigung der Effektstärken sinnvoll, bzw. eine inhaltliche Interpretation, ob die Unterschiede auch praktisch bedeutsam sind (das ist bei Signifikanz nicht automatisch der Fall!).
      Es gibt auch fortgeschrittenere Verfahren, z. B. Regressionsanalyse mit Wohnort als unabhängiger Variable und ggf. weiteren Kontrollvariablen.

  57. Hallo Wolf,

    ich bin noch gar nicht bei der Auswertung, wie die meisten hier, sondern noch ganz am Anfang, würde mich aber über deine Meinung freuen.

    Meine Untersuchung sollte die zugrunde liegenden Mechanismen, durch die Influencer die Kaufabsicht im Bereich Food beeinflussen herausstellen. eigentlich dachte ich, dass ich meine Hypothesen (siehe unten) mit einer einfachen Online Umfrage untersuchen könnte, indem ich Attraktivität, Expertise und Vertrauenswürdigkeit einfach abfrage. Aber eigentlich muss ich mich ja auf einen speziellen Instagram-Beitrag (indem man einen Food-Influencer sieht) beziehen. Wäre das schon ein Stimulus im Sinne eines Experimentes?

    Macht es Sinn einen Instagrambeitrag zu zeigen und Skalen abzufragen und die Attraktivität, Expertise, Vertrauenswürdigkeit dann durch eine Regressionsananalyse auf die Kaufabsicht zu beziehen oder würde ein Experiment mehr Sinn machen, indem ich Expertise, Vertrauenswürdigkeit und Attraktivität als Stimuli nutze und immer wieder verändere?

    Hypothesen: Postive Beziehung zwischen (a) Expertise, (b) Vertrauenswürdigkeit (b) Attraktivität udn Kaufabsicht

    Ich weiß, dass die Fragen sehr spezifisch sind, würde mich aber über Austausch und Ideen freuen.

  58. Hallo Wolf,

    sitze gerade an der Auswertung meiner Daten für die Masterarbeit. Trotz Stöbern durch den Blog und anderen Seiten habe ich ein paar Fragezeichen, und würde mich gerne rückversichern, denn es wird für mich immer komplizierter:

    Ich habe folgende Daten vorliegen: n=30 wobei oftmals mehrere Angaben fehlen, so komme ich im Schnitt auf n=20 gültige Werte pro Gesamtskala oder Subskala. Vorgesehen ist, dass ich alle Datensätze drin lasse, dies auch begründen kann.
    So zum Aufbau:
    3 Fragebögen die jeweils zu Subskalen und Gesamtskalen zusammengefasst sind. Es gab drei Erhebungszeitpunkte (t1, t2, t3). Jeder Fragebogen misst ein anderes Merkmal, demnach habe ich 3 Merkmale. Stichprobe waren die gleichen VPN.

    Ich hänge daran, ob ich parametrische oder nonparametrische Test machen soll, da n insgesamt relativ gering ist und sich pro Subskala und Gesamtskala auch immer leicht unterscheidet (mal 20 , mal 22 gültige Werte).
    Soll ich direkt mit non-parametrische Verfahren arbeiten, oder pro Hypothese entscheiden?

    Folgende Hypothese habe ich:
    1. Veränderung eines Merkmal über die Zeit testen. (ANOVA mit Messwdh)

    2. Merkmal 2 steht im Zusammenhang mit Merkmal 3 (Korrelation berechnen)

    3. Je höher Merkmal 1 desto höher Merkmal 2 (Pearson-Korrelation berechnen)

    4.Unterschiede bezogen auf Merkmal 3 zwischen Probandengruppe 1 mit Probandengruppe 2 (Gepaarter t-Test bzw. Wilcoxon)

    5. Merkmal 3 (UV) zeigt einen Zusammenhang zu Merkmal 4 (AV) zum Zeitpunkt t1 (t2, t3) (Pearson Korrelation) jeweils einzeln für die Zeitpunkte ermitteln, oder geht das in einem?

    Herzlichen Dank für deine Antwort.

    Herzlichen Dank.
    Nicole

    1. Hallo Nicole,
      bei n < 30 empfehle ich eher nonparametrische Tests. Statistische Tests auf Normalverteilung schlagen evtl. bei kleinen Fallzahlen nicht an. Du kannst es natürlich ausführlich machen (z. B. Normalverteilungstests, parametrische und nonparametrische Verfahren, Ergebnisse vergleichen und diskutieren). Die einfachere Variante wäre, mit den Fallzahlen zu argumentieren - mit nonparametrischen Verfahren bist Du eher auf der sicheren Seite, was die Voraussetzungen betrifft.

  59. Hallo Wolf,
    danke für Ihren tollen Blog! Ich plane zur Zeit eine Studie zum Thema Behandlung von sozialer Phobie und möchte darin 2 Interventionen miteinander vergleichen (den beiden Interventionsbedingungen sollen jeweils 192 Personen zugeteilt werden). Dafür werden prä-, post- und im follow-up die Daten von 3 Angstfragebögen erhoben – es gibt also drei Messzeitpunkte, die Testergebnisse der 3 Fragebögen als abhängige Variable (handelt es sich um eine abhängige Variable = Angst, oder um drei AVs, weil ich drei Tests habe?) und die Interventionszugehörigkeit als unabhängige Variable, richtig?
    Ich frage mich nun, ob ich besser eine MANOVA oder eine lineare Regression als statistisches Analyseinstrument wählen soll.
    Vielen vielen Dank im Voraus!!!

    1. Hallo Juliana,
      ich denke Anova mit Messwiederholungen (repeated measures Anova). Manova ist wohl eher für mehr als eine abhängige Variable. Hier ist es ja die gleiche AV zu mehreren Zeitpunkten.
      Anovas und lineare Modelle beruhen auf den gleichen Grundlagen, es sind also keine fundamental unterschiedlichen Konzepte. Anovas mit Messwiederholungen lassen sich auch als „linear mixed models“ ausdrücken. Letztere sind flexibler als Anovas, d. h. man muss sich mit mehr Optionen auseinandersetzen.

  60. Hallo Wolf,

    ich bin gerade bei der Auswertung meiner Masterarbeit und bin dabei auf deine hilfreiche Seite gestoßen!

    Nun hätte ich jedoch noch eine kleine Frage, bei der ich nicht weiterkomme. In meinen Fragebogen habe ich einen Manipulationscheck eingebaut, der nominal skaliert ist. Die Probanden erhielten Bedingungen z.B. Label auf dem Produkt vs. kein Label auf dem Produkt und wurden dann gefragt, ob sie ein Label gesehen haben (Antwortmöglichkeiten: ja, nein). Um ihn auszuwerten würde ich nun eine Kreuztabelle erstellen und Chi² heranziehen. Ist das die richtige Herangehensweise oder hilft Chi² hier nicht weiter?

    Vielen lieben Dank für deine Hilfe!

  61. Hallo Wolf,

    Ich habe folgende Hypothese : Männer haben einen höhern Blutdruck als Frauen.
    Gegeben sind systolische und diastolische Blutdruckwerte von Frauen (68) und Männern (45)
    Da ich nun nominale und metrische Variablen habe und ich spezifisch wissen möchte ob Männer einen höheren Blutdruck haben, bin ich mir bei der Testwahl gerade recht unsicher.
    Wäre super wenn du mir weiterhelfen könntest.

    Liebe Grüße

    1. Einfachste Variante: t-Test für unabhängige Stichproben. Wenn Du es genauer machen willst: Verteilung der Blutdruckwerte testen; falls nicht normalverteilt: Mann-Whitney-U-Test. Bei den Fallzahlen sollte der t-Test allerdings ok sein.
      Fortgeschrittenere Methoden: z. B. Regressionsanalyse (oder Varianzanalyse), Blutdruck als abhängige Variable, Geschlecht als unabhängige Variable (am besten 0/1-codiert, z. B. Variable „weiblich“, 0=männlich, 1=weiblich). Dann kannst Du noch Kontrollvariablen aufnehmen, z. B. das Alter. (Wenn Frauen und Männer unterschiedlich alt sind, könnte das Alter den Geschlechtsunterschied beeinflussen.)

  62. Hallo,

    danke für die Erklärungen, ich habe trotzdem nochmal eine Nachfrage zu einem konkreten Sachverhalt: ist ein einzelnes Item vom Likert-Typ als Prädiktor in einer linearen Regression vertretbar? Diese haben ja streng genommen kein intervallskalennievau.

    Danke und liebe Grüße

    1. Hallo Paula,
      das ist ein weit verbreitetes Thema … Es wird jedenfalls sehr häufig gemacht. Ich denke es geht auch darum, wie man mit den Ergebnissen umgeht. Ich würde mich in der Interpretation nicht so sehr auf Dezimalstellen der Regressionsformel versteifen, sondern eher auf Wirkungsrichtungen und Signifikanzen achten / Hypothesen testen. Zusätzlich könnte man in einem Abschnitt „(Kritische) Diskussion der verwendeten Methoden“ auf solche Punkte (Skalenniveaus, Modellannahmen) eingehen.

  63. Hallo, super Blog mit sehr verständlichen Erklärungen!! Leider habe ich trotzdem noch eine Frage zur Methodikauswahl:
    Ich möchte die Mittelwerte zweier Gruppen vergleichen. Messung 1 und 2 finden jeweils am gleichen Patienten statt, jedoch mit 2 unterschiedlichen Methoden. Hinzu kommt noch, dass sie zu unterschiedlichen Zeitpunkten statt finden. Bei manchen Patienten liegt 1 Jahr dazwischen, bei anderen sogar 3 Jahre. Kann ich die Werte trotzdem mit einem T-Test untersuchen? Und falls ja, würde ich den Test für verbundene Stichproben verwenden?
    Vielen Dank für die Hilfe im Voraus!

  64. Hallo Wolf,

    erstmal vorweg, ein richtig guter Blog! Er hat mir schon eeiniges verständliche gemacht.

    und jetzt zu meiner Frage. Und zwar möchte ich untersuchen ob sich je nach Altersgruppe (kategoriale UV, 4 Gruppen) Unterschiede im Problemattributionsstil bei Straftätern ergeben. Der Problemattributionsstil ist meine kategoriale Av mit 5 Ausprägungsmöglichkeiten. Das heißt ich muss einen Chi Quadrat Test anwenden. Ich möchte aber eigentlich auch für verschiedene andere Variablen kontrollieren, z.B Haftdauer, Therapieerfahrung etc. In einer ANCOVA wäre das ja kein Problem, da meine AV aber kategorial ist, kann ich keine ANCOVA rechnen. Gibt es irgendeine andere Möglichkeit für Drittvariablen (metrisch und kategorial) zu kontrollieren, wenn ich den Chi Quadrat Test rechne, oder eine andere Analyse in der ich für Drittvariablen kontrollieren könnte?
    Achso, ich arbeite mit SPSS übrigens.

    Liebe Grüße
    Lina

    1. Hallo Lina,
      da gibt es das multinomiale Logitmodell. Es ist eine Erweiterung der binär-logistischen Regression auf mehr als zwei Kategorien der AV. Ist allerdings nicht ganz einfach zu handhaben und zu interpretieren …
      Einfachere Varianten (etwas weniger elegant, aber besser anwendbar) wären separate Chi-Quadrat-Tests z. B. jeweils innerhalb von Kategorien der Kontrollvariablen. Bei den metrischen Kontrollvariablen müsstest Du dazu auch Gruppen einteilen.

      1. danke für die schnelle Antwort! Mit dem multinomialen Modell habe ich mich bis grade beschäftigt und mir raucht ganz schön der Kopf. Deshalb vielleicht eine etwas dumme Frage zu den separaten Chi-Quadrat Tests für die Kontrollvariablen, die Kategorien dieser vergleiche ich dann mit meiner AV oder UV?

        Viele Grüße
        Lina

        1. Hallo Lina,
          separate Chi-Quadrat Tests für die Kontrollvariablen: Gemeint ist, die Daten zu filtern nach jeweils einer Kategorie einer Kontrollvariable (bei metrischen vorher Wertebereiche zu einer Kategorie zusammenfassen). Dann den immer gleichen Chi-Quadrat-Test wie ohne Kontrollvariable rechnen: also Altersgruppe und Problemattributionsstil. Dann kannst Du am Ende mehrere Chi-Quadrat-Tests vergleichen und sehen, ob Du je nach Untergruppe (Teildatensatz) unterschiedliche Ergebnisse erhältst.

  65. Hallo,
    ich habe auch eine Frage. Wir wollen einen Algorithmus evaluieren und haben dazu unsere Stichprobe jeweils zwei Durchläufe mit dem Algorithmus machen lassen und zwei Durchläufe über eine ander Methode. Also eine Person hat zweimal den Algorithmus und zweimal die Alternative durchlaufen. Die Hypothese ist nun, dass der Algorithmus als nützlicher empfunden wird, als die Alternative. Ich wollte einen t-Test für abhängige Stichproben machen, hab aber nun wegen einer kleinen Stichprobe gedacht, dass ein Vorzeichen Test besser wäre. Meine Anleiterin ist noch nicht ganz zufrieden 🙂
    Ich habe im Moment leider keine bessere Idee und versuche hier mein Glück.
    Viele Grüße und danke

    1. Hallo Sonja,
      eine andere Alternative zum t-Test für abhängige Stichproben ist der Wilcoxon-Test. Er trifft ebenfalls keine Verteilungsannahmen (wie der Vorzeichen-Test), nutzt aber mehr Infos in den Daten.

  66. Vielen Dank für Ihren hilfreichen Blog!
    Ich habe eine Frage zur Verfahrensauswahl: Wenn ich eine dreistufige UV habe (verschiedene affektive Framings von Fehlinformationen) und ich habe die Hypothese, dass sich die drei Gruppen stärker hinsichtlich der einen metrischen AV (Erinnerungsleistung) unterscheiden als hinsichtlich einer anderen metrischen AV (Schlussfolgerungsleistung), wende ich dann eine MANOVA an? Es geht mir dabei nicht um die Kombination oder Beziehung der beiden AVs, sondern darum, dass die Schlussfolgerungsleistung bei Fehlinformationen generell stärker beeinträchtigt ist, sodass sich die Gruppenunterschiede nicht so stark niederschlagen sollten im Vergleich Erinnerungsleistung. Oder sollte ich dann lieber zwei ANOVAS machen (eine pro AV) und die Effekte vergleichen?
    Über Ihre Einschätzung hierzu würde ich mih sehr freuen!
    LG Marielle

    1. Hallo Marielle,
      ich würde es so einfach halten wie möglich (wenigstens solange nicht ein anderes Verfahren explizit gefordert wird). D. h. zunächst die Unterschiede rein deskriptiv beschreiben und dann pro AV eine Anova. Mit Grafiken ergänzen.

  67. Hallo Wolf,

    ich möchte untersuchen inwieweit mütterliche Mentalisierungen (Gesamtscore liegt metrisch vor, je höher, desto mehr Mentalisierungen wurden in einem Interview gezählt) einen Einfluss auf kindliche Empathie haben. Für Empathie habe ich keinen Gesamtscore, lediglich drei Variablen (Besorgnis, prosoziales Verhalten, Self-Distress) die ordinal vorliegen. Beispielsweise wird also kodiert, wie viel Besorgnis die Kinder in Reaktion auf eine simulierte Verletzung der Mutter zeigen 0=keine 1=etwas 2=moderat 3=hoch (selbiges für die anderen beiden Variablen).

    Ich habe also einen Prädiktor und drei Abhängige Variablen, wobei ich ja für jede AV eine eigene ordinale Regression machen muss.
    Ich bin nun nicht sicher, ob ich hier ordinale Regressionen überhaupt angebracht sind, oder ich einfach nur alles korrelieren soll (um metrische und ordinale Variablen miteinander zu korrelieren nehme ich Spearman, richtig?).

    Meine Hypothesen lauten: je höher der Mentalisierungsscore, desto mehr Besorgnis zeigen die Kinder. Je höher der Mentalisierungsscore, desto weniger Distress zeigen die Kinder und je höher der Mentalisierungscore, desto mehr prosoziales Verhalten zeigen die Kinder.

    Gelten für ordinale Regressionen (nichts logistisches weil nur ein Prädiktor) dieselben Voraussetzungen wie für lineare Modelle? Oder macht das keinen Sinn? Es gibt keine Optionen zur ordinalen Regression in SPSS um die Modellbedingungen zu prüfen wie z.B. Durbin-Watson für Residuen etc. Erübrigt sich das? Was hat es mit Logits auf sich? Ich finde nicht das Odds hier Sinn machen, aber anders scheint mir der Spss-Output irgendwie nicht nutzbar.

    Gibt es weitere Schritte die ich im Anschluss an die ordinale Regression beachten / ausführen muss?

    Liebe Grüße und vielen Dank für deinen Input,
    Clara

    1. Hallo Clara,
      ordinale (=ordinal-logistische) Regressionsmodelle sind von der Interpretation her deutlich anspruchsvoller als lineare Modelle. Es gelten nicht dieselben Voraussetzungen, sie sind binär-logistischen Modellen viel ähnlicher als linearen Modellen. Es sind Erweiterungen der binär-logistischen Modelle. Wenn Du da nicht wirklich tief einsteigen willst, würde ich von diesen Modellen abraten. Es gibt z. B. eine „proportional odds assumption“, mit der man sich beschäftigen sollte.

      Regressionsmodelle ganz allgemein (damit schließe ich hier lineare, binär-logistische, ordinal-logistische, multinomiale, … ein) haben ihre Stärken vor allem da, wo man zusätzliche Variablen neben dem Prädiktor zur Kontrolle aufnehmen will. Wenn es bei einem Prädiktor bleibt, sind auch Korrelationen (hier würde ich auch Spearman nehmen) gut geeignet.

      Eine Alternative wäre, die abhängigen Variablen mit ihren immerhin 4 Stufen als „quasi-metrisch“ zu betrachten. Das ist eine pragmatische Entscheidung, die man diskutieren kann – streng genommen ist das Skalenniveau ordinal, aber es wird häufig in sozialwissenschaftlichen Arbeiten so vorgegangen. Wenn man das explizit diskutiert und Problembewusstsein zeigt, kann das vertretbar sein. (Wenn möglich, mit dem Betreuer abstimmen …) Dann kann man lineare Modelle verwenden. Man kann auch die Ergebnisse solcher Modelle mit den Korrelationen (Spearman) vergleichen. Wenn sie zu den gleichen Schlussfolgerungen führen, dann spielt die Verletzung der Annahme über das metrische Skalenniveau offenbar keine große Rolle. In diesem Fall würde ich vor allem Wirkungsrichtungen und Signifikanzen interpretieren und die genauen Koeffizienten / Modellformeln in der Interpretation nicht über-strapazieren.

  68. Grüße, ich würde gern mithilfe des Chi-Quadrat-Tests überprüfen, ob es ein Zusammenhang zwischen dem Geschlecht und der Beantwortung der Fragen aus einem Fragebogen gibt. Die Fragen sind über die Einstellung zur Rollenverteilung von Frau und Mann. Herausfinden möchte ich im Großen und Ganzen, ob Männer anders antworten als Frauen, sprich ein anderes Verhalten an den Tag legen. Meine Hypothesen lauten:

    H0: Es kann keine Verhaltensänderung bei Männern festgestellt werden.
    H1: Es kann eine Verhaltensänderung bei Männern festgestellt werden.

    Chi-Quadrat nach Pearson errechnet eine asymptotische Signifikanz von ,000. Dementsprechend gilt es H0 abzulehnen und H1 anzunehmen. Ist das richtig?

    1. Hallo Franz,
      wie sind die Fragen über die Einstellung zur Rollenverteilung codiert? Der Chi-Quadrat-Test interpretiert die Daten nominal, d. h. er unterscheidet Kategorien, ohne eine Rangfolge anzunehmen oder zu berücksichtigen. Einstellungen werden häufig auf Ordinalskalen gemessen (z. B. Zustimmung von gar nicht bis voll und ganz, oder ähnlich). Dann sind Tests besser geeignet, die die Rangfolge einbeziehen. Um zwei Gruppen (Geschlechter) zu vergleichen, kann man dann z. B. den Mann-Whitney-U-Test verwenden. Wenn die Skalen einigermaßen normalverteilt sind und die Stichprobe nicht zu klein ist (manche Autoren empfehlen n > 30), wird häufig auch der t-Test für unabhängige Stichproben herangezogen.

      1. Lieber Wolf,
        Hierzu hätte ich auch eine Frage 🙂
        Ich teste etwas Ähnliches: unterscheiden sich die Antworten von 2 Nationen?
        Den Chi-Quadrat-Test kann man ja auf nominale und ordinale Skalen anwenden und er sagt mir, ob ein Zusammenhang zwischen der Nation und der Antwort besteht.
        Der Mann-Whitney-U-Test hingegen ist nur für ordinalskalierte Variablen und sagt mir nur, ob die Unterschiede zwischen den Nationen signifikant ist, nicht. Ist der Chi-Quadrat-Test dann nicht wertvoller? Also wieso sollte ich für ordinalskalierte Variablen auf den Mann-Whitney-U-Test ausweichen?

        Viele Grüße & noch schöne Weihnachten
        Lisa

        1. Hallo Lisa,
          der Mann-Whitney-U-Test berücksichtigt mehr Informationen in den Daten als der Chi-Quadrat-Test. Der Chi-Quadrat-Test geht von unsortierten Kategorien aus, z. B. Buslinie A, B, C. Es gibt keine Rangordnung der Buslinien, sie sind verschieden und gleichwertig, die Sortierung spielt keine Rolle. Der Mann-Whitney-U-Test hingegen betrachtet die Daten als ordinal, d. h. hier spielt die Reihenfolge sehr wohl eine Rolle. Wenn es beispielsweise um einen 100-Meter-Lauf geht, der ohne Stoppuhr bewertet wurde und es ist lediglich der Zieleinlauf bekannt (erster, zweiter, dritter), dann sind das ordinale Infos.
          Beim Mann-Whitney-U-Test muss man zwischen Testvariable (ordinal) und Gruppenvariable (zwei Ausprägungen) unterscheiden. Beim Chi-Quadrat-Test gibt es diese Unterscheidung nicht.

          1. Ganz herzlichen Dank für die Antwort! Das hat mir für mein Verständnis sehr geholfen.
            Kann ich auch beim Mann-Whitney-Test im Umkehrschluss folgern, dass signifikante Unterschiede zwischen den Gruppen einer Variable sogleich einen Zusammenhang zwischen den beiden Variablen darstellen?

  69. Hallo Wolf,
    da ich nach einem Erfahrungsaustausch mit einem Kollegen jetzt unsicher in der Wahl des statistischen Verfahrens für meine Arbeit bin, hoffe ich hier eine Antwort auf meine vermeintlich einfache Frage zu erhalten. Ich würde gerne schauen, ob eine spezifische Übungseinheit Auswirkung auf den Heilungsverlauf hat. Dafür wurden zwei Gruppen (jeweils N=28) im Heilungsverlauf mittels Prä- und Posttest betrachtet. Einerseits interessiert mich die Entwicklung innerhalb der einzelnen Gruppen und andererseits ob ein Unterschied zwischen den Gruppen zum Zeitpunkt des Posttest besteht.
    Zusätzlich habe ich eine weitere Gruppe (ebenfalls N=28) ohne gesundheitliche Einschränkungen, welche ich als „Normwert-Vergleich-Gruppe“ abschließend betrachten möchte. Diese Gruppe führte die Testung einmalig durch.
    Vielen Dank im Voraus.

    1. Hallo Jury,
      innerhalb der Gruppen Prä vs. Post: abhängige Stichproben; zwischen den Gruppen zum Zeitpunkt Post: unabhängige Stichproben. Für beides gibt es Varianten des t-Tests. Empfehlung: Verteilungen prüfen, evtl. alternativ oder zusätzlich Wilcoxon-Test (abhängig) bzw. U-Test (unabhängige Stichproben).
      Gruppe 1 vs. 2 vs. Vergleichsgruppe: z. B. Varianzanalyse (Anova) zum Zeitpunkt Post. Regression wäre auch möglich.

      1. Hallo Wolf,
        vielen Dank für Deine schnelle Rückmeldung. Mit Deiner Antwort hast Du mich bei meiner Entscheidung der gewählten Verfahren wieder „sattelfest“ gemacht.
        Eine abschließende Frage hätte ich allerdings noch. Würdest Du es als sinnvoll erachten im Anschluss an die Varianzanalyse zur Einschätzung der Bedeutsamkeit die Effektstärke nach Cohen aufzulisten?

        1. Ja, Effektstärken sind eine sinnvolle Interpretationshilfe. Im Gegensatz zu Signifikanzaussagen sind sie von der Fallzahl unabhängig.

  70. Hallo Wolf,

    erstmal vielen Dank für diese tolle Zusammenfassung. Sie hat mir jetzt schon sehr geholfen.
    Leider bin ich immer noch ein bisschen verloren, was es jetzt den richtigen Weg zur Auswertung meines kleines Experiments ist. Vielleicht kannst du mir ja weiter helfen:

    Es geht um die Auswirkungen eines Achtsamkeitstrainings auf Burnout. Ich habe Zusammenhangshypothesen (z.B. Achtsamkeitstraining erhöht den Grad der Achtsamkeit; Je höher Achtsamkeit, desto geringer emotionale Erschöpfung (Dimension von Burnout)).
    Es wurde zu t0 gemessen, dann zwei-wöchige Intervention, dann t1 wieder gemessen. Ich habe eine abhängige Stichprobe und (leider) keine Kontrollgruppe. Achtsamkeit wurde mit dem MAAS gemessen (Likert-Skala) und Burnout mit Maslach-Burnout-Inventory (auch Likert-Skala).

    Ich habe verstanden, dass ich hier mit Korrelationen arbeiten muss, aber wie genau das gesamte Vorgehen des Auswertung aussieht, ist mir immer noch schleierhaft.

    LG und keep up the good work 🙂

    Max

    1. Hallo Max,
      ich verstehe es aus Deiner Beschreibung so: Mit Korrelationen kannst Du v. a. Zusammenhänge _zum gleichen Zeitpunkt_ betrachten (man könnte auch sagen „Quervergleich“). Also etwa Achtsamkeit und emotionale Erschöpfung zu t0 und dann, als separate Analyse, auch zu t1.
      Die Unterschiede _zwischen Vorher und Nachher_ („Längs-Vergleich“) kannst Du z. B. mit dem t-Test für abhängige Stichproben untersuchen. Hat sich Achtsamkeit von t0 zu t1 signifikant verändert? Hat sich Burnout von t0 zu t1 sig. verändert?
      Wenn Du beide Testarten in ein gemeinsames Modell packen willst, müsstest Du eine passende Variante der Varianzanalyse mit Messwiederholung wählen.

  71. Hallo Wolf,

    zunächst möchte ich mich für deine Nachricht bedanken!
    Ich möchte testen, für was sich Schüler im Verbraucherbildungsunterricht mehr interessieren. Also bezüglich des Items, das ich in meinem ersten Kommentar beispielhaft aufgeführt habe: Interessieren sich Schüler lieber für süße oder herzhafte Speisen. Die Forschungsfrage lautet: Inwieweit unterscheiden sich die Interessen der Schüler im Verbraucherbildungsunterricht hinsichtlich des Geschlechts?. Eine Annahme hinsichtlich des aufgeführten Items wäre „Schülerinnen interessieren sich mehr für süße Speisen und Schüler interessieren sich mehr für herzhafte Speisen“.

    Ich bedanke mich recht herzlich und verbleibe mit freundlichen Grüßen,
    Sebi

    1. Hallo Sebi,
      ok, das ergibt eine Kreuztabelle / Vier-Felder-Tafel. Eine inhaltliche Aussage bekommst Du anhand der relativen Anteile (Prozentwerte); testen kannst Du mit dem Chi-Quadrat-Test oder, bei kleinen Fallzahlen, mit Fisher`s Exact Test.

  72. Hallo Wolf,

    ich bin etwas verzweifelt, weil ich nicht weiß, ob die Fragen meines Fragebogens nominal oder ordinalskaliert sind. Die Fragen sind wie folgt aufgebaut: „Interessierst du dich lieber für süße Speisen oder für herzhafte Speisen?“ – Antwortmöglichkeiten: „süße Speisen“, „herzhafte Speisen“. Der Proband darf sich für eine Antwortmöglichkeit entscheiden. Ich würde ja sagen sie sind ordinalskaliert, aber mit den Antworten kann man doch keine Rangfolge erstellen (also eher nominalskaliert). Süße Speisen sind ja nicht mehr, weniger oder besser, schlechter als herzhafte. Dann denke ich aber, dass das Item ja abfragt, für was sich der Proband lieber interessiert. Nehmen wir also an, ein Proband entscheidet sich für „süße Speisen“ dann wäre theoretisch eine Rangfolge möglich (XY interessiert sich mehr für A als für B) oder? Ist diese Frageform nun ordinal- oder nominalskaliert?

    Kannst du mir bei dieser Frage behilflich sein? Ich würde mich auf jeden Fall über eine kurze Antwort sehr freuen. Vielen Dank im Voraus!

    Beste Grüße
    Sebi

    1. Hallo Sebi,
      wenn es nur zwei Antwortmöglichkeiten gibt, kann man lange diskutieren … Man kann es sogar noch komplizierter machen: Binäre Variablen (zwei Ausprägungen) kann man in einigen Anwendungsfällen so verwenden mit metrisch skalierte: als unabhängige Variablen (Prädiktoren) in Regressionsmodellen.
      So abstrakt ist es schwierig. Was konkret möchtest Du testen? Wie lautet eine Hypothese in Bezug auf die Speisen? Welche Variablen sollen in den Test eingehen?

  73. Lieber Wolf,
    eventuell kannst du mir kurz helfen. In meiner Forschung habe ich zwei Skalen welche beide die „Bewertung der Werbung“ messen. Die eine Skala mittels 7stufiger Likertskala, die andere Skala mittels semantisches Differential (jedoch auch 7-stufig-abgefragt). Ist es möglich, die beiden Skalen trotzdem mittels Mittelwert-Index zusammenzufassen? Oder werde ich um eine Faktorenanalyse nicht drumrum kommen. Beide Skalen haben eine hohe Trennschärfe der Items und eine hohe interne Konsistenz von > 0.90.
    Für die anderen Skalen der abhängigen Variablen habe ich bereits Mittelwertindizes gebildet. Müsste ich für diese Skalen dann auch nochmal eine Faktorenanalyse berechnen? Damit es quasi „einheitlich“ ist?
    Liebe Grüße
    Steffi

    1. Hallo Steffi,

      gute Frage. Ich würde prüfen, wie die interne Konsistenz der Gesamtskala ist. Reliabilitätsanalyse ist einfacher zu interpretieren als Faktorenanalyse. Cronbachs Alpha und Alpha If Item deleted. Vielleicht genügt das schon …

      Liebe Grüße und viel Erfolg

      Wolf

  74. Lieber Wolf,
    eventuell kannst du mir weiterhelfen. Ich habe in einem 2*2 Design untersucht, wie verschiedene Werbungen wirken. In meinem Fragebogen hatte ich einen Manipulation-Check mit 3 Items eingebaut. Dies habe ich jetzt mit einer Anova ausgewertet, und festgestellt dass sich leidre nicht alle Stimuli signifikant unterscheiden. Nun weiß ich nicht wie ich weiter vorgehen soll.
    Die Stimuli welche sich signifikant nicht unterscheiden entfernen?
    Liebe Grüße
    Steffi

    1. Hallo Steffi,
      das kann ich so pauschal nicht sagen … Hängt davon ab, was die nächsten Fragestellungen sind, was Du vor hast …
      Ich kenne dieses Gefühl: „Hoffentlich wird’s signifikant!“ Mein Tipp: Sich davon lösen. Ein nicht signifikantes Ergebnis ist nichts Schlechtes, es ist ein legitimes Ergebnis und kann einen Erkenntnisfortschritt bringen. Es ist genau so wert, berichtet zu werden, wie ein signifikantes Ergebnis.
      Stell Dir vor, Du untersuchst etwas, von dem bisher jeder wusste: Da gibt es einen Zusammenhang, der ist für jeden plausibel. Und Dir gelingt als erster der Nachweis: Das war ein Irrtum, es ist ein Scheinzusammenhang, die Wirkung hat eine ganz andere Ursache als bisher angenommen. Das wäre doch klasse! Dann wäre ein nicht signifikantes Ergebnis der Ausgangspunkt für einen echten Durchbruch.

  75. Lieber Wolf,
    ich habe eine Frage bezüglich Ausreißeranalyse. Ich verwende in meiner Masterarbeit mehrere Analysen, u.a. Clusteranalyse, Diskriminanz-, Varianz- und Regressionsanalysen. Muss ich für jeden Analyseschritt separat eine Ausreißeranalyse machen? Und wie verhält es sich, wenn ich eine extreme Gruppe erwarte, in meinen Fall Psychopathen, die sich in ihren Mittelwerten in den Tests sehr stark von den anderen Teilnehmenden unterscheiden. hier wäre doch eine strenge Ausreißeranalyse kontraproduktiv.
    Herzlichen Dank für eine Antwort.
    Marco.

    1. Hallo Marco,
      ich empfehle den Ansatz, Statistik als Hilfsmittel zu betrachten, um Fragen zu beantworten. Der Gegensatz dazu wäre, sich das Vorgehen vollkommen von statistischen statt inhaltlichen Kriterien vorgeben zu lassen. Du hast ja gute Gründe, Ausreißer zu erwarten – prima! Ausreißeranalyse muss ja nicht heißen, (alle) Ausreißer zu eliminieren.

      In wissenschaftlichen Arbeiten hat man (vorbehaltlich der Vorlieben von Betreuern) in aller Regel die Aufgabe erfüllt, wenn man Befunde und Methoden diskutiert und zeigt, dass man sich möglicher Probleme / Grenzen bewusst ist. Haben etwa Ausreißer einen starken Einfluss auf Regressionsergebnisse, kann man das z. B. in einem Abschnitt „Methodendiskussion“ erwähnen. Falls inhaltlich sinnvoll, könnte man ein Modell ohne Ausreißer zum Vergleich darstellen.
      „Perfekte“ Modelle, die alle Voraussetzungen erfüllen, findet man in der Praxis so gut wie nie …

      Vielleicht genügt es ja, die Ausreißer in einem zentralen Abschnitt zu betrachten und dort auf (mögliche) Auswirkungen auf verschiedene Modelle zu verweisen.

      Viel Erfolg!

      1. Lieber Wolf,
        herzlichen Dank für die sehr detaillierte Antwort. Sie haben natürlich Recht, Statistik als Hilfsmittel für die Beantwortung von Fragen zu nutzen. Das ist eine gute Prämisse für meine weitere Arbeit. Lieben Gruß, Marco.

  76. Hallo Wolf,

    ich probiere es mal hier, da ich trotz Recherche bisher nicht die Antwort auf meine eigentlich vermeintlich simple Frage gefunden haben.

    Ich habe einen eindimensionalen chi-Quadrat-Test durchgeführt, um zu überprüfen, ob sich die Ausprägungen aller Probanden (eine Stichprobe) in einer Variable (nominalskaliert, 3-stufig) von einer zufälligen Verteilung (also jeweils 33 % pro Ausprägung) unterscheiden. Chi-Quadrat ist signifikant, so weit so gut.
    Nun soll meine Hypothese aber eigentlich idealerweise spezifischer „Kontraste“ umfassen, d.h. die Aussage, dass sich die Ausprägungen jeweils voneinander signifikant unterscheiden, also Stufe 1 vs. Stufe, 2 vs. 3 und 1 vs. 3 (also analog zu Kontrasten bei der ANOVA).
    Der Binomialtest vergleicht nur die Ausprägungen von zweistufigen Variablen, beim Friedman-Test werden die Ausprägungen verschiedener Variablen verglichen, geht also alles nicht. Ich möchte einfach nur wissen, ob Stufe 1 signifikant häufiger vorkommt als Stufe 2…. welchen Test nehme ich dafür?

    Viele Grüße
    qypthone

    1. Hallo qypthone,
      klingt simpel, wird aber wohl nicht so häufig gemacht. Meine Vermutung: mehrere Binomialtests, Signifikanzniveau anpassen. Eine (konservative) Korrektur ist Bonferroni: Dabei wird das Signifikanzniveau durch die Anzahl der Einzelvergleiche geteilt. Bei drei Vergleichen (1 vs. 2, 1 vs. 3, 2 vs. 3) müsste der p-Wert also <= 0,017 (0,50 / 3) sein, um auf 5%-Niveau signifikant zu werden. (p = 0,05 gilt dann für den gesamten Hypothesenkomplex, also über die drei Vergleiche hinweg.)

      1. Hallo Wolf,

        schon mal vielen Dank für die schnelle Antwort! Es tröstet mich, dass es offenbar doch nicht ganz so simpel ist.

        Ich habe zwischenzeitlich tatsächlich einen Binomialtest gerechnet und zwar Stufe 1 vs. Stufe 2 + Stufe 3 (und dann die erwarteten Wahrscheinlichkeiten auf 33 vs. 67 % gesetzt). Da Stufe 1 am interessantesten ist, ist das eine gewisse Annäherung an das was ich möchte.

        Ist deine/ihre Idee nun, das für alle Kombinationen der 3 Stufen zu machen (also noch für 2 vs. 1 +3 und für 3 vs. 1 + 2)? Denn mit einer 3-stufigen Variable kann ich ja keinen Binomialtest rechnen.

        1. Wenn es für Deine Fragestellung / Hypothese genügt, 1 vs. 2+3 zu testen, würde ich es dabei belassen. Wenn Du es noch inhaltlich begündest – top. Das entspricht theoriegeleitetem Vorgehen. Die Variante mit allen Einzelvergleichen und Korrektur des Sig.niveaus ist eher die Notlösung.

          1. Ob das ausreicht ist leider nicht so ganz eindeutig, bzw. Auslegungssache 🙂

            D.h. ich habe es aber richtig verstanden, dass ich für jeden Einzelvergleich erst eine passende zweistufige Variable kreieren müsste die ich dann mit der übrig bleibenden Kategorie vergleiche? Denn sonst geht der Binomialtest ja nicht… In dem Fall würde ich das nicht machen, weil die anderen „2:1-Vergleiche“ für mich nicht besonders aussagekräftig sind. Ich bräuchte, wenn überhaupt, noch Vergleiche von 1 vs. 2 und 1 vs. 3, die wären ein gutes add-on.

            Könnte man auch über eine logistische Regression an die Sache rangehen? Also die Ausprägungen der Variable zu 3 Dummyvariablen machen und diese dann als Prädiktoren die ursprüngliche Variable vorhersagen lassen?

          2. > D.h. ich habe es aber richtig verstanden, dass ich für jeden Einzelvergleich erst eine passende zweistufige Variable kreieren müsste die ich dann mit der übrig bleibenden Kategorie vergleiche?
            Mit Filtern (Auswählen der entsprechenden Fälle) müsste es auch gehen.

            > Könnte man auch über eine logistische Regression an die Sache rangehen?
            So wie ich es jetzt verstehe, geht es nur um eine Variable (die umcodiert wird). Die kann ja nicht auf beiden Seiten der Gleichung stehen? Regressionsmodelle sind nur sinnvoll, wenn abhängige und unabhängige Variablen unterschiedlich sind (also nicht nur Umcodierungen derselben Ausgangsvariable).

  77. Guten Abend Wolf,
    zunächst einmal vielen Dank für die ausführlichen Berichte!
    Da ich ein etwas anderes Studiendesign habe, wende ich mich an dich.

    Ich habe mittels eines Experiments ein 2×2 between-subject Design (N=640) durchgeführt.

    Dabei habe ich 5 unabhängige Variablen und eine abhängige Variable auf einer 7er Likert erfragt und die Mittelwerte errechnet.
    Des Weiteren habe ich 2 dichotome Moderatoren (Treatment 1: ja / nein und Treatment 2: ja / nein), welche durch die between-subject Szenarien dargestellt wurden. Das meint, dass jedem Probanden eins von vier Szenarien zufällig zugewiesen wurde. Sprich: Nur jeder vierte Proband hat das gleiche Treatment gesehen.
    Jeder Proband sollte dann anhand der in dem Szenario dargestellten Situation die abhängige Variable aufgrund dessen beantworten.

    Die Regression zwischen den unabhängigen und der abhängigen Variable zeigt signifikante Zusammenhänge.

    Allerdings bin ich mir unsicher, wie ich jetzt weiter auf die beiden Moderatoren verfahre.
    Wie würdest du verfahren mit den beiden Moderatoren als Between-ubject? Wie würdest du die Analyse in SPSS darstellen?

    Ich würde mich sehr über deine Hilfe freuen, da meine eigene Recherche bisher leider erfolglos war.
    Viele Grüße
    Marius

    1. Hallo Marius,
      wenn ich das Design richtig verstehe, kannst Du Moderatoreffekte durch simple Multiplikation eines Moderators mit einer UV einbauen.
      Meine Empfehlung: Verwende pro Modell nur einen Moderator und entscheide, auf welche UV er wirken soll. Modelle mit Moderatoreffekten sind schwierig genug zu interpretieren – mit mehr als einem Moderator vervielfachen sich die Wechselwirkungen. Ich würde das in separaten Modellen testen, vergleichen und diskutieren.
      Grafische Interpretationen finde ich einfacher als die Beschränkung auf Modell-Koeffizienten.
      Wolf

  78. Hallo Wolf, ich habe sowohl für die Voraussetzung der univariaten Varianzanalyse und der Pearson-Korrelation etwa an die 30 Ausreißer, die allerdings plausibel sind, also keine Fehler. Es sind extremere Antworten auf Skalen, die Einstellungen abfragen.
    Ich habe bzgl. Ausreißer und ANOVA gelesen, dass es bei solch komplexen Analysen meist keine nicht-parametrischen Alternativen gibt und man daher zusätzlich mit Bootstrapping rechnen kann, um das Problem der Ausreißer anzugehen.

    Ist es auch bzgl. Pearson denkbar wegen der Ausreißer ein zusätzliches Bootstrapping durchzuführen? Oder muss ich hier ganz auf den Spearman Koeffizienten zurückgreifen (es handelt sich um zwei metrische Skalen)?
    Viele liebe Grüße und danke, dass du hier allen so toll antwortest 🙂 Das hilft sehr!!
    Lina

    1. Hallo Lina,
      nicht einfach, das so pauschal zu beantworten. 30 Ausreißer klingt nach insgesamt größerer Fallzahl? Generell gilt: Je größer die Fallzahl, desto weniger fallen Verletzungen der Verteilungsannahmen ins Gewicht.
      Bootstrapping ist eine elegante Alternative zu „klassischer“ formelbasierter Statistik. Müsste bei Pearson auch möglich sein.
      Univariate Varianzanalyse klingt allerdings nicht so komplex, da gibt es doch nichtparametrische Alternativen? (z. B. Friedman-Test)
      Wenn Du es ausführlich machen magst, kannst Du mehrere Ansätze vergleichen und diskutieren, das wird (je nach Fachrichtung – zumindest in Sozialwissenschaften) oft honoriert.
      Viel Erfolg

      1. Hallo Wolf,
        danke dir für deine schnelle Rückmeldung und den Input :). Ja, ich habe an die tausend Probanden gesammelt. Das klingt schon mal gut! Ich werde wohl zusätzlich Bootstrapping für Pearson schalten.
        Ist es denn schlimm, wenn neben den Ausreißern auch die Normalverteilung der Residuen bei der ANOVA nicht gegeben ist oder kann man auch hier mit der hohen Fallzahl argumentieren? Verschiedene Ansätze zu vergleichen, klingt aber auch nach einer guten Lösung und zeigt, dass man sich damit auseinander gesetzt hat. Ich hatte hier auch wegen der unabhängigen Stichproben und der NV-Verletzung den Median-Test im Auge.
        Liebe Grüße
        Lina

        1. Hallo Lina,
          es kann verschiedene Gründe geben, warum Residuen nicht normalverteilt sind. Schau Dir mal den Datensatz von Anscombe an – da gibt es ein sehr anschauliches Wikipedia-Beispiel.
          https://de.wikipedia.org/wiki/Anscombe-Quartett
          In manchen Fällen wird das Modell deutlich besser, wenn eine Variable zusätzlich mit aufgenommen wird, die einen starken Einfluss auf die abhängige Variable ausübt.
          Es kann auch sein, dass der Zusammenhang nichtlinear ist (z. B. quadratisch), dann enthalten die Residuen bei einem linearen Modell (dazu zählt ANOVA) nicht-zufällige Muster.
          Empfehlung: Streudiagramme ansehen, ggf. Anpassungslinien (Geraden, Lowess etc.) einzeichnen lassen.

  79. Hallo Wolf!
    Erstmal Kompliment für den hilfreichen Artikel!
    Ich habe leider folgendes Problem. Im Rahmen meiner Masterarbeit habe ich ein Online-Experiment durchgeführt, bei welchem den Teilnehmern einer von 4 Stimuli ausgespielt wurde. Untersucht wurde als AV die Werbewirkung. Diese ist gegliedert in drei AV’s: die Markenbewertung, die Bewertung der Werbung sowie die Kaufabsicht.
    Des Weiteren wurden drei Moderator-Variablen erhoben, welche ich nun versuche in Zusammenhang mit UV und AV zu bringen. Leider bin ich mir jetzt bei der Auswertung leider nicht sicher, wie man hier am besten vorgeht, bzw. ob mein Vorhaben überhaupt möglich ist. M
    Pro Stimuli-Gruppe habe ich circa 50 Teilnehmer, insgesamt also um die 200.
    Eventuell kannst du mir ja weiterhelfen.
    Viele liebe Grüße!
    Steffi

    1. Hallo Stefanie,
      meine Empfehlung wäre, sofern Du keine anderen Vorgaben hast, separate Modelle aufzustellen: für jede AV und für jeden Moderator. Entsprechend würde ich für jede AV und jeden Moderator eine eigene Hypothese formulieren. Mehrere Moderatoren in einem Modell sind nach meiner Erfahrung kaum interpretierbar.

      1. Hallo Herr Riepl, müsste man in dem Fall mehrerer Moderator Analysen mit einem Datensatz das Signifikanzniveau (bspw. mit Bonferroni Adjustierung) anpassen? Viele Grüße und Danke, Josef

        1. Das habe ich noch nicht gesehen. Es ist meines Erachtens nicht 1:1 vergleichbar mit einer Reihe von t-Tests. Man kann ja auch grafisch sehen, ob es tatsächlich einen Moderator-Effekt gibt. Das würde ich nicht von anderen Modellen mit anderen Moderator-Variablen abhängig machen.

          1. Danke für die schnelle Rückmeldung!
            Würde aus Ihrer Perspektive etwas dagegen sprechen (wie sie oben beschrieben haben), für den Test der verschiedenen Moderatoren (in Summe 15) separate Modelle aufzustellen? Oder spricht da statistisch etwas gegen?
            Als Dokumentation zur Annahme oder Ablehnung der Hypothesen könnte man die Interaktionsterme auflisten. Und weiter:
            Die Power Berechnung hinsichtlich der Stichprobengröße – reicht es hier die Größe für EINE Moderationsanalyse zu berechnen? Vielen Dank für Ihre Hilfe. Die Literatur ist an der Stelle recht dünn.. Josef

          2. 15 ist nicht wenig … Ich würde da keine harte Zahl nennen, wie viele sinnvoll sind. Wichtiger finde ich das Vorgehen: Theoriegeleitet vs. empirisch. D. h. ich würde das testen, was ich inhaltlich sinnvoll und spannend finde, und nicht unbedingt alles, was technisch / statistisch möglich ist.
            Ich würde es wenn möglich vermeiden, mehr als einen Interaktionsterm in ein Modell aufzunehmen – die Wechselwirkungen werden da schnell unübersichtlich und die Interpretation sehr herausfordernd.
            Power: Unterscheidet sich die zwischen verschiedenen Modellen? Haben Sie unterschiedliche Fehlwerte? Bei unterschiedlichen Stichprobengrößen wäre es wohl sinnvoll, die Power entsprechend separat zu berechnen. (Oder, falls die Fallzahlen das hergeben: Einheitliche Datenbasis für verschiedene Modelle herstellen, z. B. Fälle mit Fehlwerten vorab ausschließen?)

          3. Hallo Herr Riepl,
            der post unten lässt keine Antwort zu, daher an dieser Stelle.
            Erst mal vielen Dank, dass Sie sich die Zeit nehmen, sich in die Problemstellung einzufinden.
            Vielleicht noch mal etwas detaillierter:
            Die Hypothesen prüfen den moderierenden Effekt von 5 Konstrukten (im Rahmen einer qualitativen Vorstudie identifiziert) auf einen starken positiven Zusammenhang zwischen einem Prädiktor und 3 Outcome Variablen. Diese (15) Hypothesen wurden alle mit den Daten aus einer Befragung von etwa 250 Personen geprüft und ergeben 4 signifikante Moderationen.
            Bisher habe ich keine Studien gefunden, die etwas anderes nahe gelegt hätte, als die moderierenden Effekte (wie sie auch empfohlen haben) jeweils einzeln zu testen, daher meine Frage.
            Vielleicht noch abschließend: Spricht etwas dagegen, die konvergente und diskriminante Validität der UV (Prädiktor und 5 Moderatoren) im Rahmen einer EFA mit 6 a-priori festgelegten Faktoren zu prüfen ohne dabei die 3 AV in die Faktoren-Analyse einzubeziehen? (die Validität der 3 Als wird ohnehin anders begründet). Ohne AV passt die EFA genau. Schließe ich alle Faktoren (1Präd, 5Mod, 3AV) mit in dem Fall 8 festgelegten Faktoren in die EFA mit ein „passt“ leider alles nicht mehr. 😉
            Besten Dank und viele Grüße
            Josef

          4. Ich stecke nicht so in Ihrem Thema / Ihren Daten. Spontan finde ich es auch plausibler, die AVs aus der Faktorenanalyse herauszuhalten.
            EFA „passt“ nicht immer exakt zu Erwartungen, das wäre kein Beinbruch, man muss dann eben etwas interpretieren …

  80. Lieber Wolf,
    vielen herzlichen Dank für all die tollen und verständlichen Erklärungen! Eine Frage habe ich jedoch aktuell: Ich würde gerne schauen, ob es einen generellen Zusammenhang zwischen Alter und Bildung in meiner Stichprobe gibt (N=1400). Hierzu habe ich wegen der ziemich großen Alterspannweite Alterskategorien gebildet und mir einen Chi-Quadrat Wert zusammen mit Cramer V ausgeben lassen. Ergebnis: Signifikant und mittlere Zusammenhangsstärke.

    Aus Interesse habe ich dann noch einmal das Alter ohne Kategorien (metrisch) mit der Bildung untersucht (über bivariate Korrelation, Spearman und Kendall Tau-b). Dieses Mal zeigt sich kein signifikanter Zusammenhang. Wie kann das sein und wie gehe ich damit um, also was ist zu berichten?
    Viele Grüße
    Claudia

    1. Hallo Claudia,
      der Chi-Quadrat-Test berücksichtigt keine Rangfolge, er betrachtet sozusagen gleichberechtigt nebeneinander stehende Kategorien. Beim Alter ist jedoch die Reihenfolge wichtig. Daher würde ich erst mal der Korrelation mehr trauen.
      Nichtsignifikante Korrelation heißt: Kein linearer Zusammenhang. Deine Ergebnisse könnten auf einen nichtlinearen Zusammenhang deuten. Ich würde mir den Zusammenhang grafisch ansehen, z. B. ein Streudiagramm (Punktdiagramm) mit Alter und Bildung. Elegant wären noch Anpassungslinien: Linear und nichtlinear.

  81. Hallo, ich hätte mal eine (bzw. mehrere) Frage(n).

    Für meine Abschlussarbeit habe ich mehrere Hypothesen aufgestellt und sollte multiple Regressionsanalysen mit jeweils einer Moderatorvariablen durchführen. Ich habe eine einzige abhängige Variable, die aus einer Likertskala (von 1 bis 5) besteht. Pro Hypothese bzw. Analyse habe ich also je eine abhängige, eine unabhängige und eine Moderatorvariable. Nun habe ich die Analysen in Excel durchgeführt und es hat alles soweit gut funktioniert und die Ergebnisse sind auch interpretierbar. Nun habe ich gelesen, dass ich auch noch auf Normalverteilung testen muss/soll. Das habe ich für die abhängige Variable mit einem Kolmogorov-Smirnov-Test und einem Q-Q-Plot sowie für alle Variablen mit Schiefe und Kurtosis getestet (alles in Excel, problemlos). Die abhängige Variable scheint in allen Fällen normalverteilt zu sein. Ich habe eine Stichprobengröße von über 150. Meine Fragen lauten daher:

    a) Muss ich lediglich die abhängige Variable auf Normalverteilung testen oder ALLE Variablen (inkl. unabhängige und Moderatorvariable)?
    b) Falls ich ALLE Variablen testen muss: Wie sieht es aus, wenn mein Moderator binär ist (0 oder 1) ? Kann ich die oben erwähnten Analysen dennoch durchführen?
    c) Was mache ich mit Variablen, die nicht normalverteilt sind? Kann ich mich da auf den zentralen Grenzwertsatz berufen?
    c) Kann ich meine Ergebnisse der multiplen Regressionsanalysen (mitsamt der t-Statistik, p-Wert, R^2 etc.) dennoch beibehalten?

    Ich freue mich auf Ihre Antwort.

    1. Hallo Mustafa,
      a) Die AV ist meines Erachtens die wichtigste beim Test auf NV. Bei den anderen empfehle ich auch, die Verteilungen „mit gesundem Menschenverstand“ anzusehen. Wenn es z. B. bei einer Variablen mit dem Wertebereich 1 bis 5 sehr viele 1er und 5er gibt, aber (fast) keine Werte dazwischen – wie sinnvoll ist dann eine Interpretation im Sinne „Wenn x um eine Einheit steigt …“?
      b) Binäre Moderatoren sind nicht ungewöhnlich.
      c) und d) Das hängt auch etwas vom Fachbereich / Betreuer ab. Ich komme aus dem sozialwissenschaftlichen Bereich, wo statistische Voraussetzungen oft mehr oder weniger deutlich verletzt werden. Wir wurden gut bewertet, wenn wir Ergebnisse vorsichtig interpretierten und Voraussetzungen diskutierten. Man kann sich die Daten nicht perfekt zaubern, aber man kann zeigen, dass man Anforderungen versteht und Ergebnisse einordnen kann. Z. B. würde ich auch bei kleinen Wertebereichen (etwa 1 bis 5 bei Ihrer AV) weniger auf exakte Modellformeln abzielen (und Dezimalstellen) und eher Wirkungsrichtungen und Schlussfolgerungen hinsichtlich der Hypothesen diskutieren.
      Viel Erfolg!

  82. Lieber Herr Riepl,

    ich habe einen Fragebogen erstellt den ich mittels einer Hauptkomponenten-Analyse auf eine begrenzte Zahl von Komponenten reduziert habe. Diese möchte ich gerne als abhängige Variablen untersuchen.
    Die Komponenten würden damit aus verschiedenen Fragebogenitems bestehen die mit „stimme gar nicht zu“ (codiert als 1), „stimme eher nicht zu“ (=2), „stimme eher zu“ (=3) und „stimme völlig zu“ (=4) beantwortbar sind.
    Nun wäre das Skalenniveau ja eigentlich ordinal. Müsste ich, wenn ich einen Summenscore aus den Items in einer Komponente (=AV) bilde, bei einem Gruppenvergleich (3 Gruppen) dann den H-Test (Kruskal-Wallis) anwenden? Oder wäre aufgrund der Codierung auch eine Anova möglich bzw. sinnvoll?

    Über einen Rückmeldung von ihnen wäre ich sehr dankbar!
    Viele Grüße

    1. Hallo Lisa,
      zum Verständnis: mit einer Hauptkomponenten-Analyse kann man Items zusammenfassen, wenn man mit den Faktorwerten weiterrechnet. Die sind dann wesentlich feiner abgestuft als die ursprünglichen 4-stufigen Items. Da hätte ich mit parametrischen Verfahren (Anova, gilt auch für Regression etc.) keine Bedenken (außer die Verteilungen sind sehr schief).
      Auch ein Summenscore aus mehreren Items ist feiner abgestuft, d. h. hat mehr als vier Ausprägungen. Auch das halte ich für Anovas etc. für geeignet.
      Wenn Sie die ursprünglichen 4-stufigen Items EINZELN verwenden (d. h. die AV hat tatsächlich nur 4 Ausprägungen): Da gibt es verschiedene Auffassungen, strenge und weniger strenge. Bei sozialwissenschaftlichen Fragestellungen werden auch da manchmal parametrische Verfahren angewendet. In dem Fall würde ich zumindest das Vorgehen in einem methodenkritischen Abschnitt diskutieren. Wenn Sie Zeit und Platz haben, ergänzend auch nichtparametrische Tests (wie Kruskal-Wallis) rechnen, vergleichen und diskutieren.
      Viel Erfolg!
      Wolf

  83. Hallo Wolf,

    ich bin gerade bei der Datenauswertung für meine Doktorabreit und habe folgendes Problem: Ich habe Vergleich mithilfe des T-Tests für unabhängige Stichproben durchgeführt. Nun würde ich gerne eine Kontrollvariable in den vergleich einbeziehen und hatte deshalb eine Varianzanalyse durchgeführt. Der Leven-Test ergab jedoch, dass nicht von homogenen Varianzen ausgegangen werden kann (p<.001).

    Kannst Du mir hier weiterhelfen? Kann ich nun meinen Datensatz aufteilen und fpr die nominalskalierte Kontrollvariable getrennt einen T-Test für unabhängige Stichproben durchführen?

    Vielen Dank im Voraus!!

    1. Hallo Lisa,
      verstehe ich richtig, dass die Varianzen bei der Kontrollvariable nicht homogen sind? Üblicherweise wird das eher bei der Gruppenvariable getestet, bei der Kontrollvariable wird es nicht so kritisch gesehen.
      Ich halte die Varianzanalyse mit Kontrollvariable für das elegantere Verfahren – separate t-Tests sind eher ein „Workaround“. Zumal man bei mehreren t-Tests das Signifikanzniveau anpassen sollte (Stichwort Alpha-Fehler-Kumulierung).

  84. Hallo Rolf,

    meine Daten erfüllen nicht alle Voraussetzungen für den Chi-Quadrat-Test, da die erwartete Häufigkeit nicht immer mindestens 5 ist. Was wäre eine alternative Möglichkeit, um den Zusammenhang zwischen einer Gegebenheit und dem Alter zu analysieren?

    Beste Grüsse,
    Marie

    1. Hallo Marie,
      falls inhaltlich vertretbar: Kategorien zusammenfassen?
      Statistische Alternative: Fisher’s Exact Test
      Vermutlich lohnt aber ein genauerer Blick auf die Skalenniveaus. Ist das Alter metrisch gemessen? Und die „Gegebenheit“ kategorial? Dann z. B. Mittelwerte des Alters nach Kategorien. Bei 2 Kategorien t-Test, bei mehr als 2 Kategorien Varianzanalyse (ANOVA), ggf. mit Post-Hoc-Tests.

      1. Das Alter wird metrisch gemessen, die Gegebenheit kategorial. Der Chi-Quadrat Test ist signifikant, der Fisher Exact Test genauso. Da nur vier Befragte einer Alterskategorie befragt worden sind, ist die erwartete Häufigkeit in der Altersklasse nicht gegeben.

        Wie analysiere ich den Fisher’s Exact Test und wie gebe ich die Ergebnisse gemäss APA-Richtlinien an?

        1. Fisher: Sig. Ergebnis (p < 0.05, bzw. eine andere Schwelle, falls Sie eine definiert haben) bedeutet: über-zufälliger Zusammenhang zwischen Alterskategorie und Gegebenheit. APA bitte selbst nachschlagen ...

  85. Hallo Wolf,
    vielen Dank für Deine Expertise!
    Ich hätte noch eine letzte Verständnisfrage zu einer Moderatoranalyse. Ich möchte untersuchen, ob eine Moderatorvariable (Geschlecht) einen Einfluss auf den Zusammenhang zwischen einer Variable X und Y hat.
    Ist es nur dann sinnvoll, die Moderationsanalyse durchzuführen, wenn sich die Variable X hinsichtlich des Geschlechts voneinander unterscheidet oder kann es auch sein, dass wenn es keine Geschlechtsunterschiede bei X gibt, dass das Geschlecht einen Einfluss auf den Zusammenhang zwischen X und Y hat? Vielen Dank!

    Liebe Grüße 🙂
    Lis

    1. Hallo Lis,
      Geschlecht kann auch dann einen Einfluss auf den Zusammenhang zwischen X und Y ausüben, wenn es bei X keine Geschlechtsunterschiede gibt.

  86. Hallo Herr Riepl,

    zunächst einmal vielen Dank für den tollen Beitrag und die Möglichkeit Sie zu kontaktieren. Ich bin bereits seit Tagen bei google unterwegs um mir Infos für meine (erste) Hausarbeit zu besorgen.
    Leider habe ich Probleme mit einer meiner Variablen, weshalb ich gerne Sie als Experten um Hilfe bitten möchte.
    Meine Hypothese lautet: Männern ist die Bequemlichkeit (kostenlose Retoure etc.) bei dem Kauf von Weihnachtsgeschenken wichtiger als Frauen.
    Gemessen wurde die Variable Bequemlichkeit in einem Fragebogen mit einem Likert skalierten Item von 1 (nicht wichtig) – 7 (sehr wichtig).
    Da es sich um eine ordinalskalierte Variable handelt habe ich diese bei R in einen Faktor mit 7 Merkmalsausprägungen umgewandelt – da beginnt bereits die Unsicherheit. Ist das so korrekt?
    Um nun die Daten von Männern und Frauen zu vergleichen, würde ich auf den Chi-Quadrat Test zurückgreifen um zu prüfen ob es einen Zusammenhang zwischen dem Geschlecht und der jeweiligen Einschätzung gibt.
    Allerdings bin ich mir absolut nicht sicher über dieses Vorgehen..können Sie mir weiterhelfen?

    Ich bedanke mich bereits im Voraus für Ihre Zeit!

    Viele Grüße
    Steffi L.

    1. Hallo Steffi,
      der Chi-Quadrat-Test ist für nominalskalierte Merkmale gedacht, also Kategorien ohne Sortierung. Die Likert-Skala ist mindestens ordinal, manche sehen sie auch als metrisch an. Vielleicht gibt es Pakete, die mit einem ordinalskalierten Faktor rechnen. Ich würde das Merkmal als numerisch codieren und dann t-Test und/oder Wilcoxon Rangsummentest für unabhängige Stichproben (auch als Mann-Whitney-U-Test bekannt) machen. Letzterer ist für Ordinaldaten gedacht, ersterer streng genommen für normalverteilte intervallskalierte Daten. Der t-Test wird jedoch oft auf solche Skalen angewendet. Du kannst auf Normalverteilung testen (Shapiro-Wilk, grafisch) und, wenn Du es ausführlich machen willst, beide Tests durchführen und dokumentieren.

  87. Lieber Wolf,
    ich hätte da mal eine fundamentale Frage zu Mittelwertsvergleichen: Ich möchte meine beiden Gruppen (Rheuma-Patienten vs. gesunde Kontrollen) hinsichtlich eines Blutwertes (metrisch skaliert) miteinander vergleichen.
    Nun könnte man das ja auf zweierlei Wegen tun: Entweder man behandelt die Gruppen als dichotom (0/1) und vergleicht die metrischen Blutwerte damit mit einem Mann-Whitney-U-Test oder man splittet die Blutwerte der Patienten auf der einen Seite und die der Kontrollen auf der anderen Seite und vergleicht die mit einem t-Test, oder? Geht das beides? Danke schonmal für eure Hilfe 🙂

    Liebe Grüße
    Lis

    1. Hallo Lis,
      ich sehe keinen Unterschied in den Herangehensweisen. Beide Tests sind von der Datenstruktur her geeignet. Beide vergleichen zwei Gruppen (Rheuma vs. gesunde Kontrollen) hinsichtlich des Blutwertes. Für die Tests spielt es prinzipiell keine Rolle, ob die Gruppe 0/1-codiert sind oder anders gekennzeichnet sind.

      Vielleicht entsteht die Unklarheit dadurch, dass es verschiedene t-Tests gibt. Hier passt wohl der Test für unabhängige Stichproben, da es keine Zuordnung eines bestimmten Rheuma-Patienten zu einem bestimmten gesunden Patienten geben dürfte – es werden wohl zwei unabhängige Gruppen sein. Deine Beschreibung: „Blutwerte der Patienten / Kontrollen aufsplitten“ klingt eher nach t-Test für abhängige (=verbundene) Stichproben.

      Die Unterscheidung zwischen t-Test und U-Test wird anhand der Verteilung der metrischen Variable (Blutwert) und anhand der Fallzahl getroffen. Der t-Test geht von normalverteilten Daten aus (dafür wird mindestens n=30 angenommen) und nimmt außerdem an, dass die Varianzen in den beiden Gruppen gleich sind. Es gibt jedoch Aussagen in der Literatur, dass der t-Test „robust auf Verletzungen seiner Voraussetzungen reagiert“ (steht bei Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler). Unzuverlässig wird der t-Test vor allem dann, wenn die Varianzen ungleich sind und die Gruppengrößen deutlich unterschiedlich. Für ungleiche Varianzen gibt es einen Korrekturfaktor. Im Zweifelsfall kann man den U-Test nehmen. Oder beide durchführen, Ergebnisse vergleichen und diskutieren. Oft kommen beide Tests zum gleichen Ergebnis.

  88. Hallo Wolf,

    in meiner Forschungsarbeit untersuche Kinder und ihre Medienkompetenz. Nun habe ich eine Hypothese ausgestellt, die besagt, dass mit zunehmenden Alter, die Medienkompetenz der Kinder zunimmt. Dies werde ich mittels Pearson und einer einfachen Regressionsanalyse berechnen. Nun besteht die Variable Medienkompetenz aus verschiedenen Kategorien, die am Ende als Medienkompetenz zusammengefasst werden soll. Hast du einen Vorschlag, wie ich die Medienkompetenz am besten statistisch aufbereiten oder messbar machen kann?

    1. Hallo Ina,
      Du kannst für die Kategorien Punkte vergeben und die Punkte zu einer Summe (einem Score, Index) zusammenzählen. Vielleicht gibt es speziell zur Medienkompetenz schon Literatur. Du kannst auch einen eigenen Index entwickeln. Wichtig wäre, die Erstellung zu dokumentieren und zu diskutieren. Zum Beispiel könntest Du bestimmte Kategorien als wichtiger definieren als andere und dafür mehr Punkte vergeben.
      Wolf

  89. Lieber Wolf,
    ich bin gerade auf der Suche nach dem richtigen statistischen Verfahren. Ich vermute, dass der Chi-Quadrat Test der richtige für mich ist, würde mich aber gerne nochmal bei einem Profi vergewissern.
    Ich habe 2 Gruppen. Die eine besteht aus Patienten, die unter einer rheumatischen Erkrankung leiden und die andere ist eine Kontrollgruppe aus gesunden Probanden. Bei allen Versuchspersonen wurde erhoben, ob sie sich sportlich betätigen oder nicht („sportliche Aktivität – ja/nein bzw. 1/0“). Jetzt würde ich gerne statistisch untersuchen, ob sich die eine Gruppe mehr sportlich betätigt als die andere (also ob in einer Gruppe mehr Leute die Frage nach sportl. Aktivität mit Ja beantwortet haben). (Basierend auf meinen Hypothesen tut das die Rheuma-Gruppe weniger, bedingt durch die körperl. Einschränkung.)

    2 Gruppen: Rheuma-Patienten vs. gesunde Kontrollprobanden
    1 Variable, dichotom erfasst: Sportliche Aktivität – ja/nein

    Liebe Grüße
    Lis

    1. Hallo Lis,
      ja, Chi-Quadrat-Test klingt passend. Es kommt auch auf die Fallzahlen an. Bei sehr kleinen Gruppengrößen kann der Test problematisch sein, dann gibt es Fisher’s Exact Test als Alternative. Vermutlich passt aber Chi-Quadrat. (Manche Statistik-Pakete warnen, wenn erwartete Häufigkeiten <5 auftreten.)
      Wolf

      1. Hallo Wolf,
        danke Dir. Die Fallzahlen dürften groß genug sein, die erwarteten Häufigkeiten sind auch groß genug.
        Ich hab einen Chi²-Test durchgeführt. Die Gruppenunterschiede sind nicht signifikant.
        Ich würde die Odds Ratios trotzdem gerne berichten, bin nur unsicher mit der Interpretation der ORs.
        Macht es Sinn, wenn ich die Vierfeldertafel bei meinem Gruppenvergleich so aufstelle?

        …………………………………….. Keine sportl. Aktivität ………………………… Sportl. Aktivität
        Rheuma-Patienten …………. 12 (a) ………………………………………………. 65 (b)
        Gesunde ………………………… 9 (c) ……………………………………………….. 89 (d)

        Ich würde gerne aussagen, dass die „Chance“/Odds, ohne sportliche Aktivität zu erkranken x-mal höher ist als mit.
        Wenn ich jetzt die Odds Ratios berechne, (a x d)/(b x c), komme ich auf 1,8. Bedeutet das nun genau das?

        Liebe Grüße & danke,
        Lis

        1. Hallo Lis,
          hab jetzt nicht nachgerechnet; die Formulierung klingt plausibel. „x-mal höher“ oder „um den Faktor x höher“ ist eine typische OR-Interpretation.
          Ich kenne ORs vor allem aus logistischen Regressionen.
          Wolf

  90. Hallo Herr Riepl,

    ich bin mir unsicher, ob sich für meine Analyse überhaupt statistische Tests eignen. Ich habe eine Patientenbefragung mit 35 Probanden gemacht. Dabei ging es mir darum, was ihnen nach ihrem stationären Aufenthalt wichtig ist und sie haben bspw. angegeben, dass ihnen ein Item von 1=keine Sorgen bis 7=große Sorgen macht. Fragestellung der Arbeit ist herauszufinden, was Patienten wichtig ist und wie ihre Behandlung optimiert werden könnte.
    Ist es hier überhaupt sinnvoll Testverfahren anzuwenden? Und wenn ja, welche?

    Vielen Dank im Voraus!

    1. Hallo Leana,
      selbstverständlich sind mit diesen Daten statistische Verfahren möglich und sinnvoll. Welche konkret, hängt von Ihren Fragestellungen und Hypothesen ab. Wenn man die Skalen als ordinal (Rangfolge) auffasst bzw. aufgrund der Fallzahlen auf Nummer sicher gehen will, empfehlen sich nichtparametrische Verfahren, z. B. die Rangkorrelation nach Spearman für Zusammenhangsanalysen (Je-desto) oder der Mann-Whitney-U-Test für Gruppenvergleiche oder der Chi-Quadrat-Test bei Kreuztabellen.

  91. Hallo, ich bin mir nicht sicher welchen Test ich für meine Hypothesen verwenden soll. Sie sind siingemäß alle so ähnlich:
    „Je mehr Zeit mit Medien verbracht wird, desto schlechter/besser ist die Reaktionszeit“ (die Medienzeit ist auf einer Skala von 1-5 (Stunden), Reaktionszeit ganz genau in ms). Ich wäre froh wenn mir jemand helfen kann !

    1. Hallo Melanie,
      klingt nach Korrelationsanalyse. Rangkorrelation (Spearman), um auf der sicheren Seite zu sein, da die Fünferskala streng genommen nicht metrisch skaliert ist, sondern ordinal. In der Praxis werden in solchen Fällen allerdings oft dennoch Pearson-Korrelationen gerechnet. Oft unterscheiden sich die Ergebnisse nicht sehr.
      Wenn Du noch Kontrollvariablen aufnehmen willst: Regressionsanalyse.

  92. Guten Tag Herr Riepl,

    1.) ich muss 2 Fragebögen (einer der normale Eigenschaften misst und ein Fragebogen, der als Pendant fungiert und pathologische Eigenschaften erfasst) auf Konvergenz prüfen, habe jedoch die Aufgabe personenzentriert (Profilvergleich) vorzugehen. Welche Clusteranalyse empfehlen Sie?
    2.) Geht denn eine Interaktionsanalyse von 2 hochkorrelierten Prädiktoren über eine Clusteranalyse?
    Liebe Grüße Ingo

    1. Hallo Ingo,
      ich denke, dass für beide Aufgaben die Clusteranalyse nicht so geeignet ist. Sie ist ein struktur-entdeckendes Verfahren ohne Zielvariable.
      Zu 1. kann man z. B. Korrelationen der Variablen prüfen. Personenzentriert kann man Profile erstellen, indem man verschiedene Merkmale (Eigenschaften) auf der x-Achse und die jeweiligen Punkte auf der y-Achse abträgt. Das für beide Fragebögen, um zu vergleichen, ob die Profilverläufe sich ähneln.
      Zu 2.: Interaktion sehe ich als Spezialfall der Regressionsanalyse, d. h. man benötigt eine Zielvariable (abhängige Variable). Bei der Clusteranalyse gibt es keine Zielvariable.
      Wolf

  93. Hallo,
    Ich schreibe eine Arbeit über Produktplatzierung in Videospielen. Die uV ist also die Platzierung, die aV die Bewertung des Produktes.
    Hierbei habe ich drei Gruppen (eine Gruppe spielt mit einer Produktplatzierung, die auf Grund meiner Theorie sehr effektiv sein sollte, eine Produktplatzierung die weniger effektiv sein sollte, sowie eine Kontrollgruppe- sie spielt ohne Produktplatzierung)
    Weil ich auch noch Drittvariablen (Arousal etc.) mit einbeziehen soll, nehme ich an, dass ich mit einer mulitplen Regression rechnen sollte und nicht mit einer ANOVA?
    Freue mich über eine Antwort 🙂

    1. Hallo Christian,
      ja, meine Präferenz wäre multiple Regression. Die finde ich etwas besser interpretierbar als die ANOVA. Allerdings ist letztere ebenfalls geeignet – beide Methoden beruhen auf dem Generalized Linear Model. Bei korrekter Spezifizierung kommen beide zum gleichen Ergebnis.
      Viel Erfolg!
      Wolf

  94. Hallo Wolf!

    Ich stelle am Dienstag mein Exposé für die Bachelorarbeit vor. Mein Thema lautet: Einfluss der Persönlichkeit
    eines IT-lers auf seine Erwartungen an einen Arbeitgeber. Ich teste erst die Persönlichkeit des ITlers anhand eines Big 5 Persönlichkeits-Kurztests und frage danach noch 4-5 Anforderungen/ Erwartungen ab, die der ITler an einen Arbeitgeber stellt (wahrscheinlich anhand einer Likert-Skala?).
    Meine Hypothesen sind alle gleich aufgebaut: Je mehr bzw. weniger von Persönlichkeitsausprägung XY, desto mehr bzw. weniger wünscht sich der IT-ler XY vom Arbeitgeber. Zum Beispiel: Je extrovertierter der IT-ler ist, desto größer ist die Erwartung an einen Arbeitsplatz mit viel Kontakt zu Menschen.
    Funktioniert das? Und welches Testverfahren ist hier das richtige?

    Vielen vielen Dank für deine zeitnahe Antwort!! 🙂

    LG
    Tanja

    1. Hallo Tanja,
      die Hypthesen klingen schon mal präzise formuliert. Die Anforderungen / Erwartungen würde ich nicht zu grob abfragen. Du hast mehr Freude bei der Auswertung, wenn die Teilnehmer sich in ihren Erwartungen mehr unterscheiden können – d. h. nicht zu wenige Stufen nehmen. (Pretest empfohlen, wenn zeitlich irgendwie möglich)
      Je-desto-Aussagen kann man mit Korrelationen testen. Wenn Du weitere Variablen berücksichtigen willst (z. B. Kontrolle nach Geschlecht, Alter, …), bieten sich Regressionsanalysen an.
      Viel Erfolg & viele Grüße
      Wolf

  95. Hallo,

    ich sitze derzeit auch an der Statistik für meine Doktorarbeit. Ich habe 2 Gruppen (je gut 100 Probanden) die meiner Meinung nach unabhängig voneinander sind. Die eine Gruppe hat eine Transfusion bekommen, die andere nicht. Ich möchte nun herausfinden ob die Transfusionen einen Einfluss auf verschiedenen metrische Parameter haben (medianes Alter, Tumorgröße, Thrombozytenzahlen etc…) Welchen Test nehme ich hier? Einen T-Test für unabhängige Stichproben? Danke schonmal im voraus. (arbeite mit JMP)

    1. Hallo Alexander,
      ja, klingt nach unabhängigen Stichproben. T-Test ist eine sinnvolle Möglichkeit. Mit Anova oder Regressionen kannst Du zusätzliche Kontrollvariablen aufnehmen.
      Alter: Warum „median“? Der t-Test ist ein Mittelwertstest.
      Übrigens bezweifle ich, dass eine Transfusion das Alter beeinflussen kann – das wäre mal was … Spaß beiseite, ist wohl nur eine Formulierungsfrage.

      1. Erstmal vielen Dank für die schnelle Antwort. Ist echt klasse!!!
        Median ist blöd formuliert es geht um das Durschschnittsalter. Bei dem konkreten Beispiel geht es darum ob die, die transfundiert wurden signifikant älter sind im Schnitt.
        Wenn ich nun keine Normalverteilung habe (mit dem Shapiro-Wilk-Test berechnet) ist dann der Mann-Whitney-U Test nötig und sonst wenn eine Normalverteilungen vorliegt nehme ich dann einen unabhängigen T-Test oder? Handelt es eigentlich sich um gepoolte oder ungepoolte Tests? Ich hätte gepoolt gesagt.

        1. Normalverteilung: Das wird unterschiedlich gehandhabt. Bei N=200 sind Abweichungen nicht mehr so problematisch wie bei kleinen Fallzahlen. Tests wie Shapiro-Wilk reagieren gerade dann strenger. Ich würde die Verteilung auch grafisch überprüfen, z. B. Histogramm mit Normalverteilungskurve. Wenn das gut aussieht, ist der t-Test verwendbar. Zur Sicherheit kannst Du ja zusätzlich Mann-Whitney rechnen und beides dokumentieren.
          Gepoolt: Da geht es um die Annahme der Varianzgleichheit in den beiden Gruppen, nehme ich an. Kann man auch testen. Wenn sie verletzt ist, gibt es einen Korrekturfaktor bei den Freiheitsgraden. Weiß nicht, wie JMP das handhabt …

  96. Guten Tag Herr Riepl,
    Nach dem Lesen aller Kommentare und durchsuchen des Internets habe ich leider noch keine Lösung für meine vermeintlich einfache Hypothese. Ich hoffe daher dass sie mir eventuell helfen könnten.
    Ich habe 120 Probanden 2 Produkte vergleichen lassen und und die Zufriedenheit mit 11 stufigen likert Skalen (0-10) abgefragt. Die Ergebnisse sind einigermaßen normal verteilt. Meine Hypothese ist: Die Probanden sind mit Produkt A zufriedener als mit Produkt B.
    Vergleiche ich dort nur die Mittelwerte? Denn die sind bei A (4,7) höher als bei B (3,3).
    Ich würde mich freuen wenn sie mir helfen könnten.
    Mfg Gregor Schneider

    1. Guten Tag Herr Schneider,
      natürlich kann man die Analyse ausführlicher machen als „nur“ die Mittelwerte zu vergleichen. Als Hypothesentest schlage ich den t-Test für abhängige Stichproben vor (abhängig, da es die gleichen Probanden sind, die beide Produkte bewertet haben). Ergänzend kann man Grafiken erstellen, Verteilungen vergleichen und ggf. weitere Merkmale berücksichtigen, z. B. im Rahmen einer Varianzanalyse mit Messwiederholung (= Erweiterung des t-Tests für abhängige Stichproben).
      MfG Wolf Riepl

  97. Hallo,

    Im Rahmen meiner Abschlussarbeit untersuche ich die Hände vom Personal (vor und nach Durchführung der Händedesinfektion) auf Kontaminationen.

    Den t-test kann ich ja aber nicht anwenden, weil entweder liegen Kontaminationen vor oder es liegen keine vor (0).

    Welche Methode könnte ich aber sonst anwenden ?

    Ich wäre Ihnen sehr dankbar für Ihre Hilfe!

  98. Hallo,

    ich möchte herausfinden, ob verkaufsfördernde Maßnahmen die Stückzahl an verkauften Artikeln auch tatsächlich erhöhen im Zeitraum in welchem solch eine Maßnahme durchgeführt wird. Hierzu möchte ich 10 verschiedene Maßnahmen betrachten. Die Abverkaufzahlen liegen mir in Stück vor. Eine Maßnahme ist erfolgreich, wenn in dem Zeitraum der Maßnahme mehr Artikel verkauft werden als in dem Zeitraum davor, z.B.: Die Maßnahme wird in KW 30 durchgeführt und es werden 100 Artikel verkauft. In KW 29 (hier wurde keine Maßnahme durchgeführt) wurden 90 Artikel verkauft. Die Maßnahme wäre in diesem Beispiel erfolgreich gewesen (Index 111).
    Nachdem ich alle Maßnahmen ausgewertet habe, kann ich also sagen, dass von den untersuchten Maßnahmen z.B. 8 von 10 den Absatz in Stück erhöht haben, also erfolgreich waren.
    Da die 10 Maßnahmen, die ich untersuchen möchte eine Strichprobe darstellen muss ich im nächsten Schritt von dieser Stichprobe auf die Grundgesamt schließen und an dieser Stelle bin ich mir sehr unsicher, welche statistische Methode ich hierfür anwenden kann.
    Es wäre klasse, wenn du mir hier weiterhelfen kannst! Vielen Dank!

    1. Hallo Anka,
      Vorher-Nachher-Messungen sind abhängige Stichproben, d. h. ein bestimmter Wert „ohne Maßnahme“ ist einem ganz bestimmten Wert „mit Maßnahme“ zugeordnet. Möglicher Test: t-Test für abhängige Stichproben. n=10 ist jedoch recht klein, da könnte man auch ein nichtparametrisches Pendant nehmen. (Der t-Test setzt streng genommen Normalverteilung voraus, was bei dieser Fallzahl diskutabel ist.) Alternative Wilcoxon-Test – der rechnet mit Rangsummen und trifft keine Verteilungsannahmen. Wenn Du es ausführlich machen willst, kannst Du beide Tests rechnen, Ergebnisse vergleichen und diskutieren.

  99. Hallo und Danke mal für den tollen Beitrag!

    Ich hätte eine Frage bezüglich eines Vergleichs zweier Geräte. Es handelt sich um einen technischen und klinischen Vergleich zweier EKGs. Erhoben und verglichen werden verschiedenste EKG-Zeiten und Amplituden, die teils voneinander abhängig und teils unabhängig seien können. Der Vergleich soll untersuchen, ob die beiden Geräte die selben Messwerte ausspucken. Ein EKG dient dabei als Referenzprodukt und das andere soll damit verglichen werden.

    Aus der Literatur ist mir die Methode nach Bland und Altman bekannt für den Vergleich technischer Messungen, jedoch wäre es denke ich nicht das richtige, dass für jede Variable getrennt zu vergleichen.

    Hast du vielleicht eine Idee dazu? Mir wäre damit sehr geholfen!

    Liebe Grüße
    Aylin

    1. Hallo Aylin,
      das klingt spannend. Kann ich ehrlich gesagt so nicht sagen, welcher Test der richtige ist. „Teils abhängig, teils unabhängig“ – es gibt unterschiedliche Tests für abhängige und unabhängige Stichproben … Das müsste man sich ganz genau ansehen, wie die Daten aufgebaut sind und ob man sie evtl. anders strukturieren muss. Du suchst ja anscheinend ein Gesamtmodell statt mehrerer einzelner Tests.
      Ich kann das leider nicht übernehmen, bin ausgelastet …
      Sorry – viele Grüße!
      Wolf

  100. Hallo Wolf!

    Im Rahmen meiner Abschlussarbeit befrage ich ca. 100 Kunden meines Arbeitgebers per Fragebogen, inwiefern sie die Integration bestimmter Preiselemente in den Vertrag akzeptieren würden. Dazu habe ich 13 Faktoren bestimmt, wobei die Befragten auf die Aussage, dass sie die Integration des jeweiligen Preisfaktors in den Vertrag akzeptieren würden mit „stimme überhaupt nicht zu“ (1), „stimme eher nicht zu“ (2), „Teils/teils“ (3), „Stimme eher zu“ (4) und „Stimme voll und ganz zu“ (5) reagieren sollen.

    Zusätzlich habe ich zu jedem der Faktoren eine Hypothese aufgestellt, die entweder besagt, dass die Befragten die Integration des Faktors akzeptieren oder, dass sie sie nicht akzeptieren.

    1) Beispiel: Hypothese 1 – Die Integration von Faktor A wird akzeptiert
    Wenn ich jetzt festlege, dass ein Wert größer als 3,5 bedeutet, dass der Befragte die Integration des jeweiligen Faktors akzeptiert, kann ich dann bei einem durchschnittlichen Wert aller Befragten über 3,5 Hypothese 1 einfach annehmen bzw. bei einem Wert kleiner gleich 3,5 ablehnen?

    2) Sollte ich zudem beispielsweise einen Einstichproben-t-Test durchführen, um zu überprüfen, ob der Mittelwert meiner Stichprobe für jeden Faktor signifikant vom Erwartungswert (hier = 3) abweicht?

    Vielen Dank für deine Hilfe!

    1. Hallo Frank,

      ja, klingt plausibel. Achtung: Bei vielen einzelnen t-Tests steigt die Wahrscheinlichkeit, dass „zufällig“ mal einer signifikant wird. Fachbegriff Alpha-Fehler-Kumulierung. Da empfiehlt sich ein Korrekturfaktor für die p-Werte. Siehe z. B. hier:
      https://statistikguru.de/rechner/adjustierung-des-alphaniveaus.html

      Spannender finde ich Hypothesen, die (mindestens) zwei Variablen in Beziehung setzen. Zum Beispiel: Frauen stimmen Preisfaktor X eher zu als Männer.

      Viel Erfolg und viele Grüße!

      Wolf

  101. Hallo! 🙂
    Ich habe in einem Fragebogen den Zusammenhang zwischen der Angabe persönlicher Informationen und der Teilnahme an Geld-zurück-Garantien untersucht. Mit Geld-zurück-Garantien meine ich die der Aktionsprodukte „Jetzt gratis testen“, d.h. man muss nach dem Kauf eines Produkts z.B. seine Bankdaten und Adresse angeben und dann bekommt man den Kaufpreis vom Unternehmen erstattet.
    Meine Frage im Fragebogen lautete: „Welche der folgenden Gründe würden Sie hindern, die Geld-zurück-Garantie eines Aktionsprodukts geltend zu machen? Mehrfachantworten sind möglich.“
    Es gab folgende Antwortmöglichkeiten:
    Die Angabe meiner Bankdaten (1=nicht ausgewählt, 2=ausgewählt)
    Die Angabe meiner persönlichen Anschrift (1=nicht ausgewählt, 2=ausgewählt)
    keines der beiden (1=nicht ausgewählt, 2=ausgewählt)
    Meine Hypothesen lauten:
    H4: Die Angabe persönlicher Informationen hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.
    ∙H4a: Die Angabe von Bankdaten hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.
    ∙H4b: Die Angabe der privaten Anschrift hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.

    Ich habe folgende Fragen: Handelt es sich hierbei um ungerichtete Zusammenhangshypothesen? Wenn ja, hatte ich überlegt die Ausprägungen (1 und 2) jeder der 3 Antwortmöglichkeiten mit einer selbst erstellten Spalte mittels Spearman Korrelation zu vergleichen (dies ist ja auch mit dichotomen Daten möglich oder?). Also ich wollte eine Spalte erstellen mit 1=Nichtteilnahme (wenn zum Beispiel angeklickt wurde, dass die Angabe der Bankdaten an der Teilnahme hindert) bzw. 2= Teilnahme (wenn zum Beispiel ausgewählt wurde: keines der beiden)

    Liege ich mit meinen Ideen richtig? Oder handelt es sich doch eher um einen Wilcoxon-Vorzeichen-Rang Test als Anpassungstest?

    Liebe Grüße

    1. Hallo Sophia,
      ja, man kann die Hypothesen als ungerichtet bezeichnen. Es gibt allerdings nur jeweils 2 Ausprägungen: ausgewählt oder eben nicht. Das würde ich kategorial analysieren, nicht ordinal (Spearman-Korrelation). Ich sehe allerdings auch nicht, dass man zwei Variablen in Zusammenhang setzen müsste. Im Grunde ist doch die Hypothese widerlegt, wenn die Teilnehmer sich nicht von der Inanspruchnahme der Geld-zurück-Garantie abhalten lassen? Das sieht man doch auch an einfachen Häufigkeitsauszählungen, oder? Um es testbar zu machen, könnte man eine Schwelle festlegen, z. B. wenn mindestens x% der Teilnehmer sich abhalten lassen, dann hat die Angabe persönlicher Infos Einfluss. Drei Tabellen: a) Bankdaten, b) Anschrift; c) mindestens eine der beiden Info-Arten (das wird der höchste Anteil an Personen, die sich abhalten lassen). Evtl zusätzlich d) Wie viele haben beides angekreuzt.
      Viele Grüße & viel Erfolg!
      Wolf

      1. Hallo Wolf,

        ich sitze momentan an der Auswertung meiner Untersuchung, bei der ich Commitment (affektiv, normativ und kalkulatorisch) auf einer Likert Skala abgefragt habe.
        Meine Hypothese lautet nun:
        Mit steigender Zugehörigkeitsdauer (4 Kategorien: unter 1 Jahr, 1-2 Jahre,2-5 Jahre, 6-10 Jahre) der Mitarbeiter steigt auch die Ausprägung der Komponenten (affektiv, kalkulatorisch, normativ) des organisationalen Commitments.

        Gehe ich richtig in der Annahme, dass die eine Zusammenhangshypothese ist?
        Wäre ich hier mit einer linearen Regression?

        Außerdem überprüfe ich noch die folgende Hypothese:
        Je ausgeprägter die Fehlermanagementkultur ist, desto höher ist das affektive organisationale Commitment bei den MA.

        beide Variablen wurden auf einer 5 stufigen Likertskala abgefragt.
        Welcher Test wäre hier angebracht?

        Ich würde mich sehr mich über eine Rückmeldung freuen.

        Liebe Grüße

        1. Hallo Chris,
          ja, das sind Zusammenhangshypothesen. Man kann sie mit Korrelationsanalysen oder Regressionsanalysen testen. Die Regression erlaubt es, weitere Kontrollvariablen aufzunehmen (z. B. Geschlecht oder Alter). Zugehörigkeitsdauer würde ich für eine Regression dummycodieren, das heißt eine Variable pro Kategorie, mit Ausprägungen 0 und 1. Z. B. Variable unter_1_Jahr, 0=nein, 1=ja. Für die Regression eine der vier Kategorien weglassen und als Referenzkategorie interpretieren.
          Fehlermanagement: Könnte man mit Rangkorrelation (Spearman) testen. Für eine Regression müsste man annehmen, dass die Likertskala metrisch ist. Wird oft gemacht, ist diskutabel …
          Viel Erfolg
          Wolf

  102. Hallo!

    Sitze gerade an meiner Doktorarbeit und bin etwas überfordert mit der Auswertung meiner Ergebnisse. Habe im Labor Experimente mit verschiedenen Medikamenten auf Zellen gemacht und möchte jetzt eine Kontrollgruppe A mit einer Experimentgruppe B und eine andere Kontrollgruppe C mit Experimentgruppen D, E und F vergleichen. Habe pro Gruppe ca. 20 Messungen und intervallskalierte Werte.
    Würde ich dann für den Vergleich zwischen A und B einen einfachen t-test machen? Und welchen Test kann ich für den Vergleich C-D,C-E und C-F am besten machen?

    Vielen Dank für die Hilfe!

    1. Hallo Julia,
      danke für den Kommentar! Ja, zwei Gruppenmittelwerte kann man per t-Test vergleichen. Bei mehr als zwei Gruppen Varianzanalyse. (Der t-Test ist ein vereinfachter Spezialfall der Varianzanalyse.)
      Viel Erfolg & viele Grüße!

  103. Hallo, ich bin gerade über Deinen Blog gestoßen und finde ihn sehr spannend. Ich habe eine Frage zur Varianzanalyse mit Messwiederholung. Ich habe fünf Gruppen, die ich zu zwei Zeitpunkten bezüglich verschiedener Perfektionismusdimensionen befragt habe. Nun zeigt die Varianzanalyse keinen signifikanten Unterschied, aber im post-hoc Test ist bei einer Gruppe ein signifikanter Unterschied des Messzeitpunkts zu sehen. Diesen würde ich gerne berichten. Nun steht aber überall, dass es nicht berichtet werden darf, wenn die vorausgegangene ANOVA nicht signifikant ist. Dann wiederum wird argumentiert, dass es sich bei den Verfahren um unterschiedliche Testverfahren handelt und man sich auch direkt die post-hoc Tests anschauen dürfte. Darf ich es nun berichten und wenn ja wo finde ich eine geeignete Literaturquelle, die das untermauert? Über eine Antwort würde ich mich sehr freuen. Viele Grüße Daniela

    1. Hallo Daniela,
      ich kenne es auch so, dass man Post-Hoc-Tests nach signifikantem Gesamtergebnis macht. Wenn Du den signifikanten Gruppenunterschied aus Post-Hoc berichten willst, dann würde ich auf jeden Fall auch das Gesamtergebnis berichten. Generell: Alle Tests dokumentieren (darf auch kurz sein), nicht nur das rauspicken, was einem gefällt.
      Literatur: Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler fand ich ganz gut.

  104. Hallo,
    ich hätte zwei Fragen:
    1) Ich habe eine Auswertung gemacht bei der ich gerne prüfen würde, ob sich die Tendenz nach einem Teamtimeout im Handball in den nachfolgenden 5min verändert. Dazu habe ich den 5min-Abschnitt nach dem Teamtimeout in jeweils 1min-Blöcke unterteilt (also 5 Variablen) und jede Variable hat 3 Möglichkeiten (positiv/neutral/negativ). Wie bekomme ich jetzt raus, ob sich die Tendenz mit Zunahme der Zeit verändert? (Die Stichprobengröße wird mit Zunahme der Zeit immer kleiner)

    2) Desweiteren wüsste ich gerne ob gewisse Taktiken (z.B. Auswechslungen) öfter zu einer positiven Tendenz führen.

    Vielen Dank schonmal und schöne Grüße
    Hendryk

    1. Hallo Hendryk,
      für den Timeout-Effekt könnte man den Friedman-Test nehmen. Es handelt sich um abhängige Stichproben, da eine bestimmte Messung einem bestimmten Spiel zugeordnet ist. Der Test erfordert vollständige Daten, d. h. Spiele mit Fehlwerten ab einem bestimmten Messzeitpunkt werden ausgeschlossen. Man könnte mehrfach testen, z. B. bis zur 3. / 4. / 5. Minute, jeweils mit weniger Fällen, und die Ergebnisse vergleichen und diskutieren.
      Der Friedman-Test ist nichtparametrisch, d. h. er trifft keine Verteilungsannahmen. Die Zielvariable ist ordinal (Rangfolge klar, aber nicht fein abgestuft metrisch). Daher würde ich keine Varianzanalyse mit Messwiederholungen nehmen. Bei kleinen Fallzahlen und geringen Häufigkeiten in einer der drei Ergebnis-Kategorien könnte man nur den Vergleich von zwei Kategorien nehmen (z. B. positiv vs. nicht-positiv (neutral und neg. zusammen)) und mit dem McNemar-Test arbeiten.

    2. Zu 2) Kommt auf die Codierung der Daten an. Vorschlag: Kreuztabelle Taktik vs. Tendenz, Chi-Quadrat-Test (berücksichtigt die Rangfolgen der Tendenz nicht) oder Mann-Whitney-U-Test (Tendenz ordinal, vergleicht zwei Taktiken) oder Kruskal-Wallis-Test für mehr als zwei Taktik-Gruppen.

  105. Hallo,

    ich suche nach einem geeigneten Test für folgende Hypothese:

    Wenn man seine Lüge im Voraus plant, ist die kognitive Belastung während des Lügens geringer als wenn man die Lüge nicht vorher plant.

    Dabei habe ich eine Fallzahl von ca. 50 Leuten, die Variable zur Planung der Lüge hat die Ausprägungen [JA / NEIN / WEISS NICHT] und die Variable zur Messung kognitiver Belastung hat die Ausprägungen von 1 (gar nicht anstrengend) bis 6 (ausgesprochen anstrengend).

    Fragen:
    A) Liege ich richtig in der Annahme, dass die Planungsvariable nominalskaliert ist?
    B) Liege ich richtig in der Annahme, dass die Variable, die kognitive Belastung misst, ordinalskaliert ist?
    C) Von welcher Verteilung kann ich ausgehen bzw. wie finde ich die Verteilung der Variablen heraus?
    D) Welchen Test muss ich zu Überprüfung dieser Hypothese verwenden?

    Ich wäre sehr dankbar für eine Rückmeldung.

    Liebe Grüße

    1. Hallo Clara,
      interessante Hypothese!
      A) „Schlimme“ Antwort: Kommt drauf an. Kann man so sehen. Alternative: Weiß nicht = Fehlwert. Bleiben zwei Möglichkeiten, die man als dummycodiert auffassen kann (z. B. 0=nein, 1=ja). Dummycodierte Variablen können in vielen Verfahren (z. B. Regression) wie metrisch skalierte Variablen verwendet werden.
      B) Ja. Oft werden solche Variablen aber auch als (quasi-)metrisch aufgefasst und so verwendet.
      C) Am besten ist eine Kombination aus grafisch-visueller Analyse und einem statistischen Test. Zum Beispiel Histogramm mit Normalverteilungskurve. Normalverteilt (Gauß’sche Glockenform) heißt: die meisten Fälle liegen im mittleren Bereich – je näher an den Rändern, desto weniger Fälle. Test: Zum Beispiel Shapiro-Wilk-Test auf Normalverteilung.
      Das gilt für die kognitive Belastung. Die Planungsvariable kann bei so wenigen Ausprägungen nicht normalverteilt sein. Günstig für die Analyse wäre, wenn ja und nein einigermaßen ähnlich häufig auftreten. Problematisch wäre, wenn eine Antwortalternative nur ganz selten (z. B. weniger als 5 mal) vorkommt.
      D) Da gibt es mehrere Möglichkeiten. Die einfachste wäre ein t-Test für unabhängige Stichproben. Gruppenvariable: Planung ja/nein, abhängige: kogn. Belastung.
      Mögliche Erweiterung: Zusätzliche Variablen aufnehmen, z. B. Geschlecht und/oder Alter etc. Regressionsmodell mit kogn. Belastung als abhängiger Variable.
      Falls es Dir wichtig ist, bei Planung „weiß nicht“ mit zu berücksichtigen: Varianzanalyse (Anova) als Erweiterung des t-Tests.

  106. Hallo,
    ich habe ein Problem bei einer multiplen Regression. Und zwar weist meine abhängige Variable sowohl negative als auch positive Prozentwerte auf. Kann ich diese einfach so verwenden oder muss ich die Werte per Quadrierung zunächst alle positiv gestalten? Leider kann ich hierzu nirgends gute Informationen finden.
    Beste Grüße, Tobias

    1. Hallo Tobias,
      das ist prinzipiell kein Problem, die Werte der abhängigen Variable dürfen auch negativ sein.
      Das befreit Dich natürlich nicht davon, Modellvoraussetzungen zu testen und die Ergebnisse sorgfältig zu interpretieren.
      Viel Erfolg!

      1. Erstmal vielen Dank für die schnelle Antwort. Die Modellvoraussetzungen sind natürlich BLUE, so dass ich hier keine Probleme habe bzw. passende Modelle wähle.
        Mein Betreuer ist nur der Ansicht, dass die Prozentwerte sich gegenseitig ausgleichen würden und so falsche Ergebnisse geliefert werden und die ein absolutes No-Go ist. Allerdings ist es meiner Ansicht nach eher genau andersrum, da die eindeutig signifikante Variable bei einer Quadrierung nicht mehr signifikant ist und diese signifikant sein muss.
        Danke. Haben Sie eventuell einen Tipp in welchem Buch oder Onlinedokument man hierzu nähreres erfahren könnte?

        1. Literatur dazu habe ich grade nicht parat.
          Nach Deiner Beschreibung erscheint es mir weniger ein Problem der negativen Werte an sich zu sein, sondern eher eine Frage der Konstruktion der abhängigen Variable. Wie kommen die Prozentwerte zustande, sind sie direkt gemessen oder aus mehreren Variablen abgeleitet? Wie sind sie verteilt? Bei einer Quadrierung verliert man das Vorzeichen, d. h. was zuvor -20% waren, ist dann nicht mehr unterscheidbar von einem Wert, der zuvor +20% betrug. Ist das sinnvoll? (Das ist eine ernstgemeinte Frage – die Antwort kenne ich nicht, ohne den Kontext zu kennen – je nach Fragestellung kann die Antwort ja oder nein lauten.) Quadrierung erhöht auch die Bedeutung der Ausreißer.
          Ich würde weniger nach irgendwelchen „Regeln“ vorgehen, sondern mich möglichst an inhaltlichen Überlegungen orientieren. Was will ich messen und testen, und welche Art der Operationalisierung kommt dem Ziel inhaltlich am nächsten?
          Wenn negative Werte vermieden werden sollen, kann man das auch durch andere Transformationen erreichen, z. B. durch Addition des (negativen) Minimums, sodass der Wertebereich bei 0 beginnt.

  107. Hallo!
    Ich möchte eine multiple Regression rechnen, aber die Linearität und Homoskedastizität sind nicht erfüllt. Wie kann ich weiterverfahren?

    Liebe Grüße
    Tina

    1. Hallo Tina,
      da gibt es viele Möglichkeiten … Zum Beispiel:
      – prüfen, ob mit weiteren Prädiktoren bessere Anpassungen erreicht werden oder ob Prädiktoren ausgeschlossen werden sollten (z. B. bei Multikollinearität)
      – nichtlineare Terme aufnehmen
      – einflussreiche Ausreißer finden und ggf. ausschließen
      – die Regressionsdiagnostik beschreiben und diskutieren – die meisten Zusammenhänge sind nicht genau linear; bei vielen Modellen sind Voraussetzungen verletzt

  108. Hallo Herr Riepl,

    ich möchte Tests mit SPSS durchführen. Meine Daten sind nicht normalverteilt. Kann ich damit nur nicht-parametrische Tests durchführen oder auch zum Beispiel Kreuztabellen (Person-Chi²-Test) und Rangkorrelationen?

    Viele Grüße

    1. Hallo Seb,

      Chi² und Rangkorrelationen setzen keine Normalverteilung voraus. Chi² ist für kategoriale Daten, d. h. hier werden keine Rangfolgen berücksichtigt (anders gesagt: Die Sortierung der Kategorien spielt keine Rolle). Rangkorrelationen zähle ich zu den nichtparametrischen Verfahren.

      Die Abgrenzung (parametrische Verfahren nur bei NV) wird nicht immer so streng gesehen. Normalverteilungstests werden bei größeren Fallzahlen eher signifikant (im Sinne von keine NV) – gerade dann können die Tests Abweichungen von der NV besser kompensieren. Daher kann man auch grafische Methoden (z. B. Histogramm mit NV-Kurve) in die Entscheidung einbeziehen. Jürgen Bortz (Statistik für Human- und Sozialwissenschaftler) argumentiert, der t-Test reagiere robust auf Verletzungen seiner Voraussetzungen. (Problematisch wird es vor allem dann, wenn die Varianzen in den Gruppen ungleich sind und die Fallzahlen ebenfalls.)

  109. Sehr geehrter Herr Riepl,

    ich führe derzeit mit SPSS die Auswertung einer Befragung durch. Die Befragung hat innerhalb eines Unternehmens stattgefunden. Ich befinde mich derzeit bei den Tests um Unterschiede herauszufinden, allerdings Frage ich mich ob ich da die Angaben nur innerhalb eines Unternehmens gemacht wurden nur abhängige, verbundene Stichproben habe oder wäre es auch möglich, dass es unabhängig ist?

    Wenn Sie mir vlt kurz erklären könnten, wann ich Tests für abhängige Stichproben und wann für unabhängige Stichproben durchführe wäre ich Ihnen sehr dankbar. Wie gesagt sind die Daten alle nur innerhalb eines Unternehmens erfasst worden.

    1. Hallo Maik,

      es kommt auf die konkrete Fragestellung an. Viele Variablen können verwendet werden, um Gruppen zu bilden und zu vergleichen.

      Beispiel: Nehmen wir an, Sie vergleichen den Krankenstand zwischen zwei Abteilungen. Wenn es keine Zuordnung eines bestimmten Mitarbeiters in einer Abteilung zu einem bestimmten Mitarbeiter in der anderen Abteilung gibt, handelt es sich um unabhängige Stichproben.

      Anderes Beispiel: Sie messen den Krankenstand in einer Abteilung vor und nach einer Gesundheitsmaßnahme. Dann gibt es zu jedem Mitarbeiter zwei Messungen. Die Messung von Herrn Maier vor der Maßnahme ist der Messung von Herrn Maier nach der Maßnahme zugeordnet. (Anders formuliert: Der Test soll berücksichtigen, dass es sich hier 2x um dieselbe Person handelt.) Es handelt sich um abhängige Stichproben.

      Abhängige Stichproben können es auch sein, wenn es sich um verschiedene Messobjekte (z. B. Personen) handelt, aber mit klarer Zuordnung, zum Beispiel Trainings- oder Ehepartner.

      1. Sehr geehrter Herr Riepl,

        vielen Dank für die schnelle Antwort. Das erschließt sich mir soweit. Also angenommen ich habe bisher keine Gruppen, bilde aber einfach welche durch Zuordnung nach Geschlecht oder Einkommen etc. dann sind das unabhängige Stichproben?

        Auf ihr Beispiel bezogen, wenn ich nun eine Abteilung habe, in der der aktuelle Krankenstand abgefragt wird und zusätzlich dann eben noch Zusammenhang mit Geschlecht, Einkommen, Arbeitszeiten von den gleichen Personen in der Abteilung damit testen will. Unabhängige Stichproben?

        1. Ich weiß, „es kommt darauf an“-Antworten sind schrecklich, aber ich habe noch eine:
          Es kommt auf das Skalenniveau der Variablen an. Krankenstand metrisch (in Tagen / Jahr) und Geschlecht: Ja, unabhängige Stichproben.
          Krankenstand metrisch und Einkommen metrisch oder Arbeitszeiten metrisch: Dann machen Sie keinen Gruppenvergleich, sondern können z. B. Korrelationen berechnen. Da gibt es keine Auswahl zwischen abhängigen und unabhängigen Stichproben. Natürlich können Sie aus dem Einkommen oder den Arbeitszeiten Gruppen bilden (z. B. hoch / niedrig) und dann wieder Gruppenvergleiche mit unabhängigen Stichproben durchführen.
          „Von den gleichen Personen“ klingt missverständlich: Wenn Sie Frauen und Männer einer Abteilung vergleichen, dann haben Sie zwei Teilgruppen mit unterschiedlichen Personen.

  110. Hallo Herr Riepl,

    ich schreibe gerade meine Abschlussarbeit und muss dazu sechs Fragen eines ausgefüllten Fragebogens plus drei zusätzliche Fragen zu demographischen Daten mit SPSS analysieren. Leider habe ich von Statistik nun so gar keine Ahnung und weiß deshalb nicht welche Tests ich alles durchführen muss und hatte gehofft Sie könnten mir weiterhelfen. Die Fragebogen sind fertig ausgefüllt und alle Daten liegen vor. Ich muss also nun nur mit SPSS die Daten analysieren.

    Die ersten beiden Fragen befassen sich mit psychischen Problemen zu denen die Teilnehmer Angaben machen mussten. Sie hatten dabei die Auswahl anzukreuzen (immer, oft, manchmal, selten, nie) und diesen Antwortmöglichkeiten wurden die Zahlen 1 bis 5 zugewiesen.

    Die nächste Frage beschäftigt sich mit Erreichbarkeit durch das Handy. Die Teilnehmer konnten ja, nein oder trifft nicht zu ankreuzen. Dabei bekamen ja und nein die Zahlen 1 und 2 zugewiesen und trifft nicht zu die 98. Die nächste Frage ist gleich aufgebaut. und die dritte Frage auch mit 5 Antwortmöglichkeiten für die die Zahlen 1 bis 5 vergeben wurden und die Zahl 98 für keine Angabe.

    Die sechste Frage lässt sich nur mit ja oder nein beantworten und auch hier wurden den Antwortmöglichkeiten wieder die Zahlen 1 und 2 zugewiesen.

    Als letztes sind noch die demographischen Angaben. Eine Frage zum Geschlecht (männlich, weiblich) mit den zugewiesenen Zahlen 1 und 2. Eine Frage ob man eine leitenden Funktion inne hat (ja, nein) mit den zugewiesenen Zahlen 1 und 2. Und eine Frage zum Alter (unter 30, 30-44 Jahre, 45-55 Jahre, über 55) mit den zugewiesenen Zahlen 1 bis 4.

    Können Sie mir helfen und sagen was ich nun mit diesen Daten anfangen muss, welche Tests ich durchführen kann/muss?

    Viele Grüße,

    CESRL

    1. Hallo CESRL,
      danke für Ihren Kommentar!
      Zunächst ist es sinnvoll, Hypothesen zu formulieren. Es gibt ja verschiedene Möglichkeiten für Zusammenhänge zwischen den Variablen und es wird nicht erforderlich sein, alle Möglichkeiten auszuschöpfen. Was interessiert Sie besonders und welche Ergebnisse erwarten Sie?
      Dann ist es gut, die Skalenniveaus zu betrachten. Die mit 1 bis 5 codierten Fragen würde ich als ordinal betrachten (immer, oft, manchmal, selten sind nicht so genau definiert und meines Erachtens nicht als streng metrisch zu sehen; die Abstände zwischen den Kategorien sind nicht unbedingt gleich groß). Wenn Sie Gruppenvergleiche damit anstellen, empfehle ich nichtparametrische Tests. Zum Beispiel: Geben Frauen häufiger psychische Probleme an als Männer? Mann-Whitney-U-Test mit psychischen Problemen als abhängiger Variable, Geschlecht als Gruppenvariable.
      Die Werte 98 würde ich als Fehlwerte definieren, d. h. diese Probanden werden von den jeweiligen Analysen ausgeschlossen und man vergleicht Ja- mit Nein-Antworten.
      Wie gesagt gibt es recht viele Möglichkeiten und ich werde nicht alles in einem Kommentar beschreiben können …
      Viele Grüße,
      Wolf Riepl

      1. Hallo Herr Riepl,

        ich habe nun Hypothesen formuliert um diese zu testen. 2 Hypothesen sind durch jeweils nominal skalierte Fragen aufgestellt worden und 5 Hypothesen durch jeweils nominal und ordinal skalierte Fragen gemischt. Ich habe bereits gelesen, dass man sich aber in dem gemischten Fall, jeweils am „schwächsten Glied“ orientieren muss, also dann quasi nur Tests für nominal skalierte Fragen zulässig sind. Ich habe dafür nun ungerichtete Hypothesen aufgestellt, also muss ja zweiseitig getestet werden. Welche Tests kann ich nun damit durchführen? Nur den Pearson Chi Quadrat Test durch Kreuztabellen?

        Gruppenvergleiche anstellen habe ich verstanden, vielen Dank dafür. Und die Werte 98 habe ich nun als Fehlwerte definiert. Vielen Dank auch dafür.

        Viele Grüße,

        CESRL

        1. Hallo CESRL,
          es kommt darauf an, wie der „gemischte Fall“ aussieht. Wenn Sie Gruppenvergleiche durchführen wie in meinem vorigen Kommentar beschrieben, dann ist die Gruppenvariable nominal skaliert und die Testvariable ordinal. In diesem Fall nehmen Sie Tests für Ordinaldaten, z. B. den Mann-Whitney-U-Test. Die Gruppenvariable muss nicht ordinal sein.
          Bei Korrelationen zwischen ordinalskalierter und intervallskalierter Variable gilt Ihr Beispiel: Im Zweifel das nichtparametrische Verfahren, z. B. Rangkorrelation nach Spearman.
          Wenn Sie Kreuztabellen erstellen, können Sie mit dem Chi-Quadrat-Test prüfen, ob die Verteilung der einen Variable sich in den Untergruppen der anderen signifikant unterscheidet. Wenn dabei eine ordinalskalierte Variable verwendet wird, berücksichtigt der Test die Rangfolge nicht, sondern sieht nur die Kategorien, unabhängig von der Sortierung.

          1. Hallo Herr Riepl,

            bei nominal und nominal skalierter Frage dann den Pearson Chi Quadrat Test?

            Der gemischte Fall ist nicht ordinal- und intervallskaliert sondern nominal- und ordinalskaliert. Ich habe auch keine Gruppen, sondern einfach nur Daten/Angaben von einzelnen Personen eines Unternehmens bezüglich den Fragestellungen. Die Personen lassen sich nicht in eine oder die andere Gruppe einteilen. Also dann doch nicht den Mann-Whitney-U-Test oder?

            Kann ich sonst nichts mehr testen bei nominal- und ordinalskalierter, gemischter Hypothese?

            Eine Hypothese lautet dann zum Beispiel so: Es besteht ein signifikanter Zusammenhang zwischen der Erwartung durch Kollegen permanent erreichbar zu sein (nominal durch ja oder nein) und dem zu kurz kommen des Privatlebens durch die Arbeit (ordinal durch immer, oft selten, manchmal, nie, aber mit den Zahlen 1-5 versehen)

            Sorry für die Fragen, aber ich versteh leider noch nicht so viel darüber.

            Viele Grüße,

            CESRL

          2. > bei nominal und nominal skalierter Frage dann den Pearson Chi Quadrat Test?
            Ja. Wenn es zu viele Kategorien / zu kleine Fallzahlen werden, ggf. Gruppen zusammenfassen.

            > Der gemischte Fall ist nicht ordinal- und intervallskaliert sondern nominal- und ordinalskaliert. Ich habe auch keine Gruppen, sondern einfach nur Daten/Angaben von einzelnen Personen eines Unternehmens bezüglich den Fragestellungen.
            Sie können die nominalskalierte Variable als Gruppenvariable verwenden.

            Ihr Beispiel:
            Gruppenvariable: Erwartung, permanent erreichbar zu sein ja/nein (-> zwei Gruppen)
            Testvariable: Zu-kurz-Kommen des Privatlebens

            Weiter möchte ich es in den Kommentaren nicht mehr treiben …

  111. Hallo Herr Riepl,

    Ich bin ein ziemlicher SPSS-Neuling und komme momentan nicht weiter..
    Hier ist mein mein Problem:
    Um herauszufinden welche statistischen Tests für meine erhobenen Daten in Frage kommen, muss ich ja erstmal gucken ob meine Variablen normalverteilt sind. Mein Gesamtkollektiv lässt sich in zwei Gruppen unterteilen (Operationsmethode A und B). Diese beiden Gruppen will ich später hinsichtlich unterschiedlicher Parameter vergleichen (Blutverlust, OP-Dauer, etc.). Nun verstehe ich nicht, ob für den Normalverteilungstest für jede Variable ALLE Patienten (also beider OP Methoden zusammen) oder immer beide Stichproben einzeln auf Normalverteilung überprüft werden müssen. Ist letzteres der Fall, stellt sich mir die nächste Frage: Was mache ich wenn z.B. OP-Methode A hinsichtlich des Blutverlustes normalverteilt, OP-Methode B dies jedoch nicht ist. Entscheide ich mich dann grundsätzlich für nichtparametrische Testverfahren (z.B. U-test)?

    und noch eine andere Frage: Zu meiner Auswertung kommen auch dichotome Variablen (wie z.B. Intensivaufenthalt Ja/Nein). bei solch dichotomen Variablen, kann ja keine „Normalverteilung“ vorliegen. Benutze ich hierfür dann den chi²-Test oder besser den exakten Fisher-Test (exakter Chi²)?

    Ich hoffe meine Fragen machen Sinn und sind verständlich formuliert. Vielen vielen Dank im Voraus!

    1. Hallo Gäußchen,

      zum Normalverteilungstest: Exakter ist es, die Gruppen separat auf Normalverteilung zu prüfen. In der Praxis wird das allerdings oft nicht gemacht, sondern nur die Gesamtstichprobe getestet. Gibt es Abweichungen von der Normalverteilungsannahme, evtl. auch nur in einer Untergruppe, ist es streng genommen besser, einen nichtparametrischen Test durchzuführen. Hier gibt es allerdings erhebliche Spielräume. Z. B. schreibt Jürgen Bortz in Statistik für Human- und Sozialwissenschaftler, der t-Test reagiere robust auf Verletzungen seiner Voraussetzungen. Ich führe oft beide Tests durch (parametrisch und nichtparametrisch) und dokumentiere die Ergebnisse (den zweiten Test oft in einer Fußnote), dann ist man auf der sicheren Seite. Wenn sie zu unterschiedlichen Ergebnissen kommen, kann man das diskutieren.

      Ein Haken an Normalverteilungstests ist, dass sie eher bei großen Stichproben signifikant werden (im Sinne von signifikanter Abweichung von der Normalverteilung) und gerade bei großen Stichproben die Verfahren auch mit solchen Abweichungen robuster funktionieren. Bei kleinen Stichproben werden sie nicht so leicht signifikant, obwohl gerade da Abweichungen von der Normalverteilung kritischer sind. Empfehlung: Normalverteilung auch optisch prüfen (z. B. Histogramm mit Normalverteilungskurve).

      Der Fisher-Test ist dem Chi-Quadrat-Test vor allem bei sehr kleinen Stichproben überlegen. Für den Chi-Quadrat-Test sollten die erwarteten Häufigkeiten nicht (zu oft) unter 5 liegen.

      Hoffe das hilft weiter. Viel Erfolg!

  112. Hallo Herr Riepl,

    auf der Suche nach statistischen Methoden, die ich für meine Abschlussarbeit verwenden kann, bin ich auf Ihrer Seite gelandet. Ich hoffe Sie können mir ein wenig weiterhelfen bei der Auswahl der Methode(n).
    In meiner Arbeit untersuche ich die Arbeitgeberattraktivität der Gesundheitsbranche und habe dazu über einen Online-Fragebogen die Daten erhoben. Die meisten Daten sind nominalskaliert und univariat, diese würde ich mit einfacher deskriptiver Statistik darstellen. Jedoch habe ich insgesamt 5 Fragebogenitems mit einer fünf-stufigen Likert-Skala, hier würde ich die Mittelwerte berechnen und über einen T-Test überprüfen, ob die Mittelwerte signifikant verschieden sind. Die Skalen sollen jedoch mit den Daten des Geschlechtes kombiniert werden, ist dies so möglich?
    Eine weitere Frage ist mit welcher Methode ich von meiner Stichprobe auf die Grundgesamtheit schließen kann?

    Wie sie wahrscheinlich gemerkt haben bin ich statistisch ziemlich ahnungslos, deshalb verzeihen Sie mir bitte mögliche Fehler.

    Vielen Dank schon einmal im Voraus,
    Marcel S.

    1. Hallo Marcel,

      bei mehr als zwei Einzelvergleichen würde ich Varianzanalyse gegenüber t-Test bevorzugen. Bei mehreren Tests steigt die Wahrscheinlichkeit, dass mal „zufällig“ ein signifikantes Ergebnis dabei ist. Deshalb sollte der gesamte Hypothesenkomplex auf dem gewünschten Alpha-Niveau abgesichert werden. Salopp gesagt: Ein t-Test weiß nichts von den anderen t-Tests; in der Varianzanalyse kann man mehrere Einzelvergleiche zusammenfassen.
      Geschlecht mit berücksichtigen: Kommt drauf an, wie die Hypothesen lauten. Man kann für jeweils ein Item (oder eine Skala) die Geschlechter vergleichen: t-Test für unabhängige Stichproben. Oder Geschlecht als Kontrollvariable in einem komplexeren Modell, z. B. Varianz- oder Regressionsanalyse.

      Schluss von der Stichprobe auf die Grundgesamtheit: Das ist im Grunde die Idee hinter allen Signifikanztests, also keine Frage einer ganz bestimmten Methode. Neben der Statistik gehören Überlegungen dazu, wie die Grundgesamtheit definiert ist und ob die Stichprobe diese abbildet. Sind relevante Merkmale in der Stichprobe ähnlich verteilt wie in der Grundgesamtheit? Handelt es sich um eine Zufallssstichprobe? Etc.

      Eine detaillierte Betreuung kann ich in nächster Zeit leider nicht leisten, bin mit Projekten ausgelastet.

      Viele Grüße!

      Wolf

  113. Hallo,

    ich bin momentan auf der Suche nach dem geeigneten statistischen Testverfahren, um verschiedene Bedingungen innerhalb einer Stichprobe miteinander zu vergleichen.
    Es geht um eine recht kleine Stichprobe von ca. 20 Teilnehmern, die verschiedene Objektbewegungen auf einem Computerbildschirm identifizieren sollen.
    Vergleichen möchte ich dann Unterschiede in Genauigkeit der Antworten was zum Beispiel große und kleine Distanzen oder rechts und links angeht.
    Es handelt sich immer um eine Entscheidung zwischen: Ja, es hat eine Bewegung stattgefunden und Nein, es gab keine Bewegung.

    Da ich bisher wenig Erfahrung mit statistischer Auswertung habe, würde ich mich über einige Denkanstöße bezüglich der Auswahl eines geeigneten Verfahrens sehr freuen.

    Vielen Dank!

    1. Hallo Josefine,
      die kleine Stichprobe spricht meines Erachtens für nichtparametrische Verfahren. Bei Messwiederholung und dichotomem Merkmal (wie ja/nein) passt evtl. der McNemar-Test?

      1. Guten Morgen,

        vielen Dank für die schnelle Antwort! Nachdem ich alles noch einmal überdacht habe, ist mir aufgefallen, dass die Antwortmölichkeiten zwar ja/nein sind, die Anzahl der richtigen/falschen Antworten jedoch eine ganzzahlige Zahl sein wird, die normalverteilt ist. Aus diesem Grund tendiere ich zum momentanen Zeitpunkt zum t-test für eine einzige Stichprobe ohne Messwiederholungen. Auf diesem Wege müsste ich die beiden Bedingungen, die ich jeweils gegenüberstellen möchte mit einem Erwartungswert vergleichen können. Ist das richtig, oder denken Sie, dieser Test ist ungeeignet?
        Beste Grüße,
        Josefine

        1. Guten Morgen Josefine,
          hört sich gut an, Anmerkungen:
          Werden zwei Bedingungen verglichen, für die Sie eigene Daten haben? Jeder Teilnehmer hat jede Bedingung absolviert? t-Test für abhängige Stichproben (Messwiederholung)
          Vergleich zweier Bedingungen, wobei einige Teilnehmer Bedingung A absolviert haben, einige Bedingung B: t-Test für unabhängige Stichproben
          Vergleich einer Messung (Variable, Spalte) aus ihren Daten mit einem Erwartungswert, der nicht aus ihrem Datensatz stammt: t-Test für eine Stichprobe

          Bitte beachten: Wenn Sie sehr viele t-Tests durchführen, dann steigt die Wahrscheinlichkeit, zufällig ein signifikantes Ergebnis zu erzielen – Fachbegriff Alpha-Fehler-Kumulierung. Auf der verlinkten Webseite gibt es eine Anleitung, wie man manuell das Signifikanzniveau anpassen kann: p-Wert durch Anzahl der Einzelvergleiche teilen. Um der Alpha-Fehler-Kumulierung entgegenzuwirken, gibt es bei Varianzanalysen die Post-Hoc-Tests.

  114. Hallo Herr Riepl,

    ich hoffe Sie können mir bei meiner Methodenauswahl ein wenig behilflich sein, meine Dozentin ist momentan nicht erreichbar und Ich bin nicht so fit auf diesem Gebiet, da wir es in der Hochschule nie wirklich gelernt haben.

    Ich habe schon ein wenig Vorarbeit geleistet und meine Daten per Häufigkeitsverteilung, Mittelwert, etc. genauer betrachtet. Ich habe auch schon eine Faktorenanalyse durchgeführt um zu sehen welche Variablen für die FA geeignet sind.
    Jetzt geht es darum wie ich meine Hypothesen, mit welchen Methoden auswerten kann.
    Leider ist es so dass meine Dozentin von der Hochschule zwei Tests unbedingt haben möchte.
    2 multivariate Hypothesen anhand 2 multivariate Tests prüfen – Clusteranalyse, Regressionsanalyse mit Mediator oder Moderator oder Varianzanalyse mit oder ohne Messwiederholung.

    Welche Tests kann ich für welche Hypothese verwenden und sind meine Hypothesen überhaupt geeignet für für diese multivariaten Tests?

    Zuerst zu meinen Hypothesen:

    H1: Auf den einzelnen Social Media Plattformen sind mehr weibliche, als männliche Nutzer angemeldet.
    H2: Frauen sind prinzipiell zufriedener als Männer, in Bezug auf Social Media Plattformen.
    H3: Singles sind pro Tag länger auf Social Media Plattformen unterwegs, als Personen die in einer Beziehung bzw. verheiratet sind.
    H4: Männer wünschen sich weniger Werbeanzeigen auf Social Media Plattformen, als Frauen.
    H5: Jüngere Social Media Nutzer finden Werbeanzeigen interessanter, als Nutzer die älter als 30 Jahre sind.

    Stichprobengröße: n=212
    Thema: Social Media, Werbeanzeigen

    Können Sie mir bei meinem Problem helfen?
    Vielen Dank.

    Viele Grüße
    Sabrina

    1. Hallo Sabrina,
      danke für Ihre Nachricht!
      Ihre Hypothesen kann man bivariat testen, d. h. sie setzen jeweils zwei Variablen in Beziehung. Für multivariate Tests brauchen Sie mindestens drei Variablen.
      Clusteranalysen würde ich ausschließen, wenn Sie nahe an den bisherigen Hypothesen bleiben wollen – das ist ein exploratives Verfahren, bei dem man Gruppen bildet, d. h. es gibt keine Unterscheidung in abhängige und unabhängige Variablen. Regressionsanalysen oder Varianzanalysen sind besser geeignet, um ihre Hypothesen auf multivariate Anwendung zu erweitern.
      Für Messwiederholungen bräuchten Sie passende Daten. Die Hypothesen klingen eher nach Daten, die nur zu einem bestimmten Messzeitpunkt erhoben wurden. (Man kann allerdings auch den Vergleich verschiedener Social Media-Plattformen als Messwiederholungen modellieren.)

      Beispiel für eine multivariate Hypothese:
      Unter Kontrolle des Alters sind Frauen zufriedener als Männer in Bezug auf Social Media-Plattformen.
      Diese Hypothese können Sie mit Regressions- und Varianzanalysen testen.

      Moderator: Wechselwirkung, d. h. der Effekt einer Variable auf eine andere ist unterschiedlich je nach Ausprägung des Moderators.
      Mediator: Eine Drittvariable „vermittelt“ den Zusammenhang zwischen zwei anderen Variablen.

      1. Vielen Dank Wolf, dass du mir so schnell geholfen hast. Es ist manchmal echt schwierig herauszufinden welcher Test für welche Variablen geeignet ist. Das ist glaube ich für die meisten das schwierigste.
        Viele Grüße
        Sabrina

  115. Hallo,

    ich hoffe sehr auf Ihre Hilfe mit Methodenauswahl für meine Analyse.

    Ich habe folgende Daten:
    1. Ein Wert (eine abhängige Variable) für ca. 200 Unternehmen für Jahre 2004-2015. Für jedes Jahr gibt’s Daten für ca. 200 Unternehmen.

    2. Mehrere unabhängige Variablen (über 20), die die obengenannte abhängige Variable beeinflussen. Daten gibt’s auch für den Zeitraum 2004-2015 und für ca.200 Unternehmen.

    3. Einige unabhängige Variablen, die später als 2004 eingeführt wurden und die es nicht für alle Unternehmen gibt.. Manche wurden 2008 eingeführt (dann ist der Zeitraum für diese Variablen 2008-2015), andere 2012 (2012-2015) usw.

    Nun habe ich ein paar Fragen:
    1. Wie kann man analysieren, wie groß der Einfluss von jeder der unabhängigen Variable (s.o. Punkt 2) auf die abhängige Variable für die gesamte Zahl der Unternehmen ist?

    2. Kann man Analysieren, ob die Aufnahme neuer Variablen in den Datensatz (s.o.Punkt 3) einen Einfluss auf die abhängige Variable hat? Und wenn ja, wie groß dieser Einfluss wäre?

    Ich hoffe sehr auf Ihre Antwort! Würde mich auf jede Rückmeldung freuen!

    Vielen Dank!
    MfG
    Karelia P.

    1. Guten Abend Karelia,

      ja, das geht, aber es ist sehr fortgeschritten. Stichworte: Panelanalyse, GEE-Modelle (GEE = Generalized Estimating Equations).

      Viele Grüße,

      Wolf

  116. Hallo,
    Kenne mich leider statistisch nicht so gut aus und habe folgendes Problem.

    Habe diverse Daten von Banken, die ich in drei nicht überschneidende Banken-Gruppe gegliedert habe. Die Kennzahlen sind entweder von 0-100% oder theoretisch von minus unendlich bis plus unendlich. Eine Gruppe besteht nur aus 5 Teilnehmern.

    Ich möchte jetzt einen Mittelwertvergleich durchführen um signifikante Unterschiedeuu finden. Habe eine einfaktorielle ANOVA ausprobiert mit einem posthoc Test. Bin mir aber nicht sicher ob das richtig ist.

    Was musste man anwenden wenn Normalverteilungoder varianzhomogenität nicht gegeben sind bzw kann man die ANOVA überhaupt für alle oben genannten Tests anwenden?

    Danke jetzt schon für jede Antwort!
    LG Armin

    1. Hallo Armin,
      bei diesen kleinen Fallzahlen würde ich keine Anova nehmen oder wenn es unbedingt sein soll, dann wenigstens zusätzlich nichtparametrisch absichern. Die nichtparametrische Alternative ist der Kruskal-Wallis-Test. Er arbeitet nicht mit den Originalwerten, sondern mit Rangplätzen. Streng genommen macht man damit keinen Mittelwertvergleich, sondern einen Vergleich der „zentralen Tendenz“.
      Neuere SPSS-Versionen bieten auch dafür Post-Hoc-Tests an.
      Viel Erfolg!

      1. Vielen Dank für die Antwort Wolf!

        Ich habe gelesen das Kruskal Wallis Tests Probleme bei ungleichen Varianzen habe und es wurde ein Welch Test empfohlen. Kannst du dem zustimmen und würde das bei meinen Daten sinnvoll sein?

        1. Kruskal Wallis ist meines Wissens eine Alternative, wenn die Anova aufgrund ungleicher Varianzen problematisch ist. Da Kruskal Wallis nichtparametrisch (mit Rangplätzen) arbeitet, geht es nicht um Varianzgleichheit.

          Welch ist meines Wissens eine Korrektur bei t-Tests für ungleiche Varianzen.

          Anders gesagt: Kruskal Wallis müsste noch unempfindlicher gegenüber ungleichen Varianzen sein als t-Tests mit Welch-Korrektur.

  117. Hallo,

    ich versuche aktuell herauszufinden, wie sich die Arbeitsfähigkeit von Mitarbeitern einer Firma innerhalb von fünf Jahren verändert hat und suche dazu den richtigen Test.

    Gemessen wird die Arbeitsfähigkeit mit einem Fragebogen und es liegen insgesamt fünf Messzeitpunkte mit unterschiedlicher Teilnehmeranzahl vor. Nun möchte ich genau wissen, inwieweit sich die einzelnen Messungen unterscheiden und zudem die Ergebnisse anhand von 3 vorher festgelegten Altersgruppen analysieren, also welche Altergruppe sich wie verändert hat. Leider fehlt mir dazu das statistische Fachwissen, um sicher den richtigen Test auswählen zu können und hoffe deshalb hier auf Hilfe.

    Wenn meine Beschreibung verständlich ist, würde ich mich über eine Antwort sehr freuen. Vielen Dank vorab.

    1. Hallo Sven,
      klingt nach Varianzanalyse mit Messwiederholung. Mit welcher Software willst Du das analysieren? In SPSS z. B. unter Allgemeines Lineares Modell – Messwiederholung. Within Subjects: Veränderungen innerhalb der Mitarbeiter im Zeitverlauf; Between Subjects: Unterschiede zwischen Mitarbeitern (z. B. Altersgruppen).
      Die ganze Theorie dazu und die Optionen kann man nicht so kurz beschreiben …
      Viele Grüße!
      Wolf

      1. Hallo Wolf,

        vielen Dank für die rasche Antwort. Ja, ich werte die Daten mit SPSS aus. Nun bin ich dch mit Ihrer Antwort bereits ein Stück weiter gekommen. Da werde ich jetzt ansetzen und mich weiter schlau machen, um die einzelnen Schritte zu verstehen und anwenden zu können. Vielen Dank

        Sven

  118. Hallo ich bin gerade dabei drei Hypothesen zu überprüfen, leider sind meine Kenntnisse nicht sehr gut vor allem da ich nicht weiß welche Tests ich machen soll damit ich diese überprüfen kann.

    Ich hab folgende Hypothesen: Die Sympathie ist für Frauen bei einer Bankberatung wichtig, als wie für Männer
    Zweite: Angebot des Online-Bankings verwenden mehr Frauen als Männer und die Dritte: Männer sind eher unzufrieden mit ihrer Bankberatung als Frauen

    Alle drei Hypothesen hängen mit dem Geschlecht zusammen, ich habe es schon mit dem Mittelwert probiert aber damit kann ich meine Hypothesen nicht wirklich überprüfen. Bei der dritten Hypothese zum Beispiel möchte ich ja wissen wie viele Männer bei der Zufriedenheit des Bankberaters gesagt haben das es voll zutrifft, weniger zu trifft, zu trifft und nicht zu trifft.

    Kann mir jemand dabei helfen und mir sagen mit welchen Tests ich diese drei Hypothesen überprüfen kann?

    1. Hallo Claudia,

      ich fang mal in der Mitte an, weil die zweite Hypothese anders zu testen ist: So wie ich sie verstehe, ist das eine Kreuztabelle aus Online-Banking ja/nein und Geschlecht mit 2×2 = 4 Feldern. Da passt die unten stehende Antwort auf Lisa M.

      Bei der ersten und dritten Hypothese kommt es u. a. auf die Fallzahlen und Verteilungen an. Man könnte für Sympathie und Zufriedenheit schon Mittelwerte nehmen, wenn diese beiden Merkmale annähernd normalverteilt sind (grafische Überprüfung: z. B. Histogramm mit Normalverteilungskurve oder QQ-Plot; statistischer Test: z. B. Shapiro-Wilk). Dann t-Test für unabhängige Stichproben, Geschlecht jeweils als Gruppenvariable. Bei Nicht-Normalverteilung, kleiner Fallzahl und/oder sehr ungleichen Gruppengrößen (Anzahl Frauen vs. Männer) gibt es als Alternative den nichtparametrischen Mann-Whitney-U-Test.

      1. Vielen Lieben Dank für deine schnelle Hilfe.
        Die Kreuztabelle zeigt mir sehr gut wie viele Frauen und Männer was geantwortet haben.

  119. Hey,

    ich bin völlig in ahnungslos in Sachen Statistik und muss jetzt aber mit Spss meine Fragebogendaten auswerten.

    Ich habe folgende hypothese:

    Leistungsorientierte Badmintonspieler halten die Dienst- und Serviceleistungen des DBV für wichtiger als die freizeitorientierten Badmintonvereinsspieler.

    Dazu habe ich in meinen Daten einmal die Angabe zu der Spielorientierung meiner Stichprobe (1=Freizeitorientiert 2=Leistungsorientiert) und zu den jeweilien Dienst- und Serviceleistungen hab ich jeweils die Antwortmöglichkeit (1= sehr wichtig; 2=weniger wichtig)

    Es wäre super, wenn du mir sagen könntest welcher Test der richtige ist um meine Hypothese zu überprüfen. Vielen Dank!

    1. Hallo Lisa,

      mach eine einfache Kreuztabelle. Es gibt hier ja nur 2×2 = 4 Felder. Als Test würde ich den Chi-Quadrat-Test nehmen bzw. bei kleiner Fallzahl (Warnung unter der Tabelle, wenn Zellen eine erwartete Häufigkeit < 5 aufweisen) den exakten Test nach Fisher (beides steht in der Ergebnistabelle). Fisher hat noch den Vorteil, dass ein einseitiger Signifikanzwert angegeben wird. Du hast eine gerichtete Hypothese, da Du angibst, in welche Richtung Du einen Unterschied erwartest. Dadurch kannst Du einseitig testen und wirst mit einem kleineren p-Wert "belohnt". (Im Zweifelsfall Chi-Quadrat und Fisher berichten.) Falls der Unterschied in die andere Richtung weist (freizeitorientierte Badmintonspieler halten die Serviceleistungen häufiger für sehr wichtig), ist die Hypothese unabhängig vom p-Wert widerlegt. Die Nullhypothese lautet: Die relativen (=prozentualen) Häufigkeiten der Antwortmöglichkeiten "sehr wichtig" und "weniger wichtig" hinsichtlich der Serviceleistungen sind in beiden Gruppen der Badmintonspieler gleich. Ein signifikanter p-Wert (kleiner oder gleich 0,05) bedeutet, die Unterschiede sind signifikant. Viel Erfolg! Wolf

      1. Hallo Wolf,

        ich sitze gerade an der Auswertung meiner erhobenen Parameter und weiß nicht weiter 🙁

        Ich habe eine Interventions- und Kontrollgruppe. Pro Gruppe habe ich 9 Probanden. Ich habe einen Pre- und Posttest gemacht, bei dem ich 2 Parameter gemessen habe. Die Prüfung auf Normalverteilung mit dem Shaprio-Wilk-Test hat eine Normalverteilung ergeben. Aber welchen Test nehme ich jetzt? Den T-Test für abhängige Stichproben kann ich nicht nehmen, da ich ja nicht genügend Fälle habe. Ist dann der Wilcoxon-Test der richtige? Oder doch eher eine einfache Varianzanalyse mit Messwiederholung?

        Vielen Dank für deine Antwort!

        1. Hallo Tatjana,

          bei N=18 (bzw. 9 pro Gruppe) würde ich nicht von einer Normalverteilung ausgehen (mit so wenigen Punkten kann man kaum eine Gaußsche Glockenform nachbilden). Daher halte ich nichtparametrische Tests für angemessener – in dem Fall Wilcoxon. Der t-Test für abhängige Stichproben ist ein Spezialfall der Varianzanalyse mit Messwiederholung – die beiden Verfahren müssten zum gleichen Ergebnis kommen und beruhen auf den gleichen Voraussetzungen. Wenn man den t-Test nicht will, sollte man die Varianzanalyse auch nicht nehmen.

          Manche sehen es nicht so streng, z. B. Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler: „Der t-Test reagiert robust auf Verletzungen seiner Voraussetzungen.“ Wenn Du es also ausführlicher machen willst, kannst Du t-Test und Wilcoxon-Test machen, die Ergebnisse vergleichen und diskutieren. Im Zweifelsfall würde ich hier mehr auf Wilcoxon vertrauen.

          Viel Erfolg,

          Wolf

          1. Hallo, bemerkenswerte Arbeit die hier passiert… darf man dafür auch bezahlen? Das Geld wäre es allemal wert… Ich habe nämlich auch eine Frage. In meiner Masterarbeit nutze ich 4 Fragebögen: Becks-Dep.Inventar (BDI), ASKU, WHO5 und eine Resilienzskala RS13… es geht um die Resilienzwerte in 3 verschiedenen Gruppen und Korrelatonen mit den restlichen Werten und ich bin ziemlich ratlos, mit welchen Analysen ich da dran gehen soll…
            lieben Gruß
            Susanne

          2. Hallo Susanne,
            danke für Deinen Kommentar! Leider biete ich zur Zeit keine Auswertungen an – bin voll mit R-Schulungen ausgelastet.
            Vielleicht magst Du es bei Daniela Keller (Statistik + Beratung) versuchen?
            Viele Grüße und viel Erfolg
            Wolf

Freue mich über Kommentare!

Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.