Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?

SPSS: Ausschnitt aus der Testauswahl im Menü "Analysieren"

Die Universität Zürich bietet eine empfehlenswerte Hilfestellung bei der Auswahl des geeigneten statistischen Tests bzw. der passenden multivariaten Analysemethode. In einem Entscheidungsbaum sind Unterschiedstests und Verfahren für Zusammenhangs- und Interdependenzanalysen dargestellt; farbliche Abstufungen berücksichtigen das Skalenniveau (nominalskaliert, ordinalskaliert oder intervallskaliert); zusätzlich wird auch dargestellt, ob normalverteilte Daten vorausgesetzt werden oder ob es sich um ein verteilungsfreies (nichtparametrisches) Verfahren handelt:

Entscheidungshilfe zur Auswahl des geeigneten statistischen Tests

Zusätzlich gibt es noch einen interaktiven Entscheidassistent, bei dem man mit Fragen Schritt für Schritt und Klick für Klick zur geeigneten statistischen Methode geführt wird.

Hier das Video zur Entscheidungshilfe:

Theoriegeleitetes Testen vs. exploratives Vorgehen (Strukturen entdecken)

Zunächst ist zu klären, ob bereits eine konkrete Fragestellung vorliegt oder ob ein Algorithmus Strukturen entdecken und damit weitergehende Fragen vorbereiten soll. Im letzteren Fall werden Faktorenanalysen zur Zusammenfassung von Variablen oder Clusteranalysen zur Gruppierung von Objekten / Personen vorgeschlagen.

Zusammenhangsanalysen

Im ersteren Fall (konkrete Fragestellung) muss man sich zwischen Zusammenhangsanalysen und Unterschiedsanalysen entscheiden.

Zusammenhänge von zwei Variablen können mit Korrelationen untersucht werden. Je nach Skalenniveau wird die Pearson-Korrelation (intervallskalierte Merkmale) oder die Rangkorrelation nach Spearman (ordinalskalierte Merkmale) oder der Chi-Quadrat-Test (kategoriale Merkmale) empfohlen.

Für Zusammenhänge zwischen mehr als zwei Variablen steht eine Palette an Regressionsmodellen zur Verfügung. Je nach abhängiger Variable (AV) ist die multiple lineare Regression (AV intervallskaliert) oder die logistische Regression (AV mit zwei Ausprägungen) angezeigt. Es liegen Erweiterungen der logistischen Regression für ordinalskalierte (ordinale logistische Regression) sowie für nominalskalierte Merkmale mit mehr als zwei Ausprägungen vor (multinomiale logistische Regression).

Unterschiedsanalysen: Parametrisch vs. nichtparametrisch („verteilungsfrei“)

Bei Unterschiedshypothesen ist zu klären, worauf sich die Unterschiede beziehen: Auf Mittelwerte bzw. zentrale Tendenz; auf Varianzen; auf Proportionen / Häufigkeiten. Hier weichen wir etwas vom Entscheidassistent ab: Dort taucht die Frage nach „verteilungsfrei vs. normalverteilt“ in vielen Unterpunkten auf – wir ziehen sie vor.

Parametrische Verfahren treffen Verteilungsannahmen: v. a. die berühmt-berüchtigte Normalverteilungsannahme, die in der Realität mehr oder weniger stark verletzt sein kann. Leider haben Tests auf Normalverteilung (NV) wie der Shapiro-Wilk-Test die unangenehme Eigenschaft, leichter bei größeren Stichproben signifikant zu werden – gerade dann können statistische Tests jedoch Abweichungen von der NV besser verkraften. Kleine Stichproben sind da kritischer. Deshalb sollte die NV-Annahme auch grafisch geprüft werden, z. B. mit einem Histogramm mit NV-Kurve. Es gibt einen gewissen Entscheidungsspielraum; im Zweifelsfall können parametrische Tests durch ihr nichtparametrisches Pendant ergänzt und die Ergebnisse verglichen und diskutiert werden.

Nichtparametrische Tests treffen keine Verteilungsannahmen, sie gelten als „verteilungsfrei“. In der Regel werden die Daten dazu in Rangplätze umgewandelt. Beispiel: Aus 9,90s vs. 9,91s vs. 16s für drei Athleten beim 100m-Lauf, wobei der dritte verletzt war, wird 1, 2, 3 bzw. erster, zweiter, dritter – unabhängig von den gemessenen Zeitabständen.

Abhängige vs. unabhängige Stichproben

Ein weiteres Kriterium, das sich bei mehreren Verzweigungen zeigt, ist die Frage, ob zwei (oder mehr) Stichproben (Gruppen) von einander unabhängig sind. Abhängige Stichproben werden im Entscheidassistent etwas vereinfacht definiert als die gleiche Gruppe, die mehrfach befragt wird. Oft handelt es sich in der Tat um Messwiederholungen der gleichen Probanden, z. B. Vorher-Nachher-Messungen bei Patienten vor und nach einer Behandlung. Abhängige Stichproben können jedoch auch vorliegen, wenn es sich um verschiedene Personen (Untersuchungsobjekte) handelt, z. B. bei Ehepaaren oder Zwillingen. Entscheidend ist, dass ein Element der einen Gruppe einem ganz bestimmten Element der anderen Gruppe zugeordnet ist (dem Ehepartner, Zwilling, …).

Bei unabhängigen Stichproben ist das nicht der Fall: Die „Sortierung“ innerhalb der Gruppen spielt keine Rolle, es gibt keine paarweise Zuordnung der Probanden der einen Gruppe zu jeweils ganz bestimmten Probanden der anderen Gruppe.

Unterschiedsanalysen: Mittelwerte / zentrale Tendenz

Will man Mittelwerte („parametrisch“) bzw. die zentrale Tendenz („nichtparametrisch / verteilungsfrei“) vergleichen, stehen folgende Tests zur Verfügung:

  • unabhängige Stichproben, parametrisch
    zwei Gruppen: t-Test für unabhängige Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse
  • unabhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Mann-Whitney-U-Test
    mehr als zwei Gruppen: Kruskal-Wallis-Test
  • abhängige Stichproben, parametrisch:
    zwei Gruppen: t-Test für abhängige (=verbundene) Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse mit Messwiederholung
  • abhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Wilcoxon-Test; bei nominalskalierter abhängiger Variable: Vorzeichentest
    mehr als zwei Gruppen: Friedman-Test

Unterschiedsanalysen: Varianzen

  • normalverteilt: F-Test
    Anmerkung: Eine Voraussetzung des t-Tests sind gleiche Varianzen in den Gruppen. Dazu wird in einigen Statistik-Paketen (z. B. SPSS) ein F-Test vorgeschaltet. Es gibt jedoch einen Korrekturfaktor (der sich auf die Freiheitsgrade auswirkt). In R kann man den Welch-Test durchführen, der diese Korrektur enthält.
  • verteilungsfrei: Chi-Quadrat-Test

Unterschiedsanalysen: Proportionen / Häufigkeiten

  • zwei Ausprägungen: Binomialtest
  • mehr als zwei Ausprägungen: Chi-Quadrat-Test

Zu speziellen Entscheidungsfragen siehe folgende Beiträge:

Korrelation: Pearson vs. Spearman
T-Test oder U-Test?
Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen (behandelt den Chi-Quadrat-Test)

Zum Entscheidassistent der Universität Zurich

Abschließend noch ein paar Literaturempfehlungen. Wer gern auf Englisch liest, dem sei Andy Field wärmstens empfohlen. Mit seinen abstrusen Beispielen und seinem schrägen Humor könnte Statistik (fast??) Spaß machen – ganz entgegen dem alten Studi-VZ-Motto: SPSS – Das „A“ fehlt nicht umsonst. Es gibt auch eine (spätere) Version für R.

191 Gedanken zu „Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?“

  1. Hallo Herr Riepl,

    ich bin auch gerade dabei eine Hypothese zu überprüfen und etwas ratlos.
    Ich möchte überprüfen, ob durch ein Treatment die Einstellung zu einem Verkehrsmittel bei Studierenden stärker beeinflusst wird, als bei Berufstätigen. Dafür habe ich eine Kontrollgruppe für Studierende und Berufstätige, und eine Experimentalgruppe für Studierende und Berufstätige.

    Die Daten liegen nicht normalverteilt vor, aber jeder Gruppe ist n > 30. Das soll ja im Grunde eine Mittelwertdifferenzvergleich sein. Mache ich jetzt einfach eine Varianzanalyse?

    Ich würde mich sehr über ein kurzes Feedback freuen.
    Beste Grüße,
    Simon

    1. Ich würde mir die Verteilung auch grafisch anschauen. Wenn sie deutlich nicht normalverteilt ist, hilft manchmal eine Transformation (z. B. logarithmisch). Das muss dann bei der Interpretation berücksichtigt werden (die transformierte Skala ist nicht mehr in den ursprünglichen Einheiten interpretierbar).
      Wenn die Abweichung von einer NV nicht so groß ist, kann man bei n > 30 in der Regel damit leben. Dokumentieren und diskutieren würde ich es auf jeden Fall; stillschweigend ignorieren ist keine gute Praxis. In vielen Studien sind nicht alle Testvoraussetzungen erfüllt – es zeugt von Sachkenntnis, wenn man sich dessen bewusst ist und das transparent macht. Auch eine (zusätzliche) nichtparametrische Alternative kann sinnvoll sein. Ggf. beides machen und vergleichen.

  2. Hallo Wolf,

    toller Beitrag, insbesondere der Hinweis auf den Entscheideassistenten.
    Leider geht es mir wie den anderen Kommentierenden und ich habe dennoch eine Frage.

    In meiner Masterarbeit möchte ich die Anforderungsunterschiede von Bewerbern aus 2 Nationen an den Bewerbungsprozess untersuchen/vergleichen. Also z. B.
    1. Nation A erwartet früher eine Rückmeldung vom Unternehmen als Nation B
    2. Nation B erwarten zu einem größeren Anteil ein Feedback zu einer Absage als Nation A.
    Dafür möchte ich in einem Fragebogen erstellen, bei dem z. B. bei Frage 1 die konkrete Dauer in Wochen erfragt wird und bei Frage 2 die Wichtigkeit (1 = ist mir sehr wichtig, 2 ist mir wichtig,…)

    Welche Methode oder Tests sind in diesem Fall empfehlenswert?

    Viele Grüße

    1. Hallo Lisa,
      die einfachste Variante wären wohl t-Tests. Wenn Du weitere Variablen berücksichtigen willst, kannst Du mit Regressionsanalysen / Varianzanalysen arbeiten. Es kommt natürlich auch auf Fallzahlen und Verteilungen an.
      Viel Erfolg!
      Wolf

  3. Hallo Wolf,

    ich habe ein 2 (hohe Expertise vs. geringe Expertise) x 2 (hohe Vetrauenswürdigkeit vs. niedrige Vertrauenswürdigkeit).
    Meine unabhängigen Variablen sind Expertise und Vertrauenswürdigkeit und zusätzlich Attraktivität (dafür habe ich keinen Stimulus gesetzt)

    meine abhänige Variable ist nun Einstellung und Kaufabsicht.

    Meine Fragen sind:
    Geht das innerhalb eines Experiments überhaupt, dass ich drei uv abfrage, aber nur zwei manipuliere?
    Weiterhin weiß ich nicht genau wie ich jetzt weiter vorgehen soll. Für die Stimuli hätte ich eine Varianzanalyse vorgeschlagen, aber wie berechne ich die Weikung der Attraktivität auf die aV? Mittels einer Regressionsanalyse.

    Vielen Dank im Voraus

    1. Hallo Lisa,
      bei vielen Fragestellungen kann man gar keine UV manipulieren. Ist also ein Bonus, wenn einige UVs manipuliert werden können.
      Regression und Varianzanalyse sind sehr eng verwandt (beide lassen sich auf das Allgemeine bzw. Verallgemeinerte Lineare Modell zurückführen) – ich denke mit beiden kann man hier arbeiten, je nach Vorlieben / nach dem, was in Deinem Fachbereich üblich ist.

      1. Vielen Dank für deine Antwort. Wäre folgenden Vorgehen dann richtig:

        1. univariate Varianzanalyse: uV Kompetenz (mit Gruppe hohe vs niedrige kompetenz), aV: Kaufabsicht
        2. univariate Varianzanalyse: uV Vertrauenswürdigkeit (mit Gruppe hoher vs niedriger Vertrauenswürdigkeit), aV: Kaufabsicht
        3. univariate Varianzanalyse: uV Attraktivität (keine Gruppen, da nicht manipuliert), aV: Kaufabsicht

        Oder sollte man hier eine Kovarianzanalyse wählen, um die Effekte der Attraktivität zu untersuchen?

        1. Hallo Lisa,
          ich glaube nicht, dass es hier ein einfaches richtig oder falsch gibt. Es gibt sicher mehrere Möglichkeiten. Ein (zusätzliches) gemeinsames Modell mit mehreren UVs kann interessant sein, um Wechselwirkungen zwischen den UVs zu erkennen (z. B. sind Effekte unabhängig von einander signifikant, oder überschneiden sie sich, sodass vielleicht eine UV im gemeinsamen Modell nicht mehr sig. ist?). Ich war eher Fan von Regressionsanalysen, die ich etwas klarer zu interpretieren fand. Das ist Geschmackssache, Varianz- und Regressionsanalyse lassen sich auf das gleiche Modell zurückführen (Allgemeines bzw. Verallgemeinertes Lineares Modell).
          Es kommt auf Deine Fragestellung an und wie tief Du einsteigen willst. Manchmal reicht auch die einfachere Variante.

  4. Hallo Wolf,

    vielen Dank für deinen hilfreichen Blog:) Ich habe mir alle Beiträge durchgelesen, aber leider nicht die passende Antwort auf meine Fragestellung gefunden, daher wäre ich für eine Antwort sehr dankbar:)

    Und zwar habe ich eine Kontrollegruppe und eine Szenariogruppe. In beiden Gruppen haben die Teilnehmer die freie Entscheidung, ob sie einen CO2-Ausgleich zahlen möchten oder nicht (Ja/Nein Frage) (Also habe ich quasi vier Gruppen: 1. Kontrollgruppe mit Teilnehmern, welche den CO2-Ausgleich nicht zahlen wollen, 2. Kontrollgruppe mit Teilnehmern, welche den CO2-Ausgleich zahlen wollen,3. Szenariogruppe mit Teilnehmern, welche den CO2-Ausgleich nicht zahlen wollen, 4. Szenariogruppe mit Teilnehmern, welche den CO2-Ausgleich zahlen wollen). Diese bewerten alle auf einer 7-likert Skala deren Umweltverhalten. Nun würde ich gerne den Unterschied von den Teilnehmern der Szenariogruppe, welche den CO2-Ausgleich zahlen (Gruppe 4) zu den Teilnehmern der Kontrollgruppe, welche nicht den CO2-Ausgleich zahlen wollen (Gruppe 1) auf deren Umweltverhalten untersuchen. Neben dem Gesamteffekt, würde ich aber natürlich auch gerne sehen worauf das mögliche Ergebnis zurückzuführen ist. Also ob es nur aufgrund der Zahlung des CO2-Ausgleiches oder auch auf das Szenario zurückzuführen ist.

    Meine Überlegung war für den Gesamteffekt einen t-Test zu machen und für die Untersuchung der Effekte eine mehrfaktorielle Varianzanalyse durchzuführen. Bin mir aber sehr sehr unsicher…

    Schon einmal vielen Dank für deine Mühe und liebe Grüße
    Alexander

    1. Hallo Alexander,
      die Methodenwahl hängt auch von Fallzahlen und Verteilungen (Umweltverhalten) ab. Wenn es nur ein Item der Likert-Skala ist oder das Umweltverhalten deutlich nicht normalverteilt ist, kann man auch nichtparametrische Verfahren nehmen (z. B. U-Test).
      Für die Gruppenvergleiche wäre der Kruskal-Wallis-Test eine nichtparametrische Alternative.

      1. Danke dir Wolf für die schnelle Antwort. Also insgesamt habe ich knapp 400 Teilnehmer, pro Gruppe dann mindestens 70-80 Teilnehmer. Das Umweltverhalten besteht aus mindestens 3 Items und ist normalverteilt.

        Müsste ich dann trotzdem nichtparametrische Verfahren anwenden, oder ginge es mit der merfaktiorellen Varianzanalyse?

        Vielen Dank dir:)

        1. Das klingt nach einer sehr soliden Basis. Das Schöne ist, dass Abweichungen von Annahmen wie z. B. Normalverteilung bei größeren Fallzahlen (wie Deinen) leichter zu verschmerzen sind. Würde sagen: Grünes Licht für Varianzanalysen.

  5. Hallo Wolf,

    ich schreibe gerade an meiner Masterarbeit und die Auswahl der Statistik stellt mich vor ein kleines Problem.

    Zu meinem Datensatz ist zu sagen es handelt sich um Augenbewegungsdaten (Fixationen) von 15 Versuchspersonen, die innerhalb von 40 Trials mit verschiedenen Bedingungen aufgenommen wurden.

    Als abhängige Variablen habe ich die Dauer sowie die Position für jede Fixation (n> 680000 mit großen Variationen in der Anzahl der Fixationen pro Trial). Weiterhin habe ich für jede Fixation 5 unabhängige Variablen (die Bedingungen), welche jeweils eine von 2 möglichen Ausprägungen haben kann (z.B. Seite (Links oder Rechts), Verzögerung (kurz oder lang), Komplexität (leicht oder schwer), Fixationstyp (a oder b) und Block (1 oder 2)).

    Ensprechend meines Versuchsdesigns, muss es eine Statistik mit Messwiederholung bzw. abhängigen Stichproben sein.

    Teilweise sind die Daten jedoch nicht normalverteilt (was bei 15 Datenpunkten nicht verwunderlich ist) weswegen ich erstmals an eine nichtparametrische Alternative (eg. den Wilxocon Rangsummen Test) gedacht habe, jedoch sind die Interaktionen zwischen den unabhängigen Variablen sehr wichtig, was eher für eine Mehrfaktorielle ANOVA mit Messwiederholung spricht. Da es aber nur zwei Ausprägungen pro unabhängige Variable gibt, bin ich etwas verunsichert was der beste Ansatz ist.

    Gibt in diesem Fall es eine geeignetere Alternative als eine Fünffaktorielle Anova mit Messwiederholung?

    Vielen Dank für die Hilfe und viele Grüße
    Linda

    1. Hallo Linda,
      für parametrische Verfahren ist die Anzahl der Versuchspersonen schon recht gering, besonders für eine mehrfaktorielle Anova. Ich würde die Daten ausführlich deskriptiv auswerten, Verläufe visualisieren und die unterschiedlichen Bedingungen mit separaten Linien für die Verläufe darstellen. Evtl. separate Wilcoxon-Tests für Bedingungen. Ob es was Besseres gibt, weiß ich nicht … (Bin auch grade im Urlaub)

  6. Hallo Wolf,

    erstmal vielen lieben Dank für die super Website!

    Ich sitze gerade an der Datenauswertung für meine Bachelorarbeit.
    Ich habe eine Stichprobe mit 2.044 Probanden. Ich möchte den Einfluss des Wohnortes auf die Umwelteinstellungen, und ob es dort Unterschiede zwischen Stadt und Land gibt, testen. Dafür habe ich eine Frage aus einem Fragebogen genommen, bei der die Probanden bestimmten Aussagen zu dem Thema zustimmen oder nicht zustimmen sollten. Die Skala lautet 1=Trifft überhaupt nicht zu, 2=Trifft eher nicht zu, 3=Trifft eher zu und 4=Trifft voll und ganz zu. Diese Aussagen habe ich zu einem Index aufsummiert. Also zeigt ein höherer Wert eine höhere Einstellung zur Umwelt an. Die Variable Wohnort ist mit 0=Land und 1=Stadt kodiert.

    Welchen statistischen Test sollte ich am besten dafür verwenden?

    1. Da gibt es mehrere Möglichkeiten. Einfachste Variante wird wohl der t-Test sein. Dabei nehmen wir an, die Skala sei metrisch, was man diskutieren kann. Als Index (aus mehreren Fragen zusammengesetzt) ist sie zumindest feiner abgestuft als die ursprüngliche 4er-Skala. Außerdem nimmt der t-Test an, die Daten seien normalverteilt.
      Bei der großen Fallzahl wird der Test sehr wahrscheinlich signifikant ausfallen. Da ist wohl auch eine Berücksichtigung der Effektstärken sinnvoll, bzw. eine inhaltliche Interpretation, ob die Unterschiede auch praktisch bedeutsam sind (das ist bei Signifikanz nicht automatisch der Fall!).
      Es gibt auch fortgeschrittenere Verfahren, z. B. Regressionsanalyse mit Wohnort als unabhängiger Variable und ggf. weiteren Kontrollvariablen.

  7. Hallo Wolf,

    ich bin noch gar nicht bei der Auswertung, wie die meisten hier, sondern noch ganz am Anfang, würde mich aber über deine Meinung freuen.

    Meine Untersuchung sollte die zugrunde liegenden Mechanismen, durch die Influencer die Kaufabsicht im Bereich Food beeinflussen herausstellen. eigentlich dachte ich, dass ich meine Hypothesen (siehe unten) mit einer einfachen Online Umfrage untersuchen könnte, indem ich Attraktivität, Expertise und Vertrauenswürdigkeit einfach abfrage. Aber eigentlich muss ich mich ja auf einen speziellen Instagram-Beitrag (indem man einen Food-Influencer sieht) beziehen. Wäre das schon ein Stimulus im Sinne eines Experimentes?

    Macht es Sinn einen Instagrambeitrag zu zeigen und Skalen abzufragen und die Attraktivität, Expertise, Vertrauenswürdigkeit dann durch eine Regressionsananalyse auf die Kaufabsicht zu beziehen oder würde ein Experiment mehr Sinn machen, indem ich Expertise, Vertrauenswürdigkeit und Attraktivität als Stimuli nutze und immer wieder verändere?

    Hypothesen: Postive Beziehung zwischen (a) Expertise, (b) Vertrauenswürdigkeit (b) Attraktivität udn Kaufabsicht

    Ich weiß, dass die Fragen sehr spezifisch sind, würde mich aber über Austausch und Ideen freuen.

  8. Hallo Wolf,

    sitze gerade an der Auswertung meiner Daten für die Masterarbeit. Trotz Stöbern durch den Blog und anderen Seiten habe ich ein paar Fragezeichen, und würde mich gerne rückversichern, denn es wird für mich immer komplizierter:

    Ich habe folgende Daten vorliegen: n=30 wobei oftmals mehrere Angaben fehlen, so komme ich im Schnitt auf n=20 gültige Werte pro Gesamtskala oder Subskala. Vorgesehen ist, dass ich alle Datensätze drin lasse, dies auch begründen kann.
    So zum Aufbau:
    3 Fragebögen die jeweils zu Subskalen und Gesamtskalen zusammengefasst sind. Es gab drei Erhebungszeitpunkte (t1, t2, t3). Jeder Fragebogen misst ein anderes Merkmal, demnach habe ich 3 Merkmale. Stichprobe waren die gleichen VPN.

    Ich hänge daran, ob ich parametrische oder nonparametrische Test machen soll, da n insgesamt relativ gering ist und sich pro Subskala und Gesamtskala auch immer leicht unterscheidet (mal 20 , mal 22 gültige Werte).
    Soll ich direkt mit non-parametrische Verfahren arbeiten, oder pro Hypothese entscheiden?

    Folgende Hypothese habe ich:
    1. Veränderung eines Merkmal über die Zeit testen. (ANOVA mit Messwdh)

    2. Merkmal 2 steht im Zusammenhang mit Merkmal 3 (Korrelation berechnen)

    3. Je höher Merkmal 1 desto höher Merkmal 2 (Pearson-Korrelation berechnen)

    4.Unterschiede bezogen auf Merkmal 3 zwischen Probandengruppe 1 mit Probandengruppe 2 (Gepaarter t-Test bzw. Wilcoxon)

    5. Merkmal 3 (UV) zeigt einen Zusammenhang zu Merkmal 4 (AV) zum Zeitpunkt t1 (t2, t3) (Pearson Korrelation) jeweils einzeln für die Zeitpunkte ermitteln, oder geht das in einem?

    Herzlichen Dank für deine Antwort.

    Herzlichen Dank.
    Nicole

    1. Hallo Nicole,
      bei n < 30 empfehle ich eher nonparametrische Tests. Statistische Tests auf Normalverteilung schlagen evtl. bei kleinen Fallzahlen nicht an. Du kannst es natürlich ausführlich machen (z. B. Normalverteilungstests, parametrische und nonparametrische Verfahren, Ergebnisse vergleichen und diskutieren). Die einfachere Variante wäre, mit den Fallzahlen zu argumentieren - mit nonparametrischen Verfahren bist Du eher auf der sicheren Seite, was die Voraussetzungen betrifft.

  9. Hallo Wolf,
    danke für Ihren tollen Blog! Ich plane zur Zeit eine Studie zum Thema Behandlung von sozialer Phobie und möchte darin 2 Interventionen miteinander vergleichen (den beiden Interventionsbedingungen sollen jeweils 192 Personen zugeteilt werden). Dafür werden prä-, post- und im follow-up die Daten von 3 Angstfragebögen erhoben – es gibt also drei Messzeitpunkte, die Testergebnisse der 3 Fragebögen als abhängige Variable (handelt es sich um eine abhängige Variable = Angst, oder um drei AVs, weil ich drei Tests habe?) und die Interventionszugehörigkeit als unabhängige Variable, richtig?
    Ich frage mich nun, ob ich besser eine MANOVA oder eine lineare Regression als statistisches Analyseinstrument wählen soll.
    Vielen vielen Dank im Voraus!!!

    1. Hallo Juliana,
      ich denke Anova mit Messwiederholungen (repeated measures Anova). Manova ist wohl eher für mehr als eine abhängige Variable. Hier ist es ja die gleiche AV zu mehreren Zeitpunkten.
      Anovas und lineare Modelle beruhen auf den gleichen Grundlagen, es sind also keine fundamental unterschiedlichen Konzepte. Anovas mit Messwiederholungen lassen sich auch als „linear mixed models“ ausdrücken. Letztere sind flexibler als Anovas, d. h. man muss sich mit mehr Optionen auseinandersetzen.

  10. Hallo Wolf,

    ich bin gerade bei der Auswertung meiner Masterarbeit und bin dabei auf deine hilfreiche Seite gestoßen!

    Nun hätte ich jedoch noch eine kleine Frage, bei der ich nicht weiterkomme. In meinen Fragebogen habe ich einen Manipulationscheck eingebaut, der nominal skaliert ist. Die Probanden erhielten Bedingungen z.B. Label auf dem Produkt vs. kein Label auf dem Produkt und wurden dann gefragt, ob sie ein Label gesehen haben (Antwortmöglichkeiten: ja, nein). Um ihn auszuwerten würde ich nun eine Kreuztabelle erstellen und Chi² heranziehen. Ist das die richtige Herangehensweise oder hilft Chi² hier nicht weiter?

    Vielen lieben Dank für deine Hilfe!

  11. Hallo Wolf,

    Ich habe folgende Hypothese : Männer haben einen höhern Blutdruck als Frauen.
    Gegeben sind systolische und diastolische Blutdruckwerte von Frauen (68) und Männern (45)
    Da ich nun nominale und metrische Variablen habe und ich spezifisch wissen möchte ob Männer einen höheren Blutdruck haben, bin ich mir bei der Testwahl gerade recht unsicher.
    Wäre super wenn du mir weiterhelfen könntest.

    Liebe Grüße

    1. Einfachste Variante: t-Test für unabhängige Stichproben. Wenn Du es genauer machen willst: Verteilung der Blutdruckwerte testen; falls nicht normalverteilt: Mann-Whitney-U-Test. Bei den Fallzahlen sollte der t-Test allerdings ok sein.
      Fortgeschrittenere Methoden: z. B. Regressionsanalyse (oder Varianzanalyse), Blutdruck als abhängige Variable, Geschlecht als unabhängige Variable (am besten 0/1-codiert, z. B. Variable „weiblich“, 0=männlich, 1=weiblich). Dann kannst Du noch Kontrollvariablen aufnehmen, z. B. das Alter. (Wenn Frauen und Männer unterschiedlich alt sind, könnte das Alter den Geschlechtsunterschied beeinflussen.)

  12. Hallo,

    danke für die Erklärungen, ich habe trotzdem nochmal eine Nachfrage zu einem konkreten Sachverhalt: ist ein einzelnes Item vom Likert-Typ als Prädiktor in einer linearen Regression vertretbar? Diese haben ja streng genommen kein intervallskalennievau.

    Danke und liebe Grüße

    1. Hallo Paula,
      das ist ein weit verbreitetes Thema … Es wird jedenfalls sehr häufig gemacht. Ich denke es geht auch darum, wie man mit den Ergebnissen umgeht. Ich würde mich in der Interpretation nicht so sehr auf Dezimalstellen der Regressionsformel versteifen, sondern eher auf Wirkungsrichtungen und Signifikanzen achten / Hypothesen testen. Zusätzlich könnte man in einem Abschnitt „(Kritische) Diskussion der verwendeten Methoden“ auf solche Punkte (Skalenniveaus, Modellannahmen) eingehen.

  13. Hallo, super Blog mit sehr verständlichen Erklärungen!! Leider habe ich trotzdem noch eine Frage zur Methodikauswahl:
    Ich möchte die Mittelwerte zweier Gruppen vergleichen. Messung 1 und 2 finden jeweils am gleichen Patienten statt, jedoch mit 2 unterschiedlichen Methoden. Hinzu kommt noch, dass sie zu unterschiedlichen Zeitpunkten statt finden. Bei manchen Patienten liegt 1 Jahr dazwischen, bei anderen sogar 3 Jahre. Kann ich die Werte trotzdem mit einem T-Test untersuchen? Und falls ja, würde ich den Test für verbundene Stichproben verwenden?
    Vielen Dank für die Hilfe im Voraus!

  14. Hallo Wolf,

    erstmal vorweg, ein richtig guter Blog! Er hat mir schon eeiniges verständliche gemacht.

    und jetzt zu meiner Frage. Und zwar möchte ich untersuchen ob sich je nach Altersgruppe (kategoriale UV, 4 Gruppen) Unterschiede im Problemattributionsstil bei Straftätern ergeben. Der Problemattributionsstil ist meine kategoriale Av mit 5 Ausprägungsmöglichkeiten. Das heißt ich muss einen Chi Quadrat Test anwenden. Ich möchte aber eigentlich auch für verschiedene andere Variablen kontrollieren, z.B Haftdauer, Therapieerfahrung etc. In einer ANCOVA wäre das ja kein Problem, da meine AV aber kategorial ist, kann ich keine ANCOVA rechnen. Gibt es irgendeine andere Möglichkeit für Drittvariablen (metrisch und kategorial) zu kontrollieren, wenn ich den Chi Quadrat Test rechne, oder eine andere Analyse in der ich für Drittvariablen kontrollieren könnte?
    Achso, ich arbeite mit SPSS übrigens.

    Liebe Grüße
    Lina

    1. Hallo Lina,
      da gibt es das multinomiale Logitmodell. Es ist eine Erweiterung der binär-logistischen Regression auf mehr als zwei Kategorien der AV. Ist allerdings nicht ganz einfach zu handhaben und zu interpretieren …
      Einfachere Varianten (etwas weniger elegant, aber besser anwendbar) wären separate Chi-Quadrat-Tests z. B. jeweils innerhalb von Kategorien der Kontrollvariablen. Bei den metrischen Kontrollvariablen müsstest Du dazu auch Gruppen einteilen.

      1. danke für die schnelle Antwort! Mit dem multinomialen Modell habe ich mich bis grade beschäftigt und mir raucht ganz schön der Kopf. Deshalb vielleicht eine etwas dumme Frage zu den separaten Chi-Quadrat Tests für die Kontrollvariablen, die Kategorien dieser vergleiche ich dann mit meiner AV oder UV?

        Viele Grüße
        Lina

        1. Hallo Lina,
          separate Chi-Quadrat Tests für die Kontrollvariablen: Gemeint ist, die Daten zu filtern nach jeweils einer Kategorie einer Kontrollvariable (bei metrischen vorher Wertebereiche zu einer Kategorie zusammenfassen). Dann den immer gleichen Chi-Quadrat-Test wie ohne Kontrollvariable rechnen: also Altersgruppe und Problemattributionsstil. Dann kannst Du am Ende mehrere Chi-Quadrat-Tests vergleichen und sehen, ob Du je nach Untergruppe (Teildatensatz) unterschiedliche Ergebnisse erhältst.

  15. Hallo,
    ich habe auch eine Frage. Wir wollen einen Algorithmus evaluieren und haben dazu unsere Stichprobe jeweils zwei Durchläufe mit dem Algorithmus machen lassen und zwei Durchläufe über eine ander Methode. Also eine Person hat zweimal den Algorithmus und zweimal die Alternative durchlaufen. Die Hypothese ist nun, dass der Algorithmus als nützlicher empfunden wird, als die Alternative. Ich wollte einen t-Test für abhängige Stichproben machen, hab aber nun wegen einer kleinen Stichprobe gedacht, dass ein Vorzeichen Test besser wäre. Meine Anleiterin ist noch nicht ganz zufrieden 🙂
    Ich habe im Moment leider keine bessere Idee und versuche hier mein Glück.
    Viele Grüße und danke

    1. Hallo Sonja,
      eine andere Alternative zum t-Test für abhängige Stichproben ist der Wilcoxon-Test. Er trifft ebenfalls keine Verteilungsannahmen (wie der Vorzeichen-Test), nutzt aber mehr Infos in den Daten.

  16. Vielen Dank für Ihren hilfreichen Blog!
    Ich habe eine Frage zur Verfahrensauswahl: Wenn ich eine dreistufige UV habe (verschiedene affektive Framings von Fehlinformationen) und ich habe die Hypothese, dass sich die drei Gruppen stärker hinsichtlich der einen metrischen AV (Erinnerungsleistung) unterscheiden als hinsichtlich einer anderen metrischen AV (Schlussfolgerungsleistung), wende ich dann eine MANOVA an? Es geht mir dabei nicht um die Kombination oder Beziehung der beiden AVs, sondern darum, dass die Schlussfolgerungsleistung bei Fehlinformationen generell stärker beeinträchtigt ist, sodass sich die Gruppenunterschiede nicht so stark niederschlagen sollten im Vergleich Erinnerungsleistung. Oder sollte ich dann lieber zwei ANOVAS machen (eine pro AV) und die Effekte vergleichen?
    Über Ihre Einschätzung hierzu würde ich mih sehr freuen!
    LG Marielle

    1. Hallo Marielle,
      ich würde es so einfach halten wie möglich (wenigstens solange nicht ein anderes Verfahren explizit gefordert wird). D. h. zunächst die Unterschiede rein deskriptiv beschreiben und dann pro AV eine Anova. Mit Grafiken ergänzen.

  17. Hallo Wolf,

    ich möchte untersuchen inwieweit mütterliche Mentalisierungen (Gesamtscore liegt metrisch vor, je höher, desto mehr Mentalisierungen wurden in einem Interview gezählt) einen Einfluss auf kindliche Empathie haben. Für Empathie habe ich keinen Gesamtscore, lediglich drei Variablen (Besorgnis, prosoziales Verhalten, Self-Distress) die ordinal vorliegen. Beispielsweise wird also kodiert, wie viel Besorgnis die Kinder in Reaktion auf eine simulierte Verletzung der Mutter zeigen 0=keine 1=etwas 2=moderat 3=hoch (selbiges für die anderen beiden Variablen).

    Ich habe also einen Prädiktor und drei Abhängige Variablen, wobei ich ja für jede AV eine eigene ordinale Regression machen muss.
    Ich bin nun nicht sicher, ob ich hier ordinale Regressionen überhaupt angebracht sind, oder ich einfach nur alles korrelieren soll (um metrische und ordinale Variablen miteinander zu korrelieren nehme ich Spearman, richtig?).

    Meine Hypothesen lauten: je höher der Mentalisierungsscore, desto mehr Besorgnis zeigen die Kinder. Je höher der Mentalisierungsscore, desto weniger Distress zeigen die Kinder und je höher der Mentalisierungscore, desto mehr prosoziales Verhalten zeigen die Kinder.

    Gelten für ordinale Regressionen (nichts logistisches weil nur ein Prädiktor) dieselben Voraussetzungen wie für lineare Modelle? Oder macht das keinen Sinn? Es gibt keine Optionen zur ordinalen Regression in SPSS um die Modellbedingungen zu prüfen wie z.B. Durbin-Watson für Residuen etc. Erübrigt sich das? Was hat es mit Logits auf sich? Ich finde nicht das Odds hier Sinn machen, aber anders scheint mir der Spss-Output irgendwie nicht nutzbar.

    Gibt es weitere Schritte die ich im Anschluss an die ordinale Regression beachten / ausführen muss?

    Liebe Grüße und vielen Dank für deinen Input,
    Clara

    1. Hallo Clara,
      ordinale (=ordinal-logistische) Regressionsmodelle sind von der Interpretation her deutlich anspruchsvoller als lineare Modelle. Es gelten nicht dieselben Voraussetzungen, sie sind binär-logistischen Modellen viel ähnlicher als linearen Modellen. Es sind Erweiterungen der binär-logistischen Modelle. Wenn Du da nicht wirklich tief einsteigen willst, würde ich von diesen Modellen abraten. Es gibt z. B. eine „proportional odds assumption“, mit der man sich beschäftigen sollte.

      Regressionsmodelle ganz allgemein (damit schließe ich hier lineare, binär-logistische, ordinal-logistische, multinomiale, … ein) haben ihre Stärken vor allem da, wo man zusätzliche Variablen neben dem Prädiktor zur Kontrolle aufnehmen will. Wenn es bei einem Prädiktor bleibt, sind auch Korrelationen (hier würde ich auch Spearman nehmen) gut geeignet.

      Eine Alternative wäre, die abhängigen Variablen mit ihren immerhin 4 Stufen als „quasi-metrisch“ zu betrachten. Das ist eine pragmatische Entscheidung, die man diskutieren kann – streng genommen ist das Skalenniveau ordinal, aber es wird häufig in sozialwissenschaftlichen Arbeiten so vorgegangen. Wenn man das explizit diskutiert und Problembewusstsein zeigt, kann das vertretbar sein. (Wenn möglich, mit dem Betreuer abstimmen …) Dann kann man lineare Modelle verwenden. Man kann auch die Ergebnisse solcher Modelle mit den Korrelationen (Spearman) vergleichen. Wenn sie zu den gleichen Schlussfolgerungen führen, dann spielt die Verletzung der Annahme über das metrische Skalenniveau offenbar keine große Rolle. In diesem Fall würde ich vor allem Wirkungsrichtungen und Signifikanzen interpretieren und die genauen Koeffizienten / Modellformeln in der Interpretation nicht über-strapazieren.

  18. Grüße, ich würde gern mithilfe des Chi-Quadrat-Tests überprüfen, ob es ein Zusammenhang zwischen dem Geschlecht und der Beantwortung der Fragen aus einem Fragebogen gibt. Die Fragen sind über die Einstellung zur Rollenverteilung von Frau und Mann. Herausfinden möchte ich im Großen und Ganzen, ob Männer anders antworten als Frauen, sprich ein anderes Verhalten an den Tag legen. Meine Hypothesen lauten:

    H0: Es kann keine Verhaltensänderung bei Männern festgestellt werden.
    H1: Es kann eine Verhaltensänderung bei Männern festgestellt werden.

    Chi-Quadrat nach Pearson errechnet eine asymptotische Signifikanz von ,000. Dementsprechend gilt es H0 abzulehnen und H1 anzunehmen. Ist das richtig?

    1. Hallo Franz,
      wie sind die Fragen über die Einstellung zur Rollenverteilung codiert? Der Chi-Quadrat-Test interpretiert die Daten nominal, d. h. er unterscheidet Kategorien, ohne eine Rangfolge anzunehmen oder zu berücksichtigen. Einstellungen werden häufig auf Ordinalskalen gemessen (z. B. Zustimmung von gar nicht bis voll und ganz, oder ähnlich). Dann sind Tests besser geeignet, die die Rangfolge einbeziehen. Um zwei Gruppen (Geschlechter) zu vergleichen, kann man dann z. B. den Mann-Whitney-U-Test verwenden. Wenn die Skalen einigermaßen normalverteilt sind und die Stichprobe nicht zu klein ist (manche Autoren empfehlen n > 30), wird häufig auch der t-Test für unabhängige Stichproben herangezogen.

  19. Hallo Wolf,
    da ich nach einem Erfahrungsaustausch mit einem Kollegen jetzt unsicher in der Wahl des statistischen Verfahrens für meine Arbeit bin, hoffe ich hier eine Antwort auf meine vermeintlich einfache Frage zu erhalten. Ich würde gerne schauen, ob eine spezifische Übungseinheit Auswirkung auf den Heilungsverlauf hat. Dafür wurden zwei Gruppen (jeweils N=28) im Heilungsverlauf mittels Prä- und Posttest betrachtet. Einerseits interessiert mich die Entwicklung innerhalb der einzelnen Gruppen und andererseits ob ein Unterschied zwischen den Gruppen zum Zeitpunkt des Posttest besteht.
    Zusätzlich habe ich eine weitere Gruppe (ebenfalls N=28) ohne gesundheitliche Einschränkungen, welche ich als „Normwert-Vergleich-Gruppe“ abschließend betrachten möchte. Diese Gruppe führte die Testung einmalig durch.
    Vielen Dank im Voraus.

    1. Hallo Jury,
      innerhalb der Gruppen Prä vs. Post: abhängige Stichproben; zwischen den Gruppen zum Zeitpunkt Post: unabhängige Stichproben. Für beides gibt es Varianten des t-Tests. Empfehlung: Verteilungen prüfen, evtl. alternativ oder zusätzlich Wilcoxon-Test (abhängig) bzw. U-Test (unabhängige Stichproben).
      Gruppe 1 vs. 2 vs. Vergleichsgruppe: z. B. Varianzanalyse (Anova) zum Zeitpunkt Post. Regression wäre auch möglich.

      1. Hallo Wolf,
        vielen Dank für Deine schnelle Rückmeldung. Mit Deiner Antwort hast Du mich bei meiner Entscheidung der gewählten Verfahren wieder „sattelfest“ gemacht.
        Eine abschließende Frage hätte ich allerdings noch. Würdest Du es als sinnvoll erachten im Anschluss an die Varianzanalyse zur Einschätzung der Bedeutsamkeit die Effektstärke nach Cohen aufzulisten?

        1. Ja, Effektstärken sind eine sinnvolle Interpretationshilfe. Im Gegensatz zu Signifikanzaussagen sind sie von der Fallzahl unabhängig.

  20. Hallo Wolf,

    erstmal vielen Dank für diese tolle Zusammenfassung. Sie hat mir jetzt schon sehr geholfen.
    Leider bin ich immer noch ein bisschen verloren, was es jetzt den richtigen Weg zur Auswertung meines kleines Experiments ist. Vielleicht kannst du mir ja weiter helfen:

    Es geht um die Auswirkungen eines Achtsamkeitstrainings auf Burnout. Ich habe Zusammenhangshypothesen (z.B. Achtsamkeitstraining erhöht den Grad der Achtsamkeit; Je höher Achtsamkeit, desto geringer emotionale Erschöpfung (Dimension von Burnout)).
    Es wurde zu t0 gemessen, dann zwei-wöchige Intervention, dann t1 wieder gemessen. Ich habe eine abhängige Stichprobe und (leider) keine Kontrollgruppe. Achtsamkeit wurde mit dem MAAS gemessen (Likert-Skala) und Burnout mit Maslach-Burnout-Inventory (auch Likert-Skala).

    Ich habe verstanden, dass ich hier mit Korrelationen arbeiten muss, aber wie genau das gesamte Vorgehen des Auswertung aussieht, ist mir immer noch schleierhaft.

    LG und keep up the good work 🙂

    Max

    1. Hallo Max,
      ich verstehe es aus Deiner Beschreibung so: Mit Korrelationen kannst Du v. a. Zusammenhänge _zum gleichen Zeitpunkt_ betrachten (man könnte auch sagen „Quervergleich“). Also etwa Achtsamkeit und emotionale Erschöpfung zu t0 und dann, als separate Analyse, auch zu t1.
      Die Unterschiede _zwischen Vorher und Nachher_ („Längs-Vergleich“) kannst Du z. B. mit dem t-Test für abhängige Stichproben untersuchen. Hat sich Achtsamkeit von t0 zu t1 signifikant verändert? Hat sich Burnout von t0 zu t1 sig. verändert?
      Wenn Du beide Testarten in ein gemeinsames Modell packen willst, müsstest Du eine passende Variante der Varianzanalyse mit Messwiederholung wählen.

  21. Hallo Wolf,

    zunächst möchte ich mich für deine Nachricht bedanken!
    Ich möchte testen, für was sich Schüler im Verbraucherbildungsunterricht mehr interessieren. Also bezüglich des Items, das ich in meinem ersten Kommentar beispielhaft aufgeführt habe: Interessieren sich Schüler lieber für süße oder herzhafte Speisen. Die Forschungsfrage lautet: Inwieweit unterscheiden sich die Interessen der Schüler im Verbraucherbildungsunterricht hinsichtlich des Geschlechts?. Eine Annahme hinsichtlich des aufgeführten Items wäre „Schülerinnen interessieren sich mehr für süße Speisen und Schüler interessieren sich mehr für herzhafte Speisen“.

    Ich bedanke mich recht herzlich und verbleibe mit freundlichen Grüßen,
    Sebi

    1. Hallo Sebi,
      ok, das ergibt eine Kreuztabelle / Vier-Felder-Tafel. Eine inhaltliche Aussage bekommst Du anhand der relativen Anteile (Prozentwerte); testen kannst Du mit dem Chi-Quadrat-Test oder, bei kleinen Fallzahlen, mit Fisher`s Exact Test.

  22. Hallo Wolf,

    ich bin etwas verzweifelt, weil ich nicht weiß, ob die Fragen meines Fragebogens nominal oder ordinalskaliert sind. Die Fragen sind wie folgt aufgebaut: „Interessierst du dich lieber für süße Speisen oder für herzhafte Speisen?“ – Antwortmöglichkeiten: „süße Speisen“, „herzhafte Speisen“. Der Proband darf sich für eine Antwortmöglichkeit entscheiden. Ich würde ja sagen sie sind ordinalskaliert, aber mit den Antworten kann man doch keine Rangfolge erstellen (also eher nominalskaliert). Süße Speisen sind ja nicht mehr, weniger oder besser, schlechter als herzhafte. Dann denke ich aber, dass das Item ja abfragt, für was sich der Proband lieber interessiert. Nehmen wir also an, ein Proband entscheidet sich für „süße Speisen“ dann wäre theoretisch eine Rangfolge möglich (XY interessiert sich mehr für A als für B) oder? Ist diese Frageform nun ordinal- oder nominalskaliert?

    Kannst du mir bei dieser Frage behilflich sein? Ich würde mich auf jeden Fall über eine kurze Antwort sehr freuen. Vielen Dank im Voraus!

    Beste Grüße
    Sebi

    1. Hallo Sebi,
      wenn es nur zwei Antwortmöglichkeiten gibt, kann man lange diskutieren … Man kann es sogar noch komplizierter machen: Binäre Variablen (zwei Ausprägungen) kann man in einigen Anwendungsfällen so verwenden mit metrisch skalierte: als unabhängige Variablen (Prädiktoren) in Regressionsmodellen.
      So abstrakt ist es schwierig. Was konkret möchtest Du testen? Wie lautet eine Hypothese in Bezug auf die Speisen? Welche Variablen sollen in den Test eingehen?

  23. Lieber Wolf,
    eventuell kannst du mir kurz helfen. In meiner Forschung habe ich zwei Skalen welche beide die „Bewertung der Werbung“ messen. Die eine Skala mittels 7stufiger Likertskala, die andere Skala mittels semantisches Differential (jedoch auch 7-stufig-abgefragt). Ist es möglich, die beiden Skalen trotzdem mittels Mittelwert-Index zusammenzufassen? Oder werde ich um eine Faktorenanalyse nicht drumrum kommen. Beide Skalen haben eine hohe Trennschärfe der Items und eine hohe interne Konsistenz von > 0.90.
    Für die anderen Skalen der abhängigen Variablen habe ich bereits Mittelwertindizes gebildet. Müsste ich für diese Skalen dann auch nochmal eine Faktorenanalyse berechnen? Damit es quasi „einheitlich“ ist?
    Liebe Grüße
    Steffi

    1. Hallo Steffi,

      gute Frage. Ich würde prüfen, wie die interne Konsistenz der Gesamtskala ist. Reliabilitätsanalyse ist einfacher zu interpretieren als Faktorenanalyse. Cronbachs Alpha und Alpha If Item deleted. Vielleicht genügt das schon …

      Liebe Grüße und viel Erfolg

      Wolf

  24. Lieber Wolf,
    eventuell kannst du mir weiterhelfen. Ich habe in einem 2*2 Design untersucht, wie verschiedene Werbungen wirken. In meinem Fragebogen hatte ich einen Manipulation-Check mit 3 Items eingebaut. Dies habe ich jetzt mit einer Anova ausgewertet, und festgestellt dass sich leidre nicht alle Stimuli signifikant unterscheiden. Nun weiß ich nicht wie ich weiter vorgehen soll.
    Die Stimuli welche sich signifikant nicht unterscheiden entfernen?
    Liebe Grüße
    Steffi

    1. Hallo Steffi,
      das kann ich so pauschal nicht sagen … Hängt davon ab, was die nächsten Fragestellungen sind, was Du vor hast …
      Ich kenne dieses Gefühl: „Hoffentlich wird’s signifikant!“ Mein Tipp: Sich davon lösen. Ein nicht signifikantes Ergebnis ist nichts Schlechtes, es ist ein legitimes Ergebnis und kann einen Erkenntnisfortschritt bringen. Es ist genau so wert, berichtet zu werden, wie ein signifikantes Ergebnis.
      Stell Dir vor, Du untersuchst etwas, von dem bisher jeder wusste: Da gibt es einen Zusammenhang, der ist für jeden plausibel. Und Dir gelingt als erster der Nachweis: Das war ein Irrtum, es ist ein Scheinzusammenhang, die Wirkung hat eine ganz andere Ursache als bisher angenommen. Das wäre doch klasse! Dann wäre ein nicht signifikantes Ergebnis der Ausgangspunkt für einen echten Durchbruch.

  25. Lieber Wolf,
    ich habe eine Frage bezüglich Ausreißeranalyse. Ich verwende in meiner Masterarbeit mehrere Analysen, u.a. Clusteranalyse, Diskriminanz-, Varianz- und Regressionsanalysen. Muss ich für jeden Analyseschritt separat eine Ausreißeranalyse machen? Und wie verhält es sich, wenn ich eine extreme Gruppe erwarte, in meinen Fall Psychopathen, die sich in ihren Mittelwerten in den Tests sehr stark von den anderen Teilnehmenden unterscheiden. hier wäre doch eine strenge Ausreißeranalyse kontraproduktiv.
    Herzlichen Dank für eine Antwort.
    Marco.

    1. Hallo Marco,
      ich empfehle den Ansatz, Statistik als Hilfsmittel zu betrachten, um Fragen zu beantworten. Der Gegensatz dazu wäre, sich das Vorgehen vollkommen von statistischen statt inhaltlichen Kriterien vorgeben zu lassen. Du hast ja gute Gründe, Ausreißer zu erwarten – prima! Ausreißeranalyse muss ja nicht heißen, (alle) Ausreißer zu eliminieren.

      In wissenschaftlichen Arbeiten hat man (vorbehaltlich der Vorlieben von Betreuern) in aller Regel die Aufgabe erfüllt, wenn man Befunde und Methoden diskutiert und zeigt, dass man sich möglicher Probleme / Grenzen bewusst ist. Haben etwa Ausreißer einen starken Einfluss auf Regressionsergebnisse, kann man das z. B. in einem Abschnitt „Methodendiskussion“ erwähnen. Falls inhaltlich sinnvoll, könnte man ein Modell ohne Ausreißer zum Vergleich darstellen.
      „Perfekte“ Modelle, die alle Voraussetzungen erfüllen, findet man in der Praxis so gut wie nie …

      Vielleicht genügt es ja, die Ausreißer in einem zentralen Abschnitt zu betrachten und dort auf (mögliche) Auswirkungen auf verschiedene Modelle zu verweisen.

      Viel Erfolg!

      1. Lieber Wolf,
        herzlichen Dank für die sehr detaillierte Antwort. Sie haben natürlich Recht, Statistik als Hilfsmittel für die Beantwortung von Fragen zu nutzen. Das ist eine gute Prämisse für meine weitere Arbeit. Lieben Gruß, Marco.

  26. Hallo Wolf,

    ich probiere es mal hier, da ich trotz Recherche bisher nicht die Antwort auf meine eigentlich vermeintlich simple Frage gefunden haben.

    Ich habe einen eindimensionalen chi-Quadrat-Test durchgeführt, um zu überprüfen, ob sich die Ausprägungen aller Probanden (eine Stichprobe) in einer Variable (nominalskaliert, 3-stufig) von einer zufälligen Verteilung (also jeweils 33 % pro Ausprägung) unterscheiden. Chi-Quadrat ist signifikant, so weit so gut.
    Nun soll meine Hypothese aber eigentlich idealerweise spezifischer „Kontraste“ umfassen, d.h. die Aussage, dass sich die Ausprägungen jeweils voneinander signifikant unterscheiden, also Stufe 1 vs. Stufe, 2 vs. 3 und 1 vs. 3 (also analog zu Kontrasten bei der ANOVA).
    Der Binomialtest vergleicht nur die Ausprägungen von zweistufigen Variablen, beim Friedman-Test werden die Ausprägungen verschiedener Variablen verglichen, geht also alles nicht. Ich möchte einfach nur wissen, ob Stufe 1 signifikant häufiger vorkommt als Stufe 2…. welchen Test nehme ich dafür?

    Viele Grüße
    qypthone

    1. Hallo qypthone,
      klingt simpel, wird aber wohl nicht so häufig gemacht. Meine Vermutung: mehrere Binomialtests, Signifikanzniveau anpassen. Eine (konservative) Korrektur ist Bonferroni: Dabei wird das Signifikanzniveau durch die Anzahl der Einzelvergleiche geteilt. Bei drei Vergleichen (1 vs. 2, 1 vs. 3, 2 vs. 3) müsste der p-Wert also <= 0,017 (0,50 / 3) sein, um auf 5%-Niveau signifikant zu werden. (p = 0,05 gilt dann für den gesamten Hypothesenkomplex, also über die drei Vergleiche hinweg.)

      1. Hallo Wolf,

        schon mal vielen Dank für die schnelle Antwort! Es tröstet mich, dass es offenbar doch nicht ganz so simpel ist.

        Ich habe zwischenzeitlich tatsächlich einen Binomialtest gerechnet und zwar Stufe 1 vs. Stufe 2 + Stufe 3 (und dann die erwarteten Wahrscheinlichkeiten auf 33 vs. 67 % gesetzt). Da Stufe 1 am interessantesten ist, ist das eine gewisse Annäherung an das was ich möchte.

        Ist deine/ihre Idee nun, das für alle Kombinationen der 3 Stufen zu machen (also noch für 2 vs. 1 +3 und für 3 vs. 1 + 2)? Denn mit einer 3-stufigen Variable kann ich ja keinen Binomialtest rechnen.

        1. Wenn es für Deine Fragestellung / Hypothese genügt, 1 vs. 2+3 zu testen, würde ich es dabei belassen. Wenn Du es noch inhaltlich begündest – top. Das entspricht theoriegeleitetem Vorgehen. Die Variante mit allen Einzelvergleichen und Korrektur des Sig.niveaus ist eher die Notlösung.

          1. Ob das ausreicht ist leider nicht so ganz eindeutig, bzw. Auslegungssache 🙂

            D.h. ich habe es aber richtig verstanden, dass ich für jeden Einzelvergleich erst eine passende zweistufige Variable kreieren müsste die ich dann mit der übrig bleibenden Kategorie vergleiche? Denn sonst geht der Binomialtest ja nicht… In dem Fall würde ich das nicht machen, weil die anderen „2:1-Vergleiche“ für mich nicht besonders aussagekräftig sind. Ich bräuchte, wenn überhaupt, noch Vergleiche von 1 vs. 2 und 1 vs. 3, die wären ein gutes add-on.

            Könnte man auch über eine logistische Regression an die Sache rangehen? Also die Ausprägungen der Variable zu 3 Dummyvariablen machen und diese dann als Prädiktoren die ursprüngliche Variable vorhersagen lassen?

          2. > D.h. ich habe es aber richtig verstanden, dass ich für jeden Einzelvergleich erst eine passende zweistufige Variable kreieren müsste die ich dann mit der übrig bleibenden Kategorie vergleiche?
            Mit Filtern (Auswählen der entsprechenden Fälle) müsste es auch gehen.

            > Könnte man auch über eine logistische Regression an die Sache rangehen?
            So wie ich es jetzt verstehe, geht es nur um eine Variable (die umcodiert wird). Die kann ja nicht auf beiden Seiten der Gleichung stehen? Regressionsmodelle sind nur sinnvoll, wenn abhängige und unabhängige Variablen unterschiedlich sind (also nicht nur Umcodierungen derselben Ausgangsvariable).

  27. Guten Abend Wolf,
    zunächst einmal vielen Dank für die ausführlichen Berichte!
    Da ich ein etwas anderes Studiendesign habe, wende ich mich an dich.

    Ich habe mittels eines Experiments ein 2×2 between-subject Design (N=640) durchgeführt.

    Dabei habe ich 5 unabhängige Variablen und eine abhängige Variable auf einer 7er Likert erfragt und die Mittelwerte errechnet.
    Des Weiteren habe ich 2 dichotome Moderatoren (Treatment 1: ja / nein und Treatment 2: ja / nein), welche durch die between-subject Szenarien dargestellt wurden. Das meint, dass jedem Probanden eins von vier Szenarien zufällig zugewiesen wurde. Sprich: Nur jeder vierte Proband hat das gleiche Treatment gesehen.
    Jeder Proband sollte dann anhand der in dem Szenario dargestellten Situation die abhängige Variable aufgrund dessen beantworten.

    Die Regression zwischen den unabhängigen und der abhängigen Variable zeigt signifikante Zusammenhänge.

    Allerdings bin ich mir unsicher, wie ich jetzt weiter auf die beiden Moderatoren verfahre.
    Wie würdest du verfahren mit den beiden Moderatoren als Between-ubject? Wie würdest du die Analyse in SPSS darstellen?

    Ich würde mich sehr über deine Hilfe freuen, da meine eigene Recherche bisher leider erfolglos war.
    Viele Grüße
    Marius

    1. Hallo Marius,
      wenn ich das Design richtig verstehe, kannst Du Moderatoreffekte durch simple Multiplikation eines Moderators mit einer UV einbauen.
      Meine Empfehlung: Verwende pro Modell nur einen Moderator und entscheide, auf welche UV er wirken soll. Modelle mit Moderatoreffekten sind schwierig genug zu interpretieren – mit mehr als einem Moderator vervielfachen sich die Wechselwirkungen. Ich würde das in separaten Modellen testen, vergleichen und diskutieren.
      Grafische Interpretationen finde ich einfacher als die Beschränkung auf Modell-Koeffizienten.
      Wolf

  28. Hallo Wolf, ich habe sowohl für die Voraussetzung der univariaten Varianzanalyse und der Pearson-Korrelation etwa an die 30 Ausreißer, die allerdings plausibel sind, also keine Fehler. Es sind extremere Antworten auf Skalen, die Einstellungen abfragen.
    Ich habe bzgl. Ausreißer und ANOVA gelesen, dass es bei solch komplexen Analysen meist keine nicht-parametrischen Alternativen gibt und man daher zusätzlich mit Bootstrapping rechnen kann, um das Problem der Ausreißer anzugehen.

    Ist es auch bzgl. Pearson denkbar wegen der Ausreißer ein zusätzliches Bootstrapping durchzuführen? Oder muss ich hier ganz auf den Spearman Koeffizienten zurückgreifen (es handelt sich um zwei metrische Skalen)?
    Viele liebe Grüße und danke, dass du hier allen so toll antwortest 🙂 Das hilft sehr!!
    Lina

    1. Hallo Lina,
      nicht einfach, das so pauschal zu beantworten. 30 Ausreißer klingt nach insgesamt größerer Fallzahl? Generell gilt: Je größer die Fallzahl, desto weniger fallen Verletzungen der Verteilungsannahmen ins Gewicht.
      Bootstrapping ist eine elegante Alternative zu „klassischer“ formelbasierter Statistik. Müsste bei Pearson auch möglich sein.
      Univariate Varianzanalyse klingt allerdings nicht so komplex, da gibt es doch nichtparametrische Alternativen? (z. B. Friedman-Test)
      Wenn Du es ausführlich machen magst, kannst Du mehrere Ansätze vergleichen und diskutieren, das wird (je nach Fachrichtung – zumindest in Sozialwissenschaften) oft honoriert.
      Viel Erfolg

      1. Hallo Wolf,
        danke dir für deine schnelle Rückmeldung und den Input :). Ja, ich habe an die tausend Probanden gesammelt. Das klingt schon mal gut! Ich werde wohl zusätzlich Bootstrapping für Pearson schalten.
        Ist es denn schlimm, wenn neben den Ausreißern auch die Normalverteilung der Residuen bei der ANOVA nicht gegeben ist oder kann man auch hier mit der hohen Fallzahl argumentieren? Verschiedene Ansätze zu vergleichen, klingt aber auch nach einer guten Lösung und zeigt, dass man sich damit auseinander gesetzt hat. Ich hatte hier auch wegen der unabhängigen Stichproben und der NV-Verletzung den Median-Test im Auge.
        Liebe Grüße
        Lina

        1. Hallo Lina,
          es kann verschiedene Gründe geben, warum Residuen nicht normalverteilt sind. Schau Dir mal den Datensatz von Anscombe an – da gibt es ein sehr anschauliches Wikipedia-Beispiel.
          https://de.wikipedia.org/wiki/Anscombe-Quartett
          In manchen Fällen wird das Modell deutlich besser, wenn eine Variable zusätzlich mit aufgenommen wird, die einen starken Einfluss auf die abhängige Variable ausübt.
          Es kann auch sein, dass der Zusammenhang nichtlinear ist (z. B. quadratisch), dann enthalten die Residuen bei einem linearen Modell (dazu zählt ANOVA) nicht-zufällige Muster.
          Empfehlung: Streudiagramme ansehen, ggf. Anpassungslinien (Geraden, Lowess etc.) einzeichnen lassen.

  29. Hallo Wolf!
    Erstmal Kompliment für den hilfreichen Artikel!
    Ich habe leider folgendes Problem. Im Rahmen meiner Masterarbeit habe ich ein Online-Experiment durchgeführt, bei welchem den Teilnehmern einer von 4 Stimuli ausgespielt wurde. Untersucht wurde als AV die Werbewirkung. Diese ist gegliedert in drei AV’s: die Markenbewertung, die Bewertung der Werbung sowie die Kaufabsicht.
    Des Weiteren wurden drei Moderator-Variablen erhoben, welche ich nun versuche in Zusammenhang mit UV und AV zu bringen. Leider bin ich mir jetzt bei der Auswertung leider nicht sicher, wie man hier am besten vorgeht, bzw. ob mein Vorhaben überhaupt möglich ist. M
    Pro Stimuli-Gruppe habe ich circa 50 Teilnehmer, insgesamt also um die 200.
    Eventuell kannst du mir ja weiterhelfen.
    Viele liebe Grüße!
    Steffi

    1. Hallo Stefanie,
      meine Empfehlung wäre, sofern Du keine anderen Vorgaben hast, separate Modelle aufzustellen: für jede AV und für jeden Moderator. Entsprechend würde ich für jede AV und jeden Moderator eine eigene Hypothese formulieren. Mehrere Moderatoren in einem Modell sind nach meiner Erfahrung kaum interpretierbar.

  30. Lieber Wolf,
    vielen herzlichen Dank für all die tollen und verständlichen Erklärungen! Eine Frage habe ich jedoch aktuell: Ich würde gerne schauen, ob es einen generellen Zusammenhang zwischen Alter und Bildung in meiner Stichprobe gibt (N=1400). Hierzu habe ich wegen der ziemich großen Alterspannweite Alterskategorien gebildet und mir einen Chi-Quadrat Wert zusammen mit Cramer V ausgeben lassen. Ergebnis: Signifikant und mittlere Zusammenhangsstärke.

    Aus Interesse habe ich dann noch einmal das Alter ohne Kategorien (metrisch) mit der Bildung untersucht (über bivariate Korrelation, Spearman und Kendall Tau-b). Dieses Mal zeigt sich kein signifikanter Zusammenhang. Wie kann das sein und wie gehe ich damit um, also was ist zu berichten?
    Viele Grüße
    Claudia

    1. Hallo Claudia,
      der Chi-Quadrat-Test berücksichtigt keine Rangfolge, er betrachtet sozusagen gleichberechtigt nebeneinander stehende Kategorien. Beim Alter ist jedoch die Reihenfolge wichtig. Daher würde ich erst mal der Korrelation mehr trauen.
      Nichtsignifikante Korrelation heißt: Kein linearer Zusammenhang. Deine Ergebnisse könnten auf einen nichtlinearen Zusammenhang deuten. Ich würde mir den Zusammenhang grafisch ansehen, z. B. ein Streudiagramm (Punktdiagramm) mit Alter und Bildung. Elegant wären noch Anpassungslinien: Linear und nichtlinear.

  31. Hallo, ich hätte mal eine (bzw. mehrere) Frage(n).

    Für meine Abschlussarbeit habe ich mehrere Hypothesen aufgestellt und sollte multiple Regressionsanalysen mit jeweils einer Moderatorvariablen durchführen. Ich habe eine einzige abhängige Variable, die aus einer Likertskala (von 1 bis 5) besteht. Pro Hypothese bzw. Analyse habe ich also je eine abhängige, eine unabhängige und eine Moderatorvariable. Nun habe ich die Analysen in Excel durchgeführt und es hat alles soweit gut funktioniert und die Ergebnisse sind auch interpretierbar. Nun habe ich gelesen, dass ich auch noch auf Normalverteilung testen muss/soll. Das habe ich für die abhängige Variable mit einem Kolmogorov-Smirnov-Test und einem Q-Q-Plot sowie für alle Variablen mit Schiefe und Kurtosis getestet (alles in Excel, problemlos). Die abhängige Variable scheint in allen Fällen normalverteilt zu sein. Ich habe eine Stichprobengröße von über 150. Meine Fragen lauten daher:

    a) Muss ich lediglich die abhängige Variable auf Normalverteilung testen oder ALLE Variablen (inkl. unabhängige und Moderatorvariable)?
    b) Falls ich ALLE Variablen testen muss: Wie sieht es aus, wenn mein Moderator binär ist (0 oder 1) ? Kann ich die oben erwähnten Analysen dennoch durchführen?
    c) Was mache ich mit Variablen, die nicht normalverteilt sind? Kann ich mich da auf den zentralen Grenzwertsatz berufen?
    c) Kann ich meine Ergebnisse der multiplen Regressionsanalysen (mitsamt der t-Statistik, p-Wert, R^2 etc.) dennoch beibehalten?

    Ich freue mich auf Ihre Antwort.

    1. Hallo Mustafa,
      a) Die AV ist meines Erachtens die wichtigste beim Test auf NV. Bei den anderen empfehle ich auch, die Verteilungen „mit gesundem Menschenverstand“ anzusehen. Wenn es z. B. bei einer Variablen mit dem Wertebereich 1 bis 5 sehr viele 1er und 5er gibt, aber (fast) keine Werte dazwischen – wie sinnvoll ist dann eine Interpretation im Sinne „Wenn x um eine Einheit steigt …“?
      b) Binäre Moderatoren sind nicht ungewöhnlich.
      c) und d) Das hängt auch etwas vom Fachbereich / Betreuer ab. Ich komme aus dem sozialwissenschaftlichen Bereich, wo statistische Voraussetzungen oft mehr oder weniger deutlich verletzt werden. Wir wurden gut bewertet, wenn wir Ergebnisse vorsichtig interpretierten und Voraussetzungen diskutierten. Man kann sich die Daten nicht perfekt zaubern, aber man kann zeigen, dass man Anforderungen versteht und Ergebnisse einordnen kann. Z. B. würde ich auch bei kleinen Wertebereichen (etwa 1 bis 5 bei Ihrer AV) weniger auf exakte Modellformeln abzielen (und Dezimalstellen) und eher Wirkungsrichtungen und Schlussfolgerungen hinsichtlich der Hypothesen diskutieren.
      Viel Erfolg!

  32. Lieber Herr Riepl,

    ich habe einen Fragebogen erstellt den ich mittels einer Hauptkomponenten-Analyse auf eine begrenzte Zahl von Komponenten reduziert habe. Diese möchte ich gerne als abhängige Variablen untersuchen.
    Die Komponenten würden damit aus verschiedenen Fragebogenitems bestehen die mit „stimme gar nicht zu“ (codiert als 1), „stimme eher nicht zu“ (=2), „stimme eher zu“ (=3) und „stimme völlig zu“ (=4) beantwortbar sind.
    Nun wäre das Skalenniveau ja eigentlich ordinal. Müsste ich, wenn ich einen Summenscore aus den Items in einer Komponente (=AV) bilde, bei einem Gruppenvergleich (3 Gruppen) dann den H-Test (Kruskal-Wallis) anwenden? Oder wäre aufgrund der Codierung auch eine Anova möglich bzw. sinnvoll?

    Über einen Rückmeldung von ihnen wäre ich sehr dankbar!
    Viele Grüße

    1. Hallo Lisa,
      zum Verständnis: mit einer Hauptkomponenten-Analyse kann man Items zusammenfassen, wenn man mit den Faktorwerten weiterrechnet. Die sind dann wesentlich feiner abgestuft als die ursprünglichen 4-stufigen Items. Da hätte ich mit parametrischen Verfahren (Anova, gilt auch für Regression etc.) keine Bedenken (außer die Verteilungen sind sehr schief).
      Auch ein Summenscore aus mehreren Items ist feiner abgestuft, d. h. hat mehr als vier Ausprägungen. Auch das halte ich für Anovas etc. für geeignet.
      Wenn Sie die ursprünglichen 4-stufigen Items EINZELN verwenden (d. h. die AV hat tatsächlich nur 4 Ausprägungen): Da gibt es verschiedene Auffassungen, strenge und weniger strenge. Bei sozialwissenschaftlichen Fragestellungen werden auch da manchmal parametrische Verfahren angewendet. In dem Fall würde ich zumindest das Vorgehen in einem methodenkritischen Abschnitt diskutieren. Wenn Sie Zeit und Platz haben, ergänzend auch nichtparametrische Tests (wie Kruskal-Wallis) rechnen, vergleichen und diskutieren.
      Viel Erfolg!
      Wolf

  33. Hallo Wolf,

    ich bin gerade bei der Datenauswertung für meine Doktorabreit und habe folgendes Problem: Ich habe Vergleich mithilfe des T-Tests für unabhängige Stichproben durchgeführt. Nun würde ich gerne eine Kontrollvariable in den vergleich einbeziehen und hatte deshalb eine Varianzanalyse durchgeführt. Der Leven-Test ergab jedoch, dass nicht von homogenen Varianzen ausgegangen werden kann (p<.001).

    Kannst Du mir hier weiterhelfen? Kann ich nun meinen Datensatz aufteilen und fpr die nominalskalierte Kontrollvariable getrennt einen T-Test für unabhängige Stichproben durchführen?

    Vielen Dank im Voraus!!

    1. Hallo Lisa,
      verstehe ich richtig, dass die Varianzen bei der Kontrollvariable nicht homogen sind? Üblicherweise wird das eher bei der Gruppenvariable getestet, bei der Kontrollvariable wird es nicht so kritisch gesehen.
      Ich halte die Varianzanalyse mit Kontrollvariable für das elegantere Verfahren – separate t-Tests sind eher ein „Workaround“. Zumal man bei mehreren t-Tests das Signifikanzniveau anpassen sollte (Stichwort Alpha-Fehler-Kumulierung).

  34. Hallo Rolf,

    meine Daten erfüllen nicht alle Voraussetzungen für den Chi-Quadrat-Test, da die erwartete Häufigkeit nicht immer mindestens 5 ist. Was wäre eine alternative Möglichkeit, um den Zusammenhang zwischen einer Gegebenheit und dem Alter zu analysieren?

    Beste Grüsse,
    Marie

    1. Hallo Marie,
      falls inhaltlich vertretbar: Kategorien zusammenfassen?
      Statistische Alternative: Fisher’s Exact Test
      Vermutlich lohnt aber ein genauerer Blick auf die Skalenniveaus. Ist das Alter metrisch gemessen? Und die „Gegebenheit“ kategorial? Dann z. B. Mittelwerte des Alters nach Kategorien. Bei 2 Kategorien t-Test, bei mehr als 2 Kategorien Varianzanalyse (ANOVA), ggf. mit Post-Hoc-Tests.

      1. Das Alter wird metrisch gemessen, die Gegebenheit kategorial. Der Chi-Quadrat Test ist signifikant, der Fisher Exact Test genauso. Da nur vier Befragte einer Alterskategorie befragt worden sind, ist die erwartete Häufigkeit in der Altersklasse nicht gegeben.

        Wie analysiere ich den Fisher’s Exact Test und wie gebe ich die Ergebnisse gemäss APA-Richtlinien an?

        1. Fisher: Sig. Ergebnis (p < 0.05, bzw. eine andere Schwelle, falls Sie eine definiert haben) bedeutet: über-zufälliger Zusammenhang zwischen Alterskategorie und Gegebenheit. APA bitte selbst nachschlagen ...

  35. Hallo Wolf,
    vielen Dank für Deine Expertise!
    Ich hätte noch eine letzte Verständnisfrage zu einer Moderatoranalyse. Ich möchte untersuchen, ob eine Moderatorvariable (Geschlecht) einen Einfluss auf den Zusammenhang zwischen einer Variable X und Y hat.
    Ist es nur dann sinnvoll, die Moderationsanalyse durchzuführen, wenn sich die Variable X hinsichtlich des Geschlechts voneinander unterscheidet oder kann es auch sein, dass wenn es keine Geschlechtsunterschiede bei X gibt, dass das Geschlecht einen Einfluss auf den Zusammenhang zwischen X und Y hat? Vielen Dank!

    Liebe Grüße 🙂
    Lis

    1. Hallo Lis,
      Geschlecht kann auch dann einen Einfluss auf den Zusammenhang zwischen X und Y ausüben, wenn es bei X keine Geschlechtsunterschiede gibt.

  36. Hallo Herr Riepl,

    zunächst einmal vielen Dank für den tollen Beitrag und die Möglichkeit Sie zu kontaktieren. Ich bin bereits seit Tagen bei google unterwegs um mir Infos für meine (erste) Hausarbeit zu besorgen.
    Leider habe ich Probleme mit einer meiner Variablen, weshalb ich gerne Sie als Experten um Hilfe bitten möchte.
    Meine Hypothese lautet: Männern ist die Bequemlichkeit (kostenlose Retoure etc.) bei dem Kauf von Weihnachtsgeschenken wichtiger als Frauen.
    Gemessen wurde die Variable Bequemlichkeit in einem Fragebogen mit einem Likert skalierten Item von 1 (nicht wichtig) – 7 (sehr wichtig).
    Da es sich um eine ordinalskalierte Variable handelt habe ich diese bei R in einen Faktor mit 7 Merkmalsausprägungen umgewandelt – da beginnt bereits die Unsicherheit. Ist das so korrekt?
    Um nun die Daten von Männern und Frauen zu vergleichen, würde ich auf den Chi-Quadrat Test zurückgreifen um zu prüfen ob es einen Zusammenhang zwischen dem Geschlecht und der jeweiligen Einschätzung gibt.
    Allerdings bin ich mir absolut nicht sicher über dieses Vorgehen..können Sie mir weiterhelfen?

    Ich bedanke mich bereits im Voraus für Ihre Zeit!

    Viele Grüße
    Steffi L.

    1. Hallo Steffi,
      der Chi-Quadrat-Test ist für nominalskalierte Merkmale gedacht, also Kategorien ohne Sortierung. Die Likert-Skala ist mindestens ordinal, manche sehen sie auch als metrisch an. Vielleicht gibt es Pakete, die mit einem ordinalskalierten Faktor rechnen. Ich würde das Merkmal als numerisch codieren und dann t-Test und/oder Wilcoxon Rangsummentest für unabhängige Stichproben (auch als Mann-Whitney-U-Test bekannt) machen. Letzterer ist für Ordinaldaten gedacht, ersterer streng genommen für normalverteilte intervallskalierte Daten. Der t-Test wird jedoch oft auf solche Skalen angewendet. Du kannst auf Normalverteilung testen (Shapiro-Wilk, grafisch) und, wenn Du es ausführlich machen willst, beide Tests durchführen und dokumentieren.

  37. Lieber Wolf,
    ich hätte da mal eine fundamentale Frage zu Mittelwertsvergleichen: Ich möchte meine beiden Gruppen (Rheuma-Patienten vs. gesunde Kontrollen) hinsichtlich eines Blutwertes (metrisch skaliert) miteinander vergleichen.
    Nun könnte man das ja auf zweierlei Wegen tun: Entweder man behandelt die Gruppen als dichotom (0/1) und vergleicht die metrischen Blutwerte damit mit einem Mann-Whitney-U-Test oder man splittet die Blutwerte der Patienten auf der einen Seite und die der Kontrollen auf der anderen Seite und vergleicht die mit einem t-Test, oder? Geht das beides? Danke schonmal für eure Hilfe 🙂

    Liebe Grüße
    Lis

    1. Hallo Lis,
      ich sehe keinen Unterschied in den Herangehensweisen. Beide Tests sind von der Datenstruktur her geeignet. Beide vergleichen zwei Gruppen (Rheuma vs. gesunde Kontrollen) hinsichtlich des Blutwertes. Für die Tests spielt es prinzipiell keine Rolle, ob die Gruppe 0/1-codiert sind oder anders gekennzeichnet sind.

      Vielleicht entsteht die Unklarheit dadurch, dass es verschiedene t-Tests gibt. Hier passt wohl der Test für unabhängige Stichproben, da es keine Zuordnung eines bestimmten Rheuma-Patienten zu einem bestimmten gesunden Patienten geben dürfte – es werden wohl zwei unabhängige Gruppen sein. Deine Beschreibung: „Blutwerte der Patienten / Kontrollen aufsplitten“ klingt eher nach t-Test für abhängige (=verbundene) Stichproben.

      Die Unterscheidung zwischen t-Test und U-Test wird anhand der Verteilung der metrischen Variable (Blutwert) und anhand der Fallzahl getroffen. Der t-Test geht von normalverteilten Daten aus (dafür wird mindestens n=30 angenommen) und nimmt außerdem an, dass die Varianzen in den beiden Gruppen gleich sind. Es gibt jedoch Aussagen in der Literatur, dass der t-Test „robust auf Verletzungen seiner Voraussetzungen reagiert“ (steht bei Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler). Unzuverlässig wird der t-Test vor allem dann, wenn die Varianzen ungleich sind und die Gruppengrößen deutlich unterschiedlich. Für ungleiche Varianzen gibt es einen Korrekturfaktor. Im Zweifelsfall kann man den U-Test nehmen. Oder beide durchführen, Ergebnisse vergleichen und diskutieren. Oft kommen beide Tests zum gleichen Ergebnis.

  38. Hallo Wolf,

    in meiner Forschungsarbeit untersuche Kinder und ihre Medienkompetenz. Nun habe ich eine Hypothese ausgestellt, die besagt, dass mit zunehmenden Alter, die Medienkompetenz der Kinder zunimmt. Dies werde ich mittels Pearson und einer einfachen Regressionsanalyse berechnen. Nun besteht die Variable Medienkompetenz aus verschiedenen Kategorien, die am Ende als Medienkompetenz zusammengefasst werden soll. Hast du einen Vorschlag, wie ich die Medienkompetenz am besten statistisch aufbereiten oder messbar machen kann?

    1. Hallo Ina,
      Du kannst für die Kategorien Punkte vergeben und die Punkte zu einer Summe (einem Score, Index) zusammenzählen. Vielleicht gibt es speziell zur Medienkompetenz schon Literatur. Du kannst auch einen eigenen Index entwickeln. Wichtig wäre, die Erstellung zu dokumentieren und zu diskutieren. Zum Beispiel könntest Du bestimmte Kategorien als wichtiger definieren als andere und dafür mehr Punkte vergeben.
      Wolf

  39. Lieber Wolf,
    ich bin gerade auf der Suche nach dem richtigen statistischen Verfahren. Ich vermute, dass der Chi-Quadrat Test der richtige für mich ist, würde mich aber gerne nochmal bei einem Profi vergewissern.
    Ich habe 2 Gruppen. Die eine besteht aus Patienten, die unter einer rheumatischen Erkrankung leiden und die andere ist eine Kontrollgruppe aus gesunden Probanden. Bei allen Versuchspersonen wurde erhoben, ob sie sich sportlich betätigen oder nicht („sportliche Aktivität – ja/nein bzw. 1/0“). Jetzt würde ich gerne statistisch untersuchen, ob sich die eine Gruppe mehr sportlich betätigt als die andere (also ob in einer Gruppe mehr Leute die Frage nach sportl. Aktivität mit Ja beantwortet haben). (Basierend auf meinen Hypothesen tut das die Rheuma-Gruppe weniger, bedingt durch die körperl. Einschränkung.)

    2 Gruppen: Rheuma-Patienten vs. gesunde Kontrollprobanden
    1 Variable, dichotom erfasst: Sportliche Aktivität – ja/nein

    Liebe Grüße
    Lis

    1. Hallo Lis,
      ja, Chi-Quadrat-Test klingt passend. Es kommt auch auf die Fallzahlen an. Bei sehr kleinen Gruppengrößen kann der Test problematisch sein, dann gibt es Fisher’s Exact Test als Alternative. Vermutlich passt aber Chi-Quadrat. (Manche Statistik-Pakete warnen, wenn erwartete Häufigkeiten <5 auftreten.)
      Wolf

      1. Hallo Wolf,
        danke Dir. Die Fallzahlen dürften groß genug sein, die erwarteten Häufigkeiten sind auch groß genug.
        Ich hab einen Chi²-Test durchgeführt. Die Gruppenunterschiede sind nicht signifikant.
        Ich würde die Odds Ratios trotzdem gerne berichten, bin nur unsicher mit der Interpretation der ORs.
        Macht es Sinn, wenn ich die Vierfeldertafel bei meinem Gruppenvergleich so aufstelle?

        …………………………………….. Keine sportl. Aktivität ………………………… Sportl. Aktivität
        Rheuma-Patienten …………. 12 (a) ………………………………………………. 65 (b)
        Gesunde ………………………… 9 (c) ……………………………………………….. 89 (d)

        Ich würde gerne aussagen, dass die „Chance“/Odds, ohne sportliche Aktivität zu erkranken x-mal höher ist als mit.
        Wenn ich jetzt die Odds Ratios berechne, (a x d)/(b x c), komme ich auf 1,8. Bedeutet das nun genau das?

        Liebe Grüße & danke,
        Lis

        1. Hallo Lis,
          hab jetzt nicht nachgerechnet; die Formulierung klingt plausibel. „x-mal höher“ oder „um den Faktor x höher“ ist eine typische OR-Interpretation.
          Ich kenne ORs vor allem aus logistischen Regressionen.
          Wolf

  40. Hallo Herr Riepl,

    ich bin mir unsicher, ob sich für meine Analyse überhaupt statistische Tests eignen. Ich habe eine Patientenbefragung mit 35 Probanden gemacht. Dabei ging es mir darum, was ihnen nach ihrem stationären Aufenthalt wichtig ist und sie haben bspw. angegeben, dass ihnen ein Item von 1=keine Sorgen bis 7=große Sorgen macht. Fragestellung der Arbeit ist herauszufinden, was Patienten wichtig ist und wie ihre Behandlung optimiert werden könnte.
    Ist es hier überhaupt sinnvoll Testverfahren anzuwenden? Und wenn ja, welche?

    Vielen Dank im Voraus!

    1. Hallo Leana,
      selbstverständlich sind mit diesen Daten statistische Verfahren möglich und sinnvoll. Welche konkret, hängt von Ihren Fragestellungen und Hypothesen ab. Wenn man die Skalen als ordinal (Rangfolge) auffasst bzw. aufgrund der Fallzahlen auf Nummer sicher gehen will, empfehlen sich nichtparametrische Verfahren, z. B. die Rangkorrelation nach Spearman für Zusammenhangsanalysen (Je-desto) oder der Mann-Whitney-U-Test für Gruppenvergleiche oder der Chi-Quadrat-Test bei Kreuztabellen.

  41. Hallo, ich bin mir nicht sicher welchen Test ich für meine Hypothesen verwenden soll. Sie sind siingemäß alle so ähnlich:
    „Je mehr Zeit mit Medien verbracht wird, desto schlechter/besser ist die Reaktionszeit“ (die Medienzeit ist auf einer Skala von 1-5 (Stunden), Reaktionszeit ganz genau in ms). Ich wäre froh wenn mir jemand helfen kann !

    1. Hallo Melanie,
      klingt nach Korrelationsanalyse. Rangkorrelation (Spearman), um auf der sicheren Seite zu sein, da die Fünferskala streng genommen nicht metrisch skaliert ist, sondern ordinal. In der Praxis werden in solchen Fällen allerdings oft dennoch Pearson-Korrelationen gerechnet. Oft unterscheiden sich die Ergebnisse nicht sehr.
      Wenn Du noch Kontrollvariablen aufnehmen willst: Regressionsanalyse.

  42. Guten Tag Herr Riepl,

    1.) ich muss 2 Fragebögen (einer der normale Eigenschaften misst und ein Fragebogen, der als Pendant fungiert und pathologische Eigenschaften erfasst) auf Konvergenz prüfen, habe jedoch die Aufgabe personenzentriert (Profilvergleich) vorzugehen. Welche Clusteranalyse empfehlen Sie?
    2.) Geht denn eine Interaktionsanalyse von 2 hochkorrelierten Prädiktoren über eine Clusteranalyse?
    Liebe Grüße Ingo

    1. Hallo Ingo,
      ich denke, dass für beide Aufgaben die Clusteranalyse nicht so geeignet ist. Sie ist ein struktur-entdeckendes Verfahren ohne Zielvariable.
      Zu 1. kann man z. B. Korrelationen der Variablen prüfen. Personenzentriert kann man Profile erstellen, indem man verschiedene Merkmale (Eigenschaften) auf der x-Achse und die jeweiligen Punkte auf der y-Achse abträgt. Das für beide Fragebögen, um zu vergleichen, ob die Profilverläufe sich ähneln.
      Zu 2.: Interaktion sehe ich als Spezialfall der Regressionsanalyse, d. h. man benötigt eine Zielvariable (abhängige Variable). Bei der Clusteranalyse gibt es keine Zielvariable.
      Wolf

  43. Hallo,
    Ich schreibe eine Arbeit über Produktplatzierung in Videospielen. Die uV ist also die Platzierung, die aV die Bewertung des Produktes.
    Hierbei habe ich drei Gruppen (eine Gruppe spielt mit einer Produktplatzierung, die auf Grund meiner Theorie sehr effektiv sein sollte, eine Produktplatzierung die weniger effektiv sein sollte, sowie eine Kontrollgruppe- sie spielt ohne Produktplatzierung)
    Weil ich auch noch Drittvariablen (Arousal etc.) mit einbeziehen soll, nehme ich an, dass ich mit einer mulitplen Regression rechnen sollte und nicht mit einer ANOVA?
    Freue mich über eine Antwort 🙂

    1. Hallo Christian,
      ja, meine Präferenz wäre multiple Regression. Die finde ich etwas besser interpretierbar als die ANOVA. Allerdings ist letztere ebenfalls geeignet – beide Methoden beruhen auf dem Generalized Linear Model. Bei korrekter Spezifizierung kommen beide zum gleichen Ergebnis.
      Viel Erfolg!
      Wolf

  44. Hallo Wolf!

    Ich stelle am Dienstag mein Exposé für die Bachelorarbeit vor. Mein Thema lautet: Einfluss der Persönlichkeit
    eines IT-lers auf seine Erwartungen an einen Arbeitgeber. Ich teste erst die Persönlichkeit des ITlers anhand eines Big 5 Persönlichkeits-Kurztests und frage danach noch 4-5 Anforderungen/ Erwartungen ab, die der ITler an einen Arbeitgeber stellt (wahrscheinlich anhand einer Likert-Skala?).
    Meine Hypothesen sind alle gleich aufgebaut: Je mehr bzw. weniger von Persönlichkeitsausprägung XY, desto mehr bzw. weniger wünscht sich der IT-ler XY vom Arbeitgeber. Zum Beispiel: Je extrovertierter der IT-ler ist, desto größer ist die Erwartung an einen Arbeitsplatz mit viel Kontakt zu Menschen.
    Funktioniert das? Und welches Testverfahren ist hier das richtige?

    Vielen vielen Dank für deine zeitnahe Antwort!! 🙂

    LG
    Tanja

    1. Hallo Tanja,
      die Hypthesen klingen schon mal präzise formuliert. Die Anforderungen / Erwartungen würde ich nicht zu grob abfragen. Du hast mehr Freude bei der Auswertung, wenn die Teilnehmer sich in ihren Erwartungen mehr unterscheiden können – d. h. nicht zu wenige Stufen nehmen. (Pretest empfohlen, wenn zeitlich irgendwie möglich)
      Je-desto-Aussagen kann man mit Korrelationen testen. Wenn Du weitere Variablen berücksichtigen willst (z. B. Kontrolle nach Geschlecht, Alter, …), bieten sich Regressionsanalysen an.
      Viel Erfolg & viele Grüße
      Wolf

  45. Hallo,

    ich sitze derzeit auch an der Statistik für meine Doktorarbeit. Ich habe 2 Gruppen (je gut 100 Probanden) die meiner Meinung nach unabhängig voneinander sind. Die eine Gruppe hat eine Transfusion bekommen, die andere nicht. Ich möchte nun herausfinden ob die Transfusionen einen Einfluss auf verschiedenen metrische Parameter haben (medianes Alter, Tumorgröße, Thrombozytenzahlen etc…) Welchen Test nehme ich hier? Einen T-Test für unabhängige Stichproben? Danke schonmal im voraus. (arbeite mit JMP)

    1. Hallo Alexander,
      ja, klingt nach unabhängigen Stichproben. T-Test ist eine sinnvolle Möglichkeit. Mit Anova oder Regressionen kannst Du zusätzliche Kontrollvariablen aufnehmen.
      Alter: Warum „median“? Der t-Test ist ein Mittelwertstest.
      Übrigens bezweifle ich, dass eine Transfusion das Alter beeinflussen kann – das wäre mal was … Spaß beiseite, ist wohl nur eine Formulierungsfrage.

      1. Erstmal vielen Dank für die schnelle Antwort. Ist echt klasse!!!
        Median ist blöd formuliert es geht um das Durschschnittsalter. Bei dem konkreten Beispiel geht es darum ob die, die transfundiert wurden signifikant älter sind im Schnitt.
        Wenn ich nun keine Normalverteilung habe (mit dem Shapiro-Wilk-Test berechnet) ist dann der Mann-Whitney-U Test nötig und sonst wenn eine Normalverteilungen vorliegt nehme ich dann einen unabhängigen T-Test oder? Handelt es eigentlich sich um gepoolte oder ungepoolte Tests? Ich hätte gepoolt gesagt.

        1. Normalverteilung: Das wird unterschiedlich gehandhabt. Bei N=200 sind Abweichungen nicht mehr so problematisch wie bei kleinen Fallzahlen. Tests wie Shapiro-Wilk reagieren gerade dann strenger. Ich würde die Verteilung auch grafisch überprüfen, z. B. Histogramm mit Normalverteilungskurve. Wenn das gut aussieht, ist der t-Test verwendbar. Zur Sicherheit kannst Du ja zusätzlich Mann-Whitney rechnen und beides dokumentieren.
          Gepoolt: Da geht es um die Annahme der Varianzgleichheit in den beiden Gruppen, nehme ich an. Kann man auch testen. Wenn sie verletzt ist, gibt es einen Korrekturfaktor bei den Freiheitsgraden. Weiß nicht, wie JMP das handhabt …

  46. Guten Tag Herr Riepl,
    Nach dem Lesen aller Kommentare und durchsuchen des Internets habe ich leider noch keine Lösung für meine vermeintlich einfache Hypothese. Ich hoffe daher dass sie mir eventuell helfen könnten.
    Ich habe 120 Probanden 2 Produkte vergleichen lassen und und die Zufriedenheit mit 11 stufigen likert Skalen (0-10) abgefragt. Die Ergebnisse sind einigermaßen normal verteilt. Meine Hypothese ist: Die Probanden sind mit Produkt A zufriedener als mit Produkt B.
    Vergleiche ich dort nur die Mittelwerte? Denn die sind bei A (4,7) höher als bei B (3,3).
    Ich würde mich freuen wenn sie mir helfen könnten.
    Mfg Gregor Schneider

    1. Guten Tag Herr Schneider,
      natürlich kann man die Analyse ausführlicher machen als „nur“ die Mittelwerte zu vergleichen. Als Hypothesentest schlage ich den t-Test für abhängige Stichproben vor (abhängig, da es die gleichen Probanden sind, die beide Produkte bewertet haben). Ergänzend kann man Grafiken erstellen, Verteilungen vergleichen und ggf. weitere Merkmale berücksichtigen, z. B. im Rahmen einer Varianzanalyse mit Messwiederholung (= Erweiterung des t-Tests für abhängige Stichproben).
      MfG Wolf Riepl

  47. Hallo,

    Im Rahmen meiner Abschlussarbeit untersuche ich die Hände vom Personal (vor und nach Durchführung der Händedesinfektion) auf Kontaminationen.

    Den t-test kann ich ja aber nicht anwenden, weil entweder liegen Kontaminationen vor oder es liegen keine vor (0).

    Welche Methode könnte ich aber sonst anwenden ?

    Ich wäre Ihnen sehr dankbar für Ihre Hilfe!

  48. Hallo,

    ich möchte herausfinden, ob verkaufsfördernde Maßnahmen die Stückzahl an verkauften Artikeln auch tatsächlich erhöhen im Zeitraum in welchem solch eine Maßnahme durchgeführt wird. Hierzu möchte ich 10 verschiedene Maßnahmen betrachten. Die Abverkaufzahlen liegen mir in Stück vor. Eine Maßnahme ist erfolgreich, wenn in dem Zeitraum der Maßnahme mehr Artikel verkauft werden als in dem Zeitraum davor, z.B.: Die Maßnahme wird in KW 30 durchgeführt und es werden 100 Artikel verkauft. In KW 29 (hier wurde keine Maßnahme durchgeführt) wurden 90 Artikel verkauft. Die Maßnahme wäre in diesem Beispiel erfolgreich gewesen (Index 111).
    Nachdem ich alle Maßnahmen ausgewertet habe, kann ich also sagen, dass von den untersuchten Maßnahmen z.B. 8 von 10 den Absatz in Stück erhöht haben, also erfolgreich waren.
    Da die 10 Maßnahmen, die ich untersuchen möchte eine Strichprobe darstellen muss ich im nächsten Schritt von dieser Stichprobe auf die Grundgesamt schließen und an dieser Stelle bin ich mir sehr unsicher, welche statistische Methode ich hierfür anwenden kann.
    Es wäre klasse, wenn du mir hier weiterhelfen kannst! Vielen Dank!

    1. Hallo Anka,
      Vorher-Nachher-Messungen sind abhängige Stichproben, d. h. ein bestimmter Wert „ohne Maßnahme“ ist einem ganz bestimmten Wert „mit Maßnahme“ zugeordnet. Möglicher Test: t-Test für abhängige Stichproben. n=10 ist jedoch recht klein, da könnte man auch ein nichtparametrisches Pendant nehmen. (Der t-Test setzt streng genommen Normalverteilung voraus, was bei dieser Fallzahl diskutabel ist.) Alternative Wilcoxon-Test – der rechnet mit Rangsummen und trifft keine Verteilungsannahmen. Wenn Du es ausführlich machen willst, kannst Du beide Tests rechnen, Ergebnisse vergleichen und diskutieren.

  49. Hallo und Danke mal für den tollen Beitrag!

    Ich hätte eine Frage bezüglich eines Vergleichs zweier Geräte. Es handelt sich um einen technischen und klinischen Vergleich zweier EKGs. Erhoben und verglichen werden verschiedenste EKG-Zeiten und Amplituden, die teils voneinander abhängig und teils unabhängig seien können. Der Vergleich soll untersuchen, ob die beiden Geräte die selben Messwerte ausspucken. Ein EKG dient dabei als Referenzprodukt und das andere soll damit verglichen werden.

    Aus der Literatur ist mir die Methode nach Bland und Altman bekannt für den Vergleich technischer Messungen, jedoch wäre es denke ich nicht das richtige, dass für jede Variable getrennt zu vergleichen.

    Hast du vielleicht eine Idee dazu? Mir wäre damit sehr geholfen!

    Liebe Grüße
    Aylin

    1. Hallo Aylin,
      das klingt spannend. Kann ich ehrlich gesagt so nicht sagen, welcher Test der richtige ist. „Teils abhängig, teils unabhängig“ – es gibt unterschiedliche Tests für abhängige und unabhängige Stichproben … Das müsste man sich ganz genau ansehen, wie die Daten aufgebaut sind und ob man sie evtl. anders strukturieren muss. Du suchst ja anscheinend ein Gesamtmodell statt mehrerer einzelner Tests.
      Ich kann das leider nicht übernehmen, bin ausgelastet …
      Sorry – viele Grüße!
      Wolf

  50. Hallo Wolf!

    Im Rahmen meiner Abschlussarbeit befrage ich ca. 100 Kunden meines Arbeitgebers per Fragebogen, inwiefern sie die Integration bestimmter Preiselemente in den Vertrag akzeptieren würden. Dazu habe ich 13 Faktoren bestimmt, wobei die Befragten auf die Aussage, dass sie die Integration des jeweiligen Preisfaktors in den Vertrag akzeptieren würden mit „stimme überhaupt nicht zu“ (1), „stimme eher nicht zu“ (2), „Teils/teils“ (3), „Stimme eher zu“ (4) und „Stimme voll und ganz zu“ (5) reagieren sollen.

    Zusätzlich habe ich zu jedem der Faktoren eine Hypothese aufgestellt, die entweder besagt, dass die Befragten die Integration des Faktors akzeptieren oder, dass sie sie nicht akzeptieren.

    1) Beispiel: Hypothese 1 – Die Integration von Faktor A wird akzeptiert
    Wenn ich jetzt festlege, dass ein Wert größer als 3,5 bedeutet, dass der Befragte die Integration des jeweiligen Faktors akzeptiert, kann ich dann bei einem durchschnittlichen Wert aller Befragten über 3,5 Hypothese 1 einfach annehmen bzw. bei einem Wert kleiner gleich 3,5 ablehnen?

    2) Sollte ich zudem beispielsweise einen Einstichproben-t-Test durchführen, um zu überprüfen, ob der Mittelwert meiner Stichprobe für jeden Faktor signifikant vom Erwartungswert (hier = 3) abweicht?

    Vielen Dank für deine Hilfe!

    1. Hallo Frank,

      ja, klingt plausibel. Achtung: Bei vielen einzelnen t-Tests steigt die Wahrscheinlichkeit, dass „zufällig“ mal einer signifikant wird. Fachbegriff Alpha-Fehler-Kumulierung. Da empfiehlt sich ein Korrekturfaktor für die p-Werte. Siehe z. B. hier:
      https://statistikguru.de/rechner/adjustierung-des-alphaniveaus.html

      Spannender finde ich Hypothesen, die (mindestens) zwei Variablen in Beziehung setzen. Zum Beispiel: Frauen stimmen Preisfaktor X eher zu als Männer.

      Viel Erfolg und viele Grüße!

      Wolf

  51. Hallo! 🙂
    Ich habe in einem Fragebogen den Zusammenhang zwischen der Angabe persönlicher Informationen und der Teilnahme an Geld-zurück-Garantien untersucht. Mit Geld-zurück-Garantien meine ich die der Aktionsprodukte „Jetzt gratis testen“, d.h. man muss nach dem Kauf eines Produkts z.B. seine Bankdaten und Adresse angeben und dann bekommt man den Kaufpreis vom Unternehmen erstattet.
    Meine Frage im Fragebogen lautete: „Welche der folgenden Gründe würden Sie hindern, die Geld-zurück-Garantie eines Aktionsprodukts geltend zu machen? Mehrfachantworten sind möglich.“
    Es gab folgende Antwortmöglichkeiten:
    Die Angabe meiner Bankdaten (1=nicht ausgewählt, 2=ausgewählt)
    Die Angabe meiner persönlichen Anschrift (1=nicht ausgewählt, 2=ausgewählt)
    keines der beiden (1=nicht ausgewählt, 2=ausgewählt)
    Meine Hypothesen lauten:
    H4: Die Angabe persönlicher Informationen hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.
    ∙H4a: Die Angabe von Bankdaten hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.
    ∙H4b: Die Angabe der privaten Anschrift hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.

    Ich habe folgende Fragen: Handelt es sich hierbei um ungerichtete Zusammenhangshypothesen? Wenn ja, hatte ich überlegt die Ausprägungen (1 und 2) jeder der 3 Antwortmöglichkeiten mit einer selbst erstellten Spalte mittels Spearman Korrelation zu vergleichen (dies ist ja auch mit dichotomen Daten möglich oder?). Also ich wollte eine Spalte erstellen mit 1=Nichtteilnahme (wenn zum Beispiel angeklickt wurde, dass die Angabe der Bankdaten an der Teilnahme hindert) bzw. 2= Teilnahme (wenn zum Beispiel ausgewählt wurde: keines der beiden)

    Liege ich mit meinen Ideen richtig? Oder handelt es sich doch eher um einen Wilcoxon-Vorzeichen-Rang Test als Anpassungstest?

    Liebe Grüße

    1. Hallo Sophia,
      ja, man kann die Hypothesen als ungerichtet bezeichnen. Es gibt allerdings nur jeweils 2 Ausprägungen: ausgewählt oder eben nicht. Das würde ich kategorial analysieren, nicht ordinal (Spearman-Korrelation). Ich sehe allerdings auch nicht, dass man zwei Variablen in Zusammenhang setzen müsste. Im Grunde ist doch die Hypothese widerlegt, wenn die Teilnehmer sich nicht von der Inanspruchnahme der Geld-zurück-Garantie abhalten lassen? Das sieht man doch auch an einfachen Häufigkeitsauszählungen, oder? Um es testbar zu machen, könnte man eine Schwelle festlegen, z. B. wenn mindestens x% der Teilnehmer sich abhalten lassen, dann hat die Angabe persönlicher Infos Einfluss. Drei Tabellen: a) Bankdaten, b) Anschrift; c) mindestens eine der beiden Info-Arten (das wird der höchste Anteil an Personen, die sich abhalten lassen). Evtl zusätzlich d) Wie viele haben beides angekreuzt.
      Viele Grüße & viel Erfolg!
      Wolf

      1. Hallo Wolf,

        ich sitze momentan an der Auswertung meiner Untersuchung, bei der ich Commitment (affektiv, normativ und kalkulatorisch) auf einer Likert Skala abgefragt habe.
        Meine Hypothese lautet nun:
        Mit steigender Zugehörigkeitsdauer (4 Kategorien: unter 1 Jahr, 1-2 Jahre,2-5 Jahre, 6-10 Jahre) der Mitarbeiter steigt auch die Ausprägung der Komponenten (affektiv, kalkulatorisch, normativ) des organisationalen Commitments.

        Gehe ich richtig in der Annahme, dass die eine Zusammenhangshypothese ist?
        Wäre ich hier mit einer linearen Regression?

        Außerdem überprüfe ich noch die folgende Hypothese:
        Je ausgeprägter die Fehlermanagementkultur ist, desto höher ist das affektive organisationale Commitment bei den MA.

        beide Variablen wurden auf einer 5 stufigen Likertskala abgefragt.
        Welcher Test wäre hier angebracht?

        Ich würde mich sehr mich über eine Rückmeldung freuen.

        Liebe Grüße

        1. Hallo Chris,
          ja, das sind Zusammenhangshypothesen. Man kann sie mit Korrelationsanalysen oder Regressionsanalysen testen. Die Regression erlaubt es, weitere Kontrollvariablen aufzunehmen (z. B. Geschlecht oder Alter). Zugehörigkeitsdauer würde ich für eine Regression dummycodieren, das heißt eine Variable pro Kategorie, mit Ausprägungen 0 und 1. Z. B. Variable unter_1_Jahr, 0=nein, 1=ja. Für die Regression eine der vier Kategorien weglassen und als Referenzkategorie interpretieren.
          Fehlermanagement: Könnte man mit Rangkorrelation (Spearman) testen. Für eine Regression müsste man annehmen, dass die Likertskala metrisch ist. Wird oft gemacht, ist diskutabel …
          Viel Erfolg
          Wolf

  52. Hallo!

    Sitze gerade an meiner Doktorarbeit und bin etwas überfordert mit der Auswertung meiner Ergebnisse. Habe im Labor Experimente mit verschiedenen Medikamenten auf Zellen gemacht und möchte jetzt eine Kontrollgruppe A mit einer Experimentgruppe B und eine andere Kontrollgruppe C mit Experimentgruppen D, E und F vergleichen. Habe pro Gruppe ca. 20 Messungen und intervallskalierte Werte.
    Würde ich dann für den Vergleich zwischen A und B einen einfachen t-test machen? Und welchen Test kann ich für den Vergleich C-D,C-E und C-F am besten machen?

    Vielen Dank für die Hilfe!

    1. Hallo Julia,
      danke für den Kommentar! Ja, zwei Gruppenmittelwerte kann man per t-Test vergleichen. Bei mehr als zwei Gruppen Varianzanalyse. (Der t-Test ist ein vereinfachter Spezialfall der Varianzanalyse.)
      Viel Erfolg & viele Grüße!

  53. Hallo, ich bin gerade über Deinen Blog gestoßen und finde ihn sehr spannend. Ich habe eine Frage zur Varianzanalyse mit Messwiederholung. Ich habe fünf Gruppen, die ich zu zwei Zeitpunkten bezüglich verschiedener Perfektionismusdimensionen befragt habe. Nun zeigt die Varianzanalyse keinen signifikanten Unterschied, aber im post-hoc Test ist bei einer Gruppe ein signifikanter Unterschied des Messzeitpunkts zu sehen. Diesen würde ich gerne berichten. Nun steht aber überall, dass es nicht berichtet werden darf, wenn die vorausgegangene ANOVA nicht signifikant ist. Dann wiederum wird argumentiert, dass es sich bei den Verfahren um unterschiedliche Testverfahren handelt und man sich auch direkt die post-hoc Tests anschauen dürfte. Darf ich es nun berichten und wenn ja wo finde ich eine geeignete Literaturquelle, die das untermauert? Über eine Antwort würde ich mich sehr freuen. Viele Grüße Daniela

    1. Hallo Daniela,
      ich kenne es auch so, dass man Post-Hoc-Tests nach signifikantem Gesamtergebnis macht. Wenn Du den signifikanten Gruppenunterschied aus Post-Hoc berichten willst, dann würde ich auf jeden Fall auch das Gesamtergebnis berichten. Generell: Alle Tests dokumentieren (darf auch kurz sein), nicht nur das rauspicken, was einem gefällt.
      Literatur: Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler fand ich ganz gut.

  54. Hallo,
    ich hätte zwei Fragen:
    1) Ich habe eine Auswertung gemacht bei der ich gerne prüfen würde, ob sich die Tendenz nach einem Teamtimeout im Handball in den nachfolgenden 5min verändert. Dazu habe ich den 5min-Abschnitt nach dem Teamtimeout in jeweils 1min-Blöcke unterteilt (also 5 Variablen) und jede Variable hat 3 Möglichkeiten (positiv/neutral/negativ). Wie bekomme ich jetzt raus, ob sich die Tendenz mit Zunahme der Zeit verändert? (Die Stichprobengröße wird mit Zunahme der Zeit immer kleiner)

    2) Desweiteren wüsste ich gerne ob gewisse Taktiken (z.B. Auswechslungen) öfter zu einer positiven Tendenz führen.

    Vielen Dank schonmal und schöne Grüße
    Hendryk

    1. Hallo Hendryk,
      für den Timeout-Effekt könnte man den Friedman-Test nehmen. Es handelt sich um abhängige Stichproben, da eine bestimmte Messung einem bestimmten Spiel zugeordnet ist. Der Test erfordert vollständige Daten, d. h. Spiele mit Fehlwerten ab einem bestimmten Messzeitpunkt werden ausgeschlossen. Man könnte mehrfach testen, z. B. bis zur 3. / 4. / 5. Minute, jeweils mit weniger Fällen, und die Ergebnisse vergleichen und diskutieren.
      Der Friedman-Test ist nichtparametrisch, d. h. er trifft keine Verteilungsannahmen. Die Zielvariable ist ordinal (Rangfolge klar, aber nicht fein abgestuft metrisch). Daher würde ich keine Varianzanalyse mit Messwiederholungen nehmen. Bei kleinen Fallzahlen und geringen Häufigkeiten in einer der drei Ergebnis-Kategorien könnte man nur den Vergleich von zwei Kategorien nehmen (z. B. positiv vs. nicht-positiv (neutral und neg. zusammen)) und mit dem McNemar-Test arbeiten.

    2. Zu 2) Kommt auf die Codierung der Daten an. Vorschlag: Kreuztabelle Taktik vs. Tendenz, Chi-Quadrat-Test (berücksichtigt die Rangfolgen der Tendenz nicht) oder Mann-Whitney-U-Test (Tendenz ordinal, vergleicht zwei Taktiken) oder Kruskal-Wallis-Test für mehr als zwei Taktik-Gruppen.

  55. Hallo,

    ich suche nach einem geeigneten Test für folgende Hypothese:

    Wenn man seine Lüge im Voraus plant, ist die kognitive Belastung während des Lügens geringer als wenn man die Lüge nicht vorher plant.

    Dabei habe ich eine Fallzahl von ca. 50 Leuten, die Variable zur Planung der Lüge hat die Ausprägungen [JA / NEIN / WEISS NICHT] und die Variable zur Messung kognitiver Belastung hat die Ausprägungen von 1 (gar nicht anstrengend) bis 6 (ausgesprochen anstrengend).

    Fragen:
    A) Liege ich richtig in der Annahme, dass die Planungsvariable nominalskaliert ist?
    B) Liege ich richtig in der Annahme, dass die Variable, die kognitive Belastung misst, ordinalskaliert ist?
    C) Von welcher Verteilung kann ich ausgehen bzw. wie finde ich die Verteilung der Variablen heraus?
    D) Welchen Test muss ich zu Überprüfung dieser Hypothese verwenden?

    Ich wäre sehr dankbar für eine Rückmeldung.

    Liebe Grüße

    1. Hallo Clara,
      interessante Hypothese!
      A) „Schlimme“ Antwort: Kommt drauf an. Kann man so sehen. Alternative: Weiß nicht = Fehlwert. Bleiben zwei Möglichkeiten, die man als dummycodiert auffassen kann (z. B. 0=nein, 1=ja). Dummycodierte Variablen können in vielen Verfahren (z. B. Regression) wie metrisch skalierte Variablen verwendet werden.
      B) Ja. Oft werden solche Variablen aber auch als (quasi-)metrisch aufgefasst und so verwendet.
      C) Am besten ist eine Kombination aus grafisch-visueller Analyse und einem statistischen Test. Zum Beispiel Histogramm mit Normalverteilungskurve. Normalverteilt (Gauß’sche Glockenform) heißt: die meisten Fälle liegen im mittleren Bereich – je näher an den Rändern, desto weniger Fälle. Test: Zum Beispiel Shapiro-Wilk-Test auf Normalverteilung.
      Das gilt für die kognitive Belastung. Die Planungsvariable kann bei so wenigen Ausprägungen nicht normalverteilt sein. Günstig für die Analyse wäre, wenn ja und nein einigermaßen ähnlich häufig auftreten. Problematisch wäre, wenn eine Antwortalternative nur ganz selten (z. B. weniger als 5 mal) vorkommt.
      D) Da gibt es mehrere Möglichkeiten. Die einfachste wäre ein t-Test für unabhängige Stichproben. Gruppenvariable: Planung ja/nein, abhängige: kogn. Belastung.
      Mögliche Erweiterung: Zusätzliche Variablen aufnehmen, z. B. Geschlecht und/oder Alter etc. Regressionsmodell mit kogn. Belastung als abhängiger Variable.
      Falls es Dir wichtig ist, bei Planung „weiß nicht“ mit zu berücksichtigen: Varianzanalyse (Anova) als Erweiterung des t-Tests.

  56. Hallo,
    ich habe ein Problem bei einer multiplen Regression. Und zwar weist meine abhängige Variable sowohl negative als auch positive Prozentwerte auf. Kann ich diese einfach so verwenden oder muss ich die Werte per Quadrierung zunächst alle positiv gestalten? Leider kann ich hierzu nirgends gute Informationen finden.
    Beste Grüße, Tobias

    1. Hallo Tobias,
      das ist prinzipiell kein Problem, die Werte der abhängigen Variable dürfen auch negativ sein.
      Das befreit Dich natürlich nicht davon, Modellvoraussetzungen zu testen und die Ergebnisse sorgfältig zu interpretieren.
      Viel Erfolg!

      1. Erstmal vielen Dank für die schnelle Antwort. Die Modellvoraussetzungen sind natürlich BLUE, so dass ich hier keine Probleme habe bzw. passende Modelle wähle.
        Mein Betreuer ist nur der Ansicht, dass die Prozentwerte sich gegenseitig ausgleichen würden und so falsche Ergebnisse geliefert werden und die ein absolutes No-Go ist. Allerdings ist es meiner Ansicht nach eher genau andersrum, da die eindeutig signifikante Variable bei einer Quadrierung nicht mehr signifikant ist und diese signifikant sein muss.
        Danke. Haben Sie eventuell einen Tipp in welchem Buch oder Onlinedokument man hierzu nähreres erfahren könnte?

        1. Literatur dazu habe ich grade nicht parat.
          Nach Deiner Beschreibung erscheint es mir weniger ein Problem der negativen Werte an sich zu sein, sondern eher eine Frage der Konstruktion der abhängigen Variable. Wie kommen die Prozentwerte zustande, sind sie direkt gemessen oder aus mehreren Variablen abgeleitet? Wie sind sie verteilt? Bei einer Quadrierung verliert man das Vorzeichen, d. h. was zuvor -20% waren, ist dann nicht mehr unterscheidbar von einem Wert, der zuvor +20% betrug. Ist das sinnvoll? (Das ist eine ernstgemeinte Frage – die Antwort kenne ich nicht, ohne den Kontext zu kennen – je nach Fragestellung kann die Antwort ja oder nein lauten.) Quadrierung erhöht auch die Bedeutung der Ausreißer.
          Ich würde weniger nach irgendwelchen „Regeln“ vorgehen, sondern mich möglichst an inhaltlichen Überlegungen orientieren. Was will ich messen und testen, und welche Art der Operationalisierung kommt dem Ziel inhaltlich am nächsten?
          Wenn negative Werte vermieden werden sollen, kann man das auch durch andere Transformationen erreichen, z. B. durch Addition des (negativen) Minimums, sodass der Wertebereich bei 0 beginnt.

  57. Hallo!
    Ich möchte eine multiple Regression rechnen, aber die Linearität und Homoskedastizität sind nicht erfüllt. Wie kann ich weiterverfahren?

    Liebe Grüße
    Tina

    1. Hallo Tina,
      da gibt es viele Möglichkeiten … Zum Beispiel:
      – prüfen, ob mit weiteren Prädiktoren bessere Anpassungen erreicht werden oder ob Prädiktoren ausgeschlossen werden sollten (z. B. bei Multikollinearität)
      – nichtlineare Terme aufnehmen
      – einflussreiche Ausreißer finden und ggf. ausschließen
      – die Regressionsdiagnostik beschreiben und diskutieren – die meisten Zusammenhänge sind nicht genau linear; bei vielen Modellen sind Voraussetzungen verletzt

  58. Hallo Herr Riepl,

    ich möchte Tests mit SPSS durchführen. Meine Daten sind nicht normalverteilt. Kann ich damit nur nicht-parametrische Tests durchführen oder auch zum Beispiel Kreuztabellen (Person-Chi²-Test) und Rangkorrelationen?

    Viele Grüße

    1. Hallo Seb,

      Chi² und Rangkorrelationen setzen keine Normalverteilung voraus. Chi² ist für kategoriale Daten, d. h. hier werden keine Rangfolgen berücksichtigt (anders gesagt: Die Sortierung der Kategorien spielt keine Rolle). Rangkorrelationen zähle ich zu den nichtparametrischen Verfahren.

      Die Abgrenzung (parametrische Verfahren nur bei NV) wird nicht immer so streng gesehen. Normalverteilungstests werden bei größeren Fallzahlen eher signifikant (im Sinne von keine NV) – gerade dann können die Tests Abweichungen von der NV besser kompensieren. Daher kann man auch grafische Methoden (z. B. Histogramm mit NV-Kurve) in die Entscheidung einbeziehen. Jürgen Bortz (Statistik für Human- und Sozialwissenschaftler) argumentiert, der t-Test reagiere robust auf Verletzungen seiner Voraussetzungen. (Problematisch wird es vor allem dann, wenn die Varianzen in den Gruppen ungleich sind und die Fallzahlen ebenfalls.)

  59. Sehr geehrter Herr Riepl,

    ich führe derzeit mit SPSS die Auswertung einer Befragung durch. Die Befragung hat innerhalb eines Unternehmens stattgefunden. Ich befinde mich derzeit bei den Tests um Unterschiede herauszufinden, allerdings Frage ich mich ob ich da die Angaben nur innerhalb eines Unternehmens gemacht wurden nur abhängige, verbundene Stichproben habe oder wäre es auch möglich, dass es unabhängig ist?

    Wenn Sie mir vlt kurz erklären könnten, wann ich Tests für abhängige Stichproben und wann für unabhängige Stichproben durchführe wäre ich Ihnen sehr dankbar. Wie gesagt sind die Daten alle nur innerhalb eines Unternehmens erfasst worden.

    1. Hallo Maik,

      es kommt auf die konkrete Fragestellung an. Viele Variablen können verwendet werden, um Gruppen zu bilden und zu vergleichen.

      Beispiel: Nehmen wir an, Sie vergleichen den Krankenstand zwischen zwei Abteilungen. Wenn es keine Zuordnung eines bestimmten Mitarbeiters in einer Abteilung zu einem bestimmten Mitarbeiter in der anderen Abteilung gibt, handelt es sich um unabhängige Stichproben.

      Anderes Beispiel: Sie messen den Krankenstand in einer Abteilung vor und nach einer Gesundheitsmaßnahme. Dann gibt es zu jedem Mitarbeiter zwei Messungen. Die Messung von Herrn Maier vor der Maßnahme ist der Messung von Herrn Maier nach der Maßnahme zugeordnet. (Anders formuliert: Der Test soll berücksichtigen, dass es sich hier 2x um dieselbe Person handelt.) Es handelt sich um abhängige Stichproben.

      Abhängige Stichproben können es auch sein, wenn es sich um verschiedene Messobjekte (z. B. Personen) handelt, aber mit klarer Zuordnung, zum Beispiel Trainings- oder Ehepartner.

      1. Sehr geehrter Herr Riepl,

        vielen Dank für die schnelle Antwort. Das erschließt sich mir soweit. Also angenommen ich habe bisher keine Gruppen, bilde aber einfach welche durch Zuordnung nach Geschlecht oder Einkommen etc. dann sind das unabhängige Stichproben?

        Auf ihr Beispiel bezogen, wenn ich nun eine Abteilung habe, in der der aktuelle Krankenstand abgefragt wird und zusätzlich dann eben noch Zusammenhang mit Geschlecht, Einkommen, Arbeitszeiten von den gleichen Personen in der Abteilung damit testen will. Unabhängige Stichproben?

        1. Ich weiß, „es kommt darauf an“-Antworten sind schrecklich, aber ich habe noch eine:
          Es kommt auf das Skalenniveau der Variablen an. Krankenstand metrisch (in Tagen / Jahr) und Geschlecht: Ja, unabhängige Stichproben.
          Krankenstand metrisch und Einkommen metrisch oder Arbeitszeiten metrisch: Dann machen Sie keinen Gruppenvergleich, sondern können z. B. Korrelationen berechnen. Da gibt es keine Auswahl zwischen abhängigen und unabhängigen Stichproben. Natürlich können Sie aus dem Einkommen oder den Arbeitszeiten Gruppen bilden (z. B. hoch / niedrig) und dann wieder Gruppenvergleiche mit unabhängigen Stichproben durchführen.
          „Von den gleichen Personen“ klingt missverständlich: Wenn Sie Frauen und Männer einer Abteilung vergleichen, dann haben Sie zwei Teilgruppen mit unterschiedlichen Personen.

  60. Hallo Herr Riepl,

    ich schreibe gerade meine Abschlussarbeit und muss dazu sechs Fragen eines ausgefüllten Fragebogens plus drei zusätzliche Fragen zu demographischen Daten mit SPSS analysieren. Leider habe ich von Statistik nun so gar keine Ahnung und weiß deshalb nicht welche Tests ich alles durchführen muss und hatte gehofft Sie könnten mir weiterhelfen. Die Fragebogen sind fertig ausgefüllt und alle Daten liegen vor. Ich muss also nun nur mit SPSS die Daten analysieren.

    Die ersten beiden Fragen befassen sich mit psychischen Problemen zu denen die Teilnehmer Angaben machen mussten. Sie hatten dabei die Auswahl anzukreuzen (immer, oft, manchmal, selten, nie) und diesen Antwortmöglichkeiten wurden die Zahlen 1 bis 5 zugewiesen.

    Die nächste Frage beschäftigt sich mit Erreichbarkeit durch das Handy. Die Teilnehmer konnten ja, nein oder trifft nicht zu ankreuzen. Dabei bekamen ja und nein die Zahlen 1 und 2 zugewiesen und trifft nicht zu die 98. Die nächste Frage ist gleich aufgebaut. und die dritte Frage auch mit 5 Antwortmöglichkeiten für die die Zahlen 1 bis 5 vergeben wurden und die Zahl 98 für keine Angabe.

    Die sechste Frage lässt sich nur mit ja oder nein beantworten und auch hier wurden den Antwortmöglichkeiten wieder die Zahlen 1 und 2 zugewiesen.

    Als letztes sind noch die demographischen Angaben. Eine Frage zum Geschlecht (männlich, weiblich) mit den zugewiesenen Zahlen 1 und 2. Eine Frage ob man eine leitenden Funktion inne hat (ja, nein) mit den zugewiesenen Zahlen 1 und 2. Und eine Frage zum Alter (unter 30, 30-44 Jahre, 45-55 Jahre, über 55) mit den zugewiesenen Zahlen 1 bis 4.

    Können Sie mir helfen und sagen was ich nun mit diesen Daten anfangen muss, welche Tests ich durchführen kann/muss?

    Viele Grüße,

    CESRL

    1. Hallo CESRL,
      danke für Ihren Kommentar!
      Zunächst ist es sinnvoll, Hypothesen zu formulieren. Es gibt ja verschiedene Möglichkeiten für Zusammenhänge zwischen den Variablen und es wird nicht erforderlich sein, alle Möglichkeiten auszuschöpfen. Was interessiert Sie besonders und welche Ergebnisse erwarten Sie?
      Dann ist es gut, die Skalenniveaus zu betrachten. Die mit 1 bis 5 codierten Fragen würde ich als ordinal betrachten (immer, oft, manchmal, selten sind nicht so genau definiert und meines Erachtens nicht als streng metrisch zu sehen; die Abstände zwischen den Kategorien sind nicht unbedingt gleich groß). Wenn Sie Gruppenvergleiche damit anstellen, empfehle ich nichtparametrische Tests. Zum Beispiel: Geben Frauen häufiger psychische Probleme an als Männer? Mann-Whitney-U-Test mit psychischen Problemen als abhängiger Variable, Geschlecht als Gruppenvariable.
      Die Werte 98 würde ich als Fehlwerte definieren, d. h. diese Probanden werden von den jeweiligen Analysen ausgeschlossen und man vergleicht Ja- mit Nein-Antworten.
      Wie gesagt gibt es recht viele Möglichkeiten und ich werde nicht alles in einem Kommentar beschreiben können …
      Viele Grüße,
      Wolf Riepl

      1. Hallo Herr Riepl,

        ich habe nun Hypothesen formuliert um diese zu testen. 2 Hypothesen sind durch jeweils nominal skalierte Fragen aufgestellt worden und 5 Hypothesen durch jeweils nominal und ordinal skalierte Fragen gemischt. Ich habe bereits gelesen, dass man sich aber in dem gemischten Fall, jeweils am „schwächsten Glied“ orientieren muss, also dann quasi nur Tests für nominal skalierte Fragen zulässig sind. Ich habe dafür nun ungerichtete Hypothesen aufgestellt, also muss ja zweiseitig getestet werden. Welche Tests kann ich nun damit durchführen? Nur den Pearson Chi Quadrat Test durch Kreuztabellen?

        Gruppenvergleiche anstellen habe ich verstanden, vielen Dank dafür. Und die Werte 98 habe ich nun als Fehlwerte definiert. Vielen Dank auch dafür.

        Viele Grüße,

        CESRL

        1. Hallo CESRL,
          es kommt darauf an, wie der „gemischte Fall“ aussieht. Wenn Sie Gruppenvergleiche durchführen wie in meinem vorigen Kommentar beschrieben, dann ist die Gruppenvariable nominal skaliert und die Testvariable ordinal. In diesem Fall nehmen Sie Tests für Ordinaldaten, z. B. den Mann-Whitney-U-Test. Die Gruppenvariable muss nicht ordinal sein.
          Bei Korrelationen zwischen ordinalskalierter und intervallskalierter Variable gilt Ihr Beispiel: Im Zweifel das nichtparametrische Verfahren, z. B. Rangkorrelation nach Spearman.
          Wenn Sie Kreuztabellen erstellen, können Sie mit dem Chi-Quadrat-Test prüfen, ob die Verteilung der einen Variable sich in den Untergruppen der anderen signifikant unterscheidet. Wenn dabei eine ordinalskalierte Variable verwendet wird, berücksichtigt der Test die Rangfolge nicht, sondern sieht nur die Kategorien, unabhängig von der Sortierung.

          1. Hallo Herr Riepl,

            bei nominal und nominal skalierter Frage dann den Pearson Chi Quadrat Test?

            Der gemischte Fall ist nicht ordinal- und intervallskaliert sondern nominal- und ordinalskaliert. Ich habe auch keine Gruppen, sondern einfach nur Daten/Angaben von einzelnen Personen eines Unternehmens bezüglich den Fragestellungen. Die Personen lassen sich nicht in eine oder die andere Gruppe einteilen. Also dann doch nicht den Mann-Whitney-U-Test oder?

            Kann ich sonst nichts mehr testen bei nominal- und ordinalskalierter, gemischter Hypothese?

            Eine Hypothese lautet dann zum Beispiel so: Es besteht ein signifikanter Zusammenhang zwischen der Erwartung durch Kollegen permanent erreichbar zu sein (nominal durch ja oder nein) und dem zu kurz kommen des Privatlebens durch die Arbeit (ordinal durch immer, oft selten, manchmal, nie, aber mit den Zahlen 1-5 versehen)

            Sorry für die Fragen, aber ich versteh leider noch nicht so viel darüber.

            Viele Grüße,

            CESRL

          2. > bei nominal und nominal skalierter Frage dann den Pearson Chi Quadrat Test?
            Ja. Wenn es zu viele Kategorien / zu kleine Fallzahlen werden, ggf. Gruppen zusammenfassen.

            > Der gemischte Fall ist nicht ordinal- und intervallskaliert sondern nominal- und ordinalskaliert. Ich habe auch keine Gruppen, sondern einfach nur Daten/Angaben von einzelnen Personen eines Unternehmens bezüglich den Fragestellungen.
            Sie können die nominalskalierte Variable als Gruppenvariable verwenden.

            Ihr Beispiel:
            Gruppenvariable: Erwartung, permanent erreichbar zu sein ja/nein (-> zwei Gruppen)
            Testvariable: Zu-kurz-Kommen des Privatlebens

            Weiter möchte ich es in den Kommentaren nicht mehr treiben …

  61. Hallo Herr Riepl,

    Ich bin ein ziemlicher SPSS-Neuling und komme momentan nicht weiter..
    Hier ist mein mein Problem:
    Um herauszufinden welche statistischen Tests für meine erhobenen Daten in Frage kommen, muss ich ja erstmal gucken ob meine Variablen normalverteilt sind. Mein Gesamtkollektiv lässt sich in zwei Gruppen unterteilen (Operationsmethode A und B). Diese beiden Gruppen will ich später hinsichtlich unterschiedlicher Parameter vergleichen (Blutverlust, OP-Dauer, etc.). Nun verstehe ich nicht, ob für den Normalverteilungstest für jede Variable ALLE Patienten (also beider OP Methoden zusammen) oder immer beide Stichproben einzeln auf Normalverteilung überprüft werden müssen. Ist letzteres der Fall, stellt sich mir die nächste Frage: Was mache ich wenn z.B. OP-Methode A hinsichtlich des Blutverlustes normalverteilt, OP-Methode B dies jedoch nicht ist. Entscheide ich mich dann grundsätzlich für nichtparametrische Testverfahren (z.B. U-test)?

    und noch eine andere Frage: Zu meiner Auswertung kommen auch dichotome Variablen (wie z.B. Intensivaufenthalt Ja/Nein). bei solch dichotomen Variablen, kann ja keine „Normalverteilung“ vorliegen. Benutze ich hierfür dann den chi²-Test oder besser den exakten Fisher-Test (exakter Chi²)?

    Ich hoffe meine Fragen machen Sinn und sind verständlich formuliert. Vielen vielen Dank im Voraus!

    1. Hallo Gäußchen,

      zum Normalverteilungstest: Exakter ist es, die Gruppen separat auf Normalverteilung zu prüfen. In der Praxis wird das allerdings oft nicht gemacht, sondern nur die Gesamtstichprobe getestet. Gibt es Abweichungen von der Normalverteilungsannahme, evtl. auch nur in einer Untergruppe, ist es streng genommen besser, einen nichtparametrischen Test durchzuführen. Hier gibt es allerdings erhebliche Spielräume. Z. B. schreibt Jürgen Bortz in Statistik für Human- und Sozialwissenschaftler, der t-Test reagiere robust auf Verletzungen seiner Voraussetzungen. Ich führe oft beide Tests durch (parametrisch und nichtparametrisch) und dokumentiere die Ergebnisse (den zweiten Test oft in einer Fußnote), dann ist man auf der sicheren Seite. Wenn sie zu unterschiedlichen Ergebnissen kommen, kann man das diskutieren.

      Ein Haken an Normalverteilungstests ist, dass sie eher bei großen Stichproben signifikant werden (im Sinne von signifikanter Abweichung von der Normalverteilung) und gerade bei großen Stichproben die Verfahren auch mit solchen Abweichungen robuster funktionieren. Bei kleinen Stichproben werden sie nicht so leicht signifikant, obwohl gerade da Abweichungen von der Normalverteilung kritischer sind. Empfehlung: Normalverteilung auch optisch prüfen (z. B. Histogramm mit Normalverteilungskurve).

      Der Fisher-Test ist dem Chi-Quadrat-Test vor allem bei sehr kleinen Stichproben überlegen. Für den Chi-Quadrat-Test sollten die erwarteten Häufigkeiten nicht (zu oft) unter 5 liegen.

      Hoffe das hilft weiter. Viel Erfolg!

  62. Hallo Herr Riepl,

    auf der Suche nach statistischen Methoden, die ich für meine Abschlussarbeit verwenden kann, bin ich auf Ihrer Seite gelandet. Ich hoffe Sie können mir ein wenig weiterhelfen bei der Auswahl der Methode(n).
    In meiner Arbeit untersuche ich die Arbeitgeberattraktivität der Gesundheitsbranche und habe dazu über einen Online-Fragebogen die Daten erhoben. Die meisten Daten sind nominalskaliert und univariat, diese würde ich mit einfacher deskriptiver Statistik darstellen. Jedoch habe ich insgesamt 5 Fragebogenitems mit einer fünf-stufigen Likert-Skala, hier würde ich die Mittelwerte berechnen und über einen T-Test überprüfen, ob die Mittelwerte signifikant verschieden sind. Die Skalen sollen jedoch mit den Daten des Geschlechtes kombiniert werden, ist dies so möglich?
    Eine weitere Frage ist mit welcher Methode ich von meiner Stichprobe auf die Grundgesamtheit schließen kann?

    Wie sie wahrscheinlich gemerkt haben bin ich statistisch ziemlich ahnungslos, deshalb verzeihen Sie mir bitte mögliche Fehler.

    Vielen Dank schon einmal im Voraus,
    Marcel S.

    1. Hallo Marcel,

      bei mehr als zwei Einzelvergleichen würde ich Varianzanalyse gegenüber t-Test bevorzugen. Bei mehreren Tests steigt die Wahrscheinlichkeit, dass mal „zufällig“ ein signifikantes Ergebnis dabei ist. Deshalb sollte der gesamte Hypothesenkomplex auf dem gewünschten Alpha-Niveau abgesichert werden. Salopp gesagt: Ein t-Test weiß nichts von den anderen t-Tests; in der Varianzanalyse kann man mehrere Einzelvergleiche zusammenfassen.
      Geschlecht mit berücksichtigen: Kommt drauf an, wie die Hypothesen lauten. Man kann für jeweils ein Item (oder eine Skala) die Geschlechter vergleichen: t-Test für unabhängige Stichproben. Oder Geschlecht als Kontrollvariable in einem komplexeren Modell, z. B. Varianz- oder Regressionsanalyse.

      Schluss von der Stichprobe auf die Grundgesamtheit: Das ist im Grunde die Idee hinter allen Signifikanztests, also keine Frage einer ganz bestimmten Methode. Neben der Statistik gehören Überlegungen dazu, wie die Grundgesamtheit definiert ist und ob die Stichprobe diese abbildet. Sind relevante Merkmale in der Stichprobe ähnlich verteilt wie in der Grundgesamtheit? Handelt es sich um eine Zufallssstichprobe? Etc.

      Eine detaillierte Betreuung kann ich in nächster Zeit leider nicht leisten, bin mit Projekten ausgelastet.

      Viele Grüße!

      Wolf

  63. Hallo,

    ich bin momentan auf der Suche nach dem geeigneten statistischen Testverfahren, um verschiedene Bedingungen innerhalb einer Stichprobe miteinander zu vergleichen.
    Es geht um eine recht kleine Stichprobe von ca. 20 Teilnehmern, die verschiedene Objektbewegungen auf einem Computerbildschirm identifizieren sollen.
    Vergleichen möchte ich dann Unterschiede in Genauigkeit der Antworten was zum Beispiel große und kleine Distanzen oder rechts und links angeht.
    Es handelt sich immer um eine Entscheidung zwischen: Ja, es hat eine Bewegung stattgefunden und Nein, es gab keine Bewegung.

    Da ich bisher wenig Erfahrung mit statistischer Auswertung habe, würde ich mich über einige Denkanstöße bezüglich der Auswahl eines geeigneten Verfahrens sehr freuen.

    Vielen Dank!

    1. Hallo Josefine,
      die kleine Stichprobe spricht meines Erachtens für nichtparametrische Verfahren. Bei Messwiederholung und dichotomem Merkmal (wie ja/nein) passt evtl. der McNemar-Test?

      1. Guten Morgen,

        vielen Dank für die schnelle Antwort! Nachdem ich alles noch einmal überdacht habe, ist mir aufgefallen, dass die Antwortmölichkeiten zwar ja/nein sind, die Anzahl der richtigen/falschen Antworten jedoch eine ganzzahlige Zahl sein wird, die normalverteilt ist. Aus diesem Grund tendiere ich zum momentanen Zeitpunkt zum t-test für eine einzige Stichprobe ohne Messwiederholungen. Auf diesem Wege müsste ich die beiden Bedingungen, die ich jeweils gegenüberstellen möchte mit einem Erwartungswert vergleichen können. Ist das richtig, oder denken Sie, dieser Test ist ungeeignet?
        Beste Grüße,
        Josefine

        1. Guten Morgen Josefine,
          hört sich gut an, Anmerkungen:
          Werden zwei Bedingungen verglichen, für die Sie eigene Daten haben? Jeder Teilnehmer hat jede Bedingung absolviert? t-Test für abhängige Stichproben (Messwiederholung)
          Vergleich zweier Bedingungen, wobei einige Teilnehmer Bedingung A absolviert haben, einige Bedingung B: t-Test für unabhängige Stichproben
          Vergleich einer Messung (Variable, Spalte) aus ihren Daten mit einem Erwartungswert, der nicht aus ihrem Datensatz stammt: t-Test für eine Stichprobe

          Bitte beachten: Wenn Sie sehr viele t-Tests durchführen, dann steigt die Wahrscheinlichkeit, zufällig ein signifikantes Ergebnis zu erzielen – Fachbegriff Alpha-Fehler-Kumulierung. Auf der verlinkten Webseite gibt es eine Anleitung, wie man manuell das Signifikanzniveau anpassen kann: p-Wert durch Anzahl der Einzelvergleiche teilen. Um der Alpha-Fehler-Kumulierung entgegenzuwirken, gibt es bei Varianzanalysen die Post-Hoc-Tests.

  64. Hallo Herr Riepl,

    ich hoffe Sie können mir bei meiner Methodenauswahl ein wenig behilflich sein, meine Dozentin ist momentan nicht erreichbar und Ich bin nicht so fit auf diesem Gebiet, da wir es in der Hochschule nie wirklich gelernt haben.

    Ich habe schon ein wenig Vorarbeit geleistet und meine Daten per Häufigkeitsverteilung, Mittelwert, etc. genauer betrachtet. Ich habe auch schon eine Faktorenanalyse durchgeführt um zu sehen welche Variablen für die FA geeignet sind.
    Jetzt geht es darum wie ich meine Hypothesen, mit welchen Methoden auswerten kann.
    Leider ist es so dass meine Dozentin von der Hochschule zwei Tests unbedingt haben möchte.
    2 multivariate Hypothesen anhand 2 multivariate Tests prüfen – Clusteranalyse, Regressionsanalyse mit Mediator oder Moderator oder Varianzanalyse mit oder ohne Messwiederholung.

    Welche Tests kann ich für welche Hypothese verwenden und sind meine Hypothesen überhaupt geeignet für für diese multivariaten Tests?

    Zuerst zu meinen Hypothesen:

    H1: Auf den einzelnen Social Media Plattformen sind mehr weibliche, als männliche Nutzer angemeldet.
    H2: Frauen sind prinzipiell zufriedener als Männer, in Bezug auf Social Media Plattformen.
    H3: Singles sind pro Tag länger auf Social Media Plattformen unterwegs, als Personen die in einer Beziehung bzw. verheiratet sind.
    H4: Männer wünschen sich weniger Werbeanzeigen auf Social Media Plattformen, als Frauen.
    H5: Jüngere Social Media Nutzer finden Werbeanzeigen interessanter, als Nutzer die älter als 30 Jahre sind.

    Stichprobengröße: n=212
    Thema: Social Media, Werbeanzeigen

    Können Sie mir bei meinem Problem helfen?
    Vielen Dank.

    Viele Grüße
    Sabrina

    1. Hallo Sabrina,
      danke für Ihre Nachricht!
      Ihre Hypothesen kann man bivariat testen, d. h. sie setzen jeweils zwei Variablen in Beziehung. Für multivariate Tests brauchen Sie mindestens drei Variablen.
      Clusteranalysen würde ich ausschließen, wenn Sie nahe an den bisherigen Hypothesen bleiben wollen – das ist ein exploratives Verfahren, bei dem man Gruppen bildet, d. h. es gibt keine Unterscheidung in abhängige und unabhängige Variablen. Regressionsanalysen oder Varianzanalysen sind besser geeignet, um ihre Hypothesen auf multivariate Anwendung zu erweitern.
      Für Messwiederholungen bräuchten Sie passende Daten. Die Hypothesen klingen eher nach Daten, die nur zu einem bestimmten Messzeitpunkt erhoben wurden. (Man kann allerdings auch den Vergleich verschiedener Social Media-Plattformen als Messwiederholungen modellieren.)

      Beispiel für eine multivariate Hypothese:
      Unter Kontrolle des Alters sind Frauen zufriedener als Männer in Bezug auf Social Media-Plattformen.
      Diese Hypothese können Sie mit Regressions- und Varianzanalysen testen.

      Moderator: Wechselwirkung, d. h. der Effekt einer Variable auf eine andere ist unterschiedlich je nach Ausprägung des Moderators.
      Mediator: Eine Drittvariable „vermittelt“ den Zusammenhang zwischen zwei anderen Variablen.

      1. Vielen Dank Wolf, dass du mir so schnell geholfen hast. Es ist manchmal echt schwierig herauszufinden welcher Test für welche Variablen geeignet ist. Das ist glaube ich für die meisten das schwierigste.
        Viele Grüße
        Sabrina

  65. Hallo,

    ich hoffe sehr auf Ihre Hilfe mit Methodenauswahl für meine Analyse.

    Ich habe folgende Daten:
    1. Ein Wert (eine abhängige Variable) für ca. 200 Unternehmen für Jahre 2004-2015. Für jedes Jahr gibt’s Daten für ca. 200 Unternehmen.

    2. Mehrere unabhängige Variablen (über 20), die die obengenannte abhängige Variable beeinflussen. Daten gibt’s auch für den Zeitraum 2004-2015 und für ca.200 Unternehmen.

    3. Einige unabhängige Variablen, die später als 2004 eingeführt wurden und die es nicht für alle Unternehmen gibt.. Manche wurden 2008 eingeführt (dann ist der Zeitraum für diese Variablen 2008-2015), andere 2012 (2012-2015) usw.

    Nun habe ich ein paar Fragen:
    1. Wie kann man analysieren, wie groß der Einfluss von jeder der unabhängigen Variable (s.o. Punkt 2) auf die abhängige Variable für die gesamte Zahl der Unternehmen ist?

    2. Kann man Analysieren, ob die Aufnahme neuer Variablen in den Datensatz (s.o.Punkt 3) einen Einfluss auf die abhängige Variable hat? Und wenn ja, wie groß dieser Einfluss wäre?

    Ich hoffe sehr auf Ihre Antwort! Würde mich auf jede Rückmeldung freuen!

    Vielen Dank!
    MfG
    Karelia P.

    1. Guten Abend Karelia,

      ja, das geht, aber es ist sehr fortgeschritten. Stichworte: Panelanalyse, GEE-Modelle (GEE = Generalized Estimating Equations).

      Viele Grüße,

      Wolf

  66. Hallo,
    Kenne mich leider statistisch nicht so gut aus und habe folgendes Problem.

    Habe diverse Daten von Banken, die ich in drei nicht überschneidende Banken-Gruppe gegliedert habe. Die Kennzahlen sind entweder von 0-100% oder theoretisch von minus unendlich bis plus unendlich. Eine Gruppe besteht nur aus 5 Teilnehmern.

    Ich möchte jetzt einen Mittelwertvergleich durchführen um signifikante Unterschiedeuu finden. Habe eine einfaktorielle ANOVA ausprobiert mit einem posthoc Test. Bin mir aber nicht sicher ob das richtig ist.

    Was musste man anwenden wenn Normalverteilungoder varianzhomogenität nicht gegeben sind bzw kann man die ANOVA überhaupt für alle oben genannten Tests anwenden?

    Danke jetzt schon für jede Antwort!
    LG Armin

    1. Hallo Armin,
      bei diesen kleinen Fallzahlen würde ich keine Anova nehmen oder wenn es unbedingt sein soll, dann wenigstens zusätzlich nichtparametrisch absichern. Die nichtparametrische Alternative ist der Kruskal-Wallis-Test. Er arbeitet nicht mit den Originalwerten, sondern mit Rangplätzen. Streng genommen macht man damit keinen Mittelwertvergleich, sondern einen Vergleich der „zentralen Tendenz“.
      Neuere SPSS-Versionen bieten auch dafür Post-Hoc-Tests an.
      Viel Erfolg!

      1. Vielen Dank für die Antwort Wolf!

        Ich habe gelesen das Kruskal Wallis Tests Probleme bei ungleichen Varianzen habe und es wurde ein Welch Test empfohlen. Kannst du dem zustimmen und würde das bei meinen Daten sinnvoll sein?

        1. Kruskal Wallis ist meines Wissens eine Alternative, wenn die Anova aufgrund ungleicher Varianzen problematisch ist. Da Kruskal Wallis nichtparametrisch (mit Rangplätzen) arbeitet, geht es nicht um Varianzgleichheit.

          Welch ist meines Wissens eine Korrektur bei t-Tests für ungleiche Varianzen.

          Anders gesagt: Kruskal Wallis müsste noch unempfindlicher gegenüber ungleichen Varianzen sein als t-Tests mit Welch-Korrektur.

  67. Hallo,

    ich versuche aktuell herauszufinden, wie sich die Arbeitsfähigkeit von Mitarbeitern einer Firma innerhalb von fünf Jahren verändert hat und suche dazu den richtigen Test.

    Gemessen wird die Arbeitsfähigkeit mit einem Fragebogen und es liegen insgesamt fünf Messzeitpunkte mit unterschiedlicher Teilnehmeranzahl vor. Nun möchte ich genau wissen, inwieweit sich die einzelnen Messungen unterscheiden und zudem die Ergebnisse anhand von 3 vorher festgelegten Altersgruppen analysieren, also welche Altergruppe sich wie verändert hat. Leider fehlt mir dazu das statistische Fachwissen, um sicher den richtigen Test auswählen zu können und hoffe deshalb hier auf Hilfe.

    Wenn meine Beschreibung verständlich ist, würde ich mich über eine Antwort sehr freuen. Vielen Dank vorab.

    1. Hallo Sven,
      klingt nach Varianzanalyse mit Messwiederholung. Mit welcher Software willst Du das analysieren? In SPSS z. B. unter Allgemeines Lineares Modell – Messwiederholung. Within Subjects: Veränderungen innerhalb der Mitarbeiter im Zeitverlauf; Between Subjects: Unterschiede zwischen Mitarbeitern (z. B. Altersgruppen).
      Die ganze Theorie dazu und die Optionen kann man nicht so kurz beschreiben …
      Viele Grüße!
      Wolf

      1. Hallo Wolf,

        vielen Dank für die rasche Antwort. Ja, ich werte die Daten mit SPSS aus. Nun bin ich dch mit Ihrer Antwort bereits ein Stück weiter gekommen. Da werde ich jetzt ansetzen und mich weiter schlau machen, um die einzelnen Schritte zu verstehen und anwenden zu können. Vielen Dank

        Sven

  68. Hallo ich bin gerade dabei drei Hypothesen zu überprüfen, leider sind meine Kenntnisse nicht sehr gut vor allem da ich nicht weiß welche Tests ich machen soll damit ich diese überprüfen kann.

    Ich hab folgende Hypothesen: Die Sympathie ist für Frauen bei einer Bankberatung wichtig, als wie für Männer
    Zweite: Angebot des Online-Bankings verwenden mehr Frauen als Männer und die Dritte: Männer sind eher unzufrieden mit ihrer Bankberatung als Frauen

    Alle drei Hypothesen hängen mit dem Geschlecht zusammen, ich habe es schon mit dem Mittelwert probiert aber damit kann ich meine Hypothesen nicht wirklich überprüfen. Bei der dritten Hypothese zum Beispiel möchte ich ja wissen wie viele Männer bei der Zufriedenheit des Bankberaters gesagt haben das es voll zutrifft, weniger zu trifft, zu trifft und nicht zu trifft.

    Kann mir jemand dabei helfen und mir sagen mit welchen Tests ich diese drei Hypothesen überprüfen kann?

    1. Hallo Claudia,

      ich fang mal in der Mitte an, weil die zweite Hypothese anders zu testen ist: So wie ich sie verstehe, ist das eine Kreuztabelle aus Online-Banking ja/nein und Geschlecht mit 2×2 = 4 Feldern. Da passt die unten stehende Antwort auf Lisa M.

      Bei der ersten und dritten Hypothese kommt es u. a. auf die Fallzahlen und Verteilungen an. Man könnte für Sympathie und Zufriedenheit schon Mittelwerte nehmen, wenn diese beiden Merkmale annähernd normalverteilt sind (grafische Überprüfung: z. B. Histogramm mit Normalverteilungskurve oder QQ-Plot; statistischer Test: z. B. Shapiro-Wilk). Dann t-Test für unabhängige Stichproben, Geschlecht jeweils als Gruppenvariable. Bei Nicht-Normalverteilung, kleiner Fallzahl und/oder sehr ungleichen Gruppengrößen (Anzahl Frauen vs. Männer) gibt es als Alternative den nichtparametrischen Mann-Whitney-U-Test.

      1. Vielen Lieben Dank für deine schnelle Hilfe.
        Die Kreuztabelle zeigt mir sehr gut wie viele Frauen und Männer was geantwortet haben.

  69. Hey,

    ich bin völlig in ahnungslos in Sachen Statistik und muss jetzt aber mit Spss meine Fragebogendaten auswerten.

    Ich habe folgende hypothese:

    Leistungsorientierte Badmintonspieler halten die Dienst- und Serviceleistungen des DBV für wichtiger als die freizeitorientierten Badmintonvereinsspieler.

    Dazu habe ich in meinen Daten einmal die Angabe zu der Spielorientierung meiner Stichprobe (1=Freizeitorientiert 2=Leistungsorientiert) und zu den jeweilien Dienst- und Serviceleistungen hab ich jeweils die Antwortmöglichkeit (1= sehr wichtig; 2=weniger wichtig)

    Es wäre super, wenn du mir sagen könntest welcher Test der richtige ist um meine Hypothese zu überprüfen. Vielen Dank!

    1. Hallo Lisa,

      mach eine einfache Kreuztabelle. Es gibt hier ja nur 2×2 = 4 Felder. Als Test würde ich den Chi-Quadrat-Test nehmen bzw. bei kleiner Fallzahl (Warnung unter der Tabelle, wenn Zellen eine erwartete Häufigkeit < 5 aufweisen) den exakten Test nach Fisher (beides steht in der Ergebnistabelle). Fisher hat noch den Vorteil, dass ein einseitiger Signifikanzwert angegeben wird. Du hast eine gerichtete Hypothese, da Du angibst, in welche Richtung Du einen Unterschied erwartest. Dadurch kannst Du einseitig testen und wirst mit einem kleineren p-Wert "belohnt". (Im Zweifelsfall Chi-Quadrat und Fisher berichten.) Falls der Unterschied in die andere Richtung weist (freizeitorientierte Badmintonspieler halten die Serviceleistungen häufiger für sehr wichtig), ist die Hypothese unabhängig vom p-Wert widerlegt. Die Nullhypothese lautet: Die relativen (=prozentualen) Häufigkeiten der Antwortmöglichkeiten "sehr wichtig" und "weniger wichtig" hinsichtlich der Serviceleistungen sind in beiden Gruppen der Badmintonspieler gleich. Ein signifikanter p-Wert (kleiner oder gleich 0,05) bedeutet, die Unterschiede sind signifikant. Viel Erfolg! Wolf

      1. Hallo Wolf,

        ich sitze gerade an der Auswertung meiner erhobenen Parameter und weiß nicht weiter 🙁

        Ich habe eine Interventions- und Kontrollgruppe. Pro Gruppe habe ich 9 Probanden. Ich habe einen Pre- und Posttest gemacht, bei dem ich 2 Parameter gemessen habe. Die Prüfung auf Normalverteilung mit dem Shaprio-Wilk-Test hat eine Normalverteilung ergeben. Aber welchen Test nehme ich jetzt? Den T-Test für abhängige Stichproben kann ich nicht nehmen, da ich ja nicht genügend Fälle habe. Ist dann der Wilcoxon-Test der richtige? Oder doch eher eine einfache Varianzanalyse mit Messwiederholung?

        Vielen Dank für deine Antwort!

        1. Hallo Tatjana,

          bei N=18 (bzw. 9 pro Gruppe) würde ich nicht von einer Normalverteilung ausgehen (mit so wenigen Punkten kann man kaum eine Gaußsche Glockenform nachbilden). Daher halte ich nichtparametrische Tests für angemessener – in dem Fall Wilcoxon. Der t-Test für abhängige Stichproben ist ein Spezialfall der Varianzanalyse mit Messwiederholung – die beiden Verfahren müssten zum gleichen Ergebnis kommen und beruhen auf den gleichen Voraussetzungen. Wenn man den t-Test nicht will, sollte man die Varianzanalyse auch nicht nehmen.

          Manche sehen es nicht so streng, z. B. Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler: „Der t-Test reagiert robust auf Verletzungen seiner Voraussetzungen.“ Wenn Du es also ausführlicher machen willst, kannst Du t-Test und Wilcoxon-Test machen, die Ergebnisse vergleichen und diskutieren. Im Zweifelsfall würde ich hier mehr auf Wilcoxon vertrauen.

          Viel Erfolg,

          Wolf

          1. Hallo, bemerkenswerte Arbeit die hier passiert… darf man dafür auch bezahlen? Das Geld wäre es allemal wert… Ich habe nämlich auch eine Frage. In meiner Masterarbeit nutze ich 4 Fragebögen: Becks-Dep.Inventar (BDI), ASKU, WHO5 und eine Resilienzskala RS13… es geht um die Resilienzwerte in 3 verschiedenen Gruppen und Korrelatonen mit den restlichen Werten und ich bin ziemlich ratlos, mit welchen Analysen ich da dran gehen soll…
            lieben Gruß
            Susanne

          2. Hallo Susanne,
            danke für Deinen Kommentar! Leider biete ich zur Zeit keine Auswertungen an – bin voll mit R-Schulungen ausgelastet.
            Vielleicht magst Du es bei Daniela Keller (Statistik + Beratung) versuchen?
            Viele Grüße und viel Erfolg
            Wolf

Schreibe eine Antwort zu Gregor Schneider Antwort abbrechen