Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?

SPSS: Ausschnitt aus der Testauswahl im Menü "Analysieren"

Die Universität Zürich bietet eine empfehlenswerte Hilfestellung bei der Auswahl des geeigneten statistischen Tests bzw. der passenden multivariaten Analysemethode. In einem Entscheidungsbaum sind Unterschiedstests und Verfahren für Zusammenhangs- und Interdependenzanalysen dargestellt; farbliche Abstufungen berücksichtigen das Skalenniveau (nominalskaliert, ordinalskaliert oder intervallskaliert); zusätzlich wird auch dargestellt, ob normalverteilte Daten vorausgesetzt werden oder ob es sich um ein verteilungsfreies (nichtparametrisches) Verfahren handelt:

Entscheidungshilfe zur Auswahl des geeigneten statistischen Tests

Zusätzlich gibt es noch einen interaktiven Entscheidassistent, bei dem man mit Fragen Schritt für Schritt und Klick für Klick zur geeigneten statistischen Methode geführt wird.

Theoriegeleitetes Testen vs. exploratives Vorgehen (Strukturen entdecken)

Zunächst ist zu klären, ob bereits eine konkrete Fragestellung vorliegt oder ob ein Algorithmus Strukturen entdecken und damit weitergehende Fragen vorbereiten soll. Im letzteren Fall werden Faktorenanalysen zur Zusammenfassung von Variablen oder Clusteranalysen zur Gruppierung von Objekten / Personen vorgeschlagen.

Zusammenhangsanalysen

Im ersteren Fall (konkrete Fragestellung) muss man sich zwischen Zusammenhangsanalysen und Unterschiedsanalysen entscheiden.

Zusammenhänge von zwei Variablen können mit Korrelationen untersucht werden. Je nach Skalenniveau wird die Pearson-Korrelation (intervallskalierte Merkmale) oder die Rangkorrelation nach Spearman (ordinalskalierte Merkmale) oder der Chi-Quadrat-Test (kategoriale Merkmale) empfohlen.

Für Zusammenhänge zwischen mehr als zwei Variablen steht eine Palette an Regressionsmodellen zur Verfügung. Je nach abhängiger Variable (AV) ist die multiple lineare Regression (AV intervallskaliert) oder die logistische Regression (AV mit zwei Ausprägungen) angezeigt. Es liegen Erweiterungen der logistischen Regression für ordinalskalierte (ordinale logistische Regression) sowie für nominalskalierte Merkmale mit mehr als zwei Ausprägungen vor (multinomiale logistische Regression).

Unterschiedsanalysen: Parametrisch vs. nichtparametrisch („verteilungsfrei“)

Bei Unterschiedshypothesen ist zu klären, worauf sich die Unterschiede beziehen: Auf Mittelwerte bzw. zentrale Tendenz; auf Varianzen; auf Proportionen / Häufigkeiten. Hier weichen wir etwas vom Entscheidassistent ab: Dort taucht die Frage nach „verteilungsfrei vs. normalverteilt“ in vielen Unterpunkten auf – wir ziehen sie vor.

Parametrische Verfahren treffen Verteilungsannahmen: v. a. die berühmt-berüchtigte Normalverteilungsannahme, die in der Realität mehr oder weniger stark verletzt sein kann. Leider haben Tests auf Normalverteilung (NV) wie der Shapiro-Wilk-Test die unangenehme Eigenschaft, leichter bei größeren Stichproben signifikant zu werden – gerade dann können statistische Tests jedoch Abweichungen von der NV besser verkraften. Kleine Stichproben sind da kritischer. Deshalb sollte die NV-Annahme auch grafisch geprüft werden, z. B. mit einem Histogramm mit NV-Kurve. Es gibt einen gewissen Entscheidungsspielraum; im Zweifelsfall können parametrische Tests durch ihr nichtparametrisches Pendant ergänzt und die Ergebnisse verglichen und diskutiert werden.

Nichtparametrische Tests treffen keine Verteilungsannahmen, sie gelten als „verteilungsfrei“. In der Regel werden die Daten dazu in Rangplätze umgewandelt. Beispiel: Aus 9,90s vs. 9,91s vs. 16s für drei Athleten beim 100m-Lauf, wobei der dritte verletzt war, wird 1, 2, 3 bzw. erster, zweiter, dritter – unabhängig von den gemessenen Zeitabständen.

Abhängige vs. unabhängige Stichproben

Ein weiteres Kriterium, das sich bei mehreren Verzweigungen zeigt, ist die Frage, ob zwei (oder mehr) Stichproben (Gruppen) von einander unabhängig sind. Abhängige Stichproben werden im Entscheidassistent etwas vereinfacht definiert als die gleiche Gruppe, die mehrfach befragt wird. Oft handelt es sich in der Tat um Messwiederholungen der gleichen Probanden, z. B. Vorher-Nachher-Messungen bei Patienten vor und nach einer Behandlung. Abhängige Stichproben können jedoch auch vorliegen, wenn es sich um verschiedene Personen (Untersuchungsobjekte) handelt, z. B. bei Ehepaaren oder Zwillingen. Entscheidend ist, dass ein Element der einen Gruppe einem ganz bestimmten Element der anderen Gruppe zugeordnet ist (dem Ehepartner, Zwilling, …).

Bei unabhängigen Stichproben ist das nicht der Fall: Die „Sortierung“ innerhalb der Gruppen spielt keine Rolle, es gibt keine paarweise Zuordnung der Probanden der einen Gruppe zu jeweils ganz bestimmten Probanden der anderen Gruppe.

Unterschiedsanalysen: Mittelwerte / zentrale Tendenz

Will man Mittelwerte („parametrisch“) bzw. die zentrale Tendenz („nichtparametrisch / verteilungsfrei“) vergleichen, stehen folgende Tests zur Verfügung:

  • unabhängige Stichproben, parametrisch
    zwei Gruppen: t-Test für unabhängige Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse
  • unabhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Mann-Whitney-U-Test
    mehr als zwei Gruppen: Kruskal-Wallis-Test
  • abhängige Stichproben, parametrisch:
    zwei Gruppen: t-Test für abhängige (=verbundene) Stichproben
    mehr als zwei Gruppen: (einfaktorielle) Varianzanalyse mit Messwiederholung
  • abhängige Stichproben, nichtparametrisch („verteilungsfrei“):
    zwei Gruppen: Wilcoxon-Test; bei nominalskalierter abhängiger Variable: Vorzeichentest
    mehr als zwei Gruppen: Friedman-Test

Unterschiedsanalysen: Varianzen

  • normalverteilt: F-Test
    Anmerkung: Eine Voraussetzung des t-Tests sind gleiche Varianzen in den Gruppen. Dazu wird in einigen Statistik-Paketen (z. B. SPSS) ein F-Test vorgeschaltet. Es gibt jedoch einen Korrekturfaktor (der sich auf die Freiheitsgrade auswirkt). In R kann man den Welch-Test durchführen, der diese Korrektur enthält.
  • verteilungsfrei: Chi-Quadrat-Test

Unterschiedsanalysen: Proportionen / Häufigkeiten

  • zwei Ausprägungen: Binomialtest
  • mehr als zwei Ausprägungen: Chi-Quadrat-Test

Zu speziellen Entscheidungsfragen siehe folgende Beiträge:

Korrelation: Pearson vs. Spearman
T-Test oder U-Test?
Signifikanztests bei Kreuztabellen: Kategorien sinnvoll zusammenfassen (behandelt den Chi-Quadrat-Test)

Zum Entscheidassistent der Universität Zurich

Hier gibt es Anregungen für die Visualisierung statistischer Daten.

Abschließend noch ein paar Literaturempfehlungen. Wer gern auf Englisch liest, dem sei Andy Field wärmstens empfohlen. Mit seinen abstrusen Beispielen und seinem schrägen Humor könnte Statistik (fast??) Spaß machen – ganz entgegen dem alten Studi-VZ-Motto: SPSS – Das „A“ fehlt nicht umsonst. Es gibt auch eine (spätere) Version für R.

133 Gedanken zu „Methodenberatung: Welcher statistische Test passt zu meiner Fragestellung und meinen Daten?“

  1. Lieber Wolf,
    ich habe eine Frage bezüglich Ausreißeranalyse. Ich verwende in meiner Masterarbeit mehrere Analysen, u.a. Clusteranalyse, Diskriminanz-, Varianz- und Regressionsanalysen. Muss ich für jeden Analyseschritt separat eine Ausreißeranalyse machen? Und wie verhält es sich, wenn ich eine extreme Gruppe erwarte, in meinen Fall Psychopathen, die sich in ihren Mittelwerten in den Tests sehr stark von den anderen Teilnehmenden unterscheiden. hier wäre doch eine strenge Ausreißeranalyse kontraproduktiv.
    Herzlichen Dank für eine Antwort.
    Marco.

    1. Hallo Marco,
      ich empfehle den Ansatz, Statistik als Hilfsmittel zu betrachten, um Fragen zu beantworten. Der Gegensatz dazu wäre, sich das Vorgehen vollkommen von statistischen statt inhaltlichen Kriterien vorgeben zu lassen. Du hast ja gute Gründe, Ausreißer zu erwarten – prima! Ausreißeranalyse muss ja nicht heißen, (alle) Ausreißer zu eliminieren.

      In wissenschaftlichen Arbeiten hat man (vorbehaltlich der Vorlieben von Betreuern) in aller Regel die Aufgabe erfüllt, wenn man Befunde und Methoden diskutiert und zeigt, dass man sich möglicher Probleme / Grenzen bewusst ist. Haben etwa Ausreißer einen starken Einfluss auf Regressionsergebnisse, kann man das z. B. in einem Abschnitt „Methodendiskussion“ erwähnen. Falls inhaltlich sinnvoll, könnte man ein Modell ohne Ausreißer zum Vergleich darstellen.
      „Perfekte“ Modelle, die alle Voraussetzungen erfüllen, findet man in der Praxis so gut wie nie …

      Vielleicht genügt es ja, die Ausreißer in einem zentralen Abschnitt zu betrachten und dort auf (mögliche) Auswirkungen auf verschiedene Modelle zu verweisen.

      Viel Erfolg!

      1. Lieber Wolf,
        herzlichen Dank für die sehr detaillierte Antwort. Sie haben natürlich Recht, Statistik als Hilfsmittel für die Beantwortung von Fragen zu nutzen. Das ist eine gute Prämisse für meine weitere Arbeit. Lieben Gruß, Marco.

  2. Hallo Wolf,

    ich probiere es mal hier, da ich trotz Recherche bisher nicht die Antwort auf meine eigentlich vermeintlich simple Frage gefunden haben.

    Ich habe einen eindimensionalen chi-Quadrat-Test durchgeführt, um zu überprüfen, ob sich die Ausprägungen aller Probanden (eine Stichprobe) in einer Variable (nominalskaliert, 3-stufig) von einer zufälligen Verteilung (also jeweils 33 % pro Ausprägung) unterscheiden. Chi-Quadrat ist signifikant, so weit so gut.
    Nun soll meine Hypothese aber eigentlich idealerweise spezifischer „Kontraste“ umfassen, d.h. die Aussage, dass sich die Ausprägungen jeweils voneinander signifikant unterscheiden, also Stufe 1 vs. Stufe, 2 vs. 3 und 1 vs. 3 (also analog zu Kontrasten bei der ANOVA).
    Der Binomialtest vergleicht nur die Ausprägungen von zweistufigen Variablen, beim Friedman-Test werden die Ausprägungen verschiedener Variablen verglichen, geht also alles nicht. Ich möchte einfach nur wissen, ob Stufe 1 signifikant häufiger vorkommt als Stufe 2…. welchen Test nehme ich dafür?

    Viele Grüße
    qypthone

    1. Hallo qypthone,
      klingt simpel, wird aber wohl nicht so häufig gemacht. Meine Vermutung: mehrere Binomialtests, Signifikanzniveau anpassen. Eine (konservative) Korrektur ist Bonferroni: Dabei wird das Signifikanzniveau durch die Anzahl der Einzelvergleiche geteilt. Bei drei Vergleichen (1 vs. 2, 1 vs. 3, 2 vs. 3) müsste der p-Wert also <= 0,017 (0,50 / 3) sein, um auf 5%-Niveau signifikant zu werden. (p = 0,05 gilt dann für den gesamten Hypothesenkomplex, also über die drei Vergleiche hinweg.)

      1. Hallo Wolf,

        schon mal vielen Dank für die schnelle Antwort! Es tröstet mich, dass es offenbar doch nicht ganz so simpel ist.

        Ich habe zwischenzeitlich tatsächlich einen Binomialtest gerechnet und zwar Stufe 1 vs. Stufe 2 + Stufe 3 (und dann die erwarteten Wahrscheinlichkeiten auf 33 vs. 67 % gesetzt). Da Stufe 1 am interessantesten ist, ist das eine gewisse Annäherung an das was ich möchte.

        Ist deine/ihre Idee nun, das für alle Kombinationen der 3 Stufen zu machen (also noch für 2 vs. 1 +3 und für 3 vs. 1 + 2)? Denn mit einer 3-stufigen Variable kann ich ja keinen Binomialtest rechnen.

        1. Wenn es für Deine Fragestellung / Hypothese genügt, 1 vs. 2+3 zu testen, würde ich es dabei belassen. Wenn Du es noch inhaltlich begündest – top. Das entspricht theoriegeleitetem Vorgehen. Die Variante mit allen Einzelvergleichen und Korrektur des Sig.niveaus ist eher die Notlösung.

          1. Ob das ausreicht ist leider nicht so ganz eindeutig, bzw. Auslegungssache 🙂

            D.h. ich habe es aber richtig verstanden, dass ich für jeden Einzelvergleich erst eine passende zweistufige Variable kreieren müsste die ich dann mit der übrig bleibenden Kategorie vergleiche? Denn sonst geht der Binomialtest ja nicht… In dem Fall würde ich das nicht machen, weil die anderen „2:1-Vergleiche“ für mich nicht besonders aussagekräftig sind. Ich bräuchte, wenn überhaupt, noch Vergleiche von 1 vs. 2 und 1 vs. 3, die wären ein gutes add-on.

            Könnte man auch über eine logistische Regression an die Sache rangehen? Also die Ausprägungen der Variable zu 3 Dummyvariablen machen und diese dann als Prädiktoren die ursprüngliche Variable vorhersagen lassen?

          2. > D.h. ich habe es aber richtig verstanden, dass ich für jeden Einzelvergleich erst eine passende zweistufige Variable kreieren müsste die ich dann mit der übrig bleibenden Kategorie vergleiche?
            Mit Filtern (Auswählen der entsprechenden Fälle) müsste es auch gehen.

            > Könnte man auch über eine logistische Regression an die Sache rangehen?
            So wie ich es jetzt verstehe, geht es nur um eine Variable (die umcodiert wird). Die kann ja nicht auf beiden Seiten der Gleichung stehen? Regressionsmodelle sind nur sinnvoll, wenn abhängige und unabhängige Variablen unterschiedlich sind (also nicht nur Umcodierungen derselben Ausgangsvariable).

  3. Guten Abend Wolf,
    zunächst einmal vielen Dank für die ausführlichen Berichte!
    Da ich ein etwas anderes Studiendesign habe, wende ich mich an dich.

    Ich habe mittels eines Experiments ein 2×2 between-subject Design (N=640) durchgeführt.

    Dabei habe ich 5 unabhängige Variablen und eine abhängige Variable auf einer 7er Likert erfragt und die Mittelwerte errechnet.
    Des Weiteren habe ich 2 dichotome Moderatoren (Treatment 1: ja / nein und Treatment 2: ja / nein), welche durch die between-subject Szenarien dargestellt wurden. Das meint, dass jedem Probanden eins von vier Szenarien zufällig zugewiesen wurde. Sprich: Nur jeder vierte Proband hat das gleiche Treatment gesehen.
    Jeder Proband sollte dann anhand der in dem Szenario dargestellten Situation die abhängige Variable aufgrund dessen beantworten.

    Die Regression zwischen den unabhängigen und der abhängigen Variable zeigt signifikante Zusammenhänge.

    Allerdings bin ich mir unsicher, wie ich jetzt weiter auf die beiden Moderatoren verfahre.
    Wie würdest du verfahren mit den beiden Moderatoren als Between-ubject? Wie würdest du die Analyse in SPSS darstellen?

    Ich würde mich sehr über deine Hilfe freuen, da meine eigene Recherche bisher leider erfolglos war.
    Viele Grüße
    Marius

    1. Hallo Marius,
      wenn ich das Design richtig verstehe, kannst Du Moderatoreffekte durch simple Multiplikation eines Moderators mit einer UV einbauen.
      Meine Empfehlung: Verwende pro Modell nur einen Moderator und entscheide, auf welche UV er wirken soll. Modelle mit Moderatoreffekten sind schwierig genug zu interpretieren – mit mehr als einem Moderator vervielfachen sich die Wechselwirkungen. Ich würde das in separaten Modellen testen, vergleichen und diskutieren.
      Grafische Interpretationen finde ich einfacher als die Beschränkung auf Modell-Koeffizienten.
      Wolf

  4. Hallo Wolf, ich habe sowohl für die Voraussetzung der univariaten Varianzanalyse und der Pearson-Korrelation etwa an die 30 Ausreißer, die allerdings plausibel sind, also keine Fehler. Es sind extremere Antworten auf Skalen, die Einstellungen abfragen.
    Ich habe bzgl. Ausreißer und ANOVA gelesen, dass es bei solch komplexen Analysen meist keine nicht-parametrischen Alternativen gibt und man daher zusätzlich mit Bootstrapping rechnen kann, um das Problem der Ausreißer anzugehen.

    Ist es auch bzgl. Pearson denkbar wegen der Ausreißer ein zusätzliches Bootstrapping durchzuführen? Oder muss ich hier ganz auf den Spearman Koeffizienten zurückgreifen (es handelt sich um zwei metrische Skalen)?
    Viele liebe Grüße und danke, dass du hier allen so toll antwortest 🙂 Das hilft sehr!!
    Lina

    1. Hallo Lina,
      nicht einfach, das so pauschal zu beantworten. 30 Ausreißer klingt nach insgesamt größerer Fallzahl? Generell gilt: Je größer die Fallzahl, desto weniger fallen Verletzungen der Verteilungsannahmen ins Gewicht.
      Bootstrapping ist eine elegante Alternative zu „klassischer“ formelbasierter Statistik. Müsste bei Pearson auch möglich sein.
      Univariate Varianzanalyse klingt allerdings nicht so komplex, da gibt es doch nichtparametrische Alternativen? (z. B. Friedman-Test)
      Wenn Du es ausführlich machen magst, kannst Du mehrere Ansätze vergleichen und diskutieren, das wird (je nach Fachrichtung – zumindest in Sozialwissenschaften) oft honoriert.
      Viel Erfolg

      1. Hallo Wolf,
        danke dir für deine schnelle Rückmeldung und den Input :). Ja, ich habe an die tausend Probanden gesammelt. Das klingt schon mal gut! Ich werde wohl zusätzlich Bootstrapping für Pearson schalten.
        Ist es denn schlimm, wenn neben den Ausreißern auch die Normalverteilung der Residuen bei der ANOVA nicht gegeben ist oder kann man auch hier mit der hohen Fallzahl argumentieren? Verschiedene Ansätze zu vergleichen, klingt aber auch nach einer guten Lösung und zeigt, dass man sich damit auseinander gesetzt hat. Ich hatte hier auch wegen der unabhängigen Stichproben und der NV-Verletzung den Median-Test im Auge.
        Liebe Grüße
        Lina

        1. Hallo Lina,
          es kann verschiedene Gründe geben, warum Residuen nicht normalverteilt sind. Schau Dir mal den Datensatz von Anscombe an – da gibt es ein sehr anschauliches Wikipedia-Beispiel.
          https://de.wikipedia.org/wiki/Anscombe-Quartett
          In manchen Fällen wird das Modell deutlich besser, wenn eine Variable zusätzlich mit aufgenommen wird, die einen starken Einfluss auf die abhängige Variable ausübt.
          Es kann auch sein, dass der Zusammenhang nichtlinear ist (z. B. quadratisch), dann enthalten die Residuen bei einem linearen Modell (dazu zählt ANOVA) nicht-zufällige Muster.
          Empfehlung: Streudiagramme ansehen, ggf. Anpassungslinien (Geraden, Lowess etc.) einzeichnen lassen.

  5. Hallo Wolf!
    Erstmal Kompliment für den hilfreichen Artikel!
    Ich habe leider folgendes Problem. Im Rahmen meiner Masterarbeit habe ich ein Online-Experiment durchgeführt, bei welchem den Teilnehmern einer von 4 Stimuli ausgespielt wurde. Untersucht wurde als AV die Werbewirkung. Diese ist gegliedert in drei AV’s: die Markenbewertung, die Bewertung der Werbung sowie die Kaufabsicht.
    Des Weiteren wurden drei Moderator-Variablen erhoben, welche ich nun versuche in Zusammenhang mit UV und AV zu bringen. Leider bin ich mir jetzt bei der Auswertung leider nicht sicher, wie man hier am besten vorgeht, bzw. ob mein Vorhaben überhaupt möglich ist. M
    Pro Stimuli-Gruppe habe ich circa 50 Teilnehmer, insgesamt also um die 200.
    Eventuell kannst du mir ja weiterhelfen.
    Viele liebe Grüße!
    Steffi

    1. Hallo Stefanie,
      meine Empfehlung wäre, sofern Du keine anderen Vorgaben hast, separate Modelle aufzustellen: für jede AV und für jeden Moderator. Entsprechend würde ich für jede AV und jeden Moderator eine eigene Hypothese formulieren. Mehrere Moderatoren in einem Modell sind nach meiner Erfahrung kaum interpretierbar.

  6. Lieber Wolf,
    vielen herzlichen Dank für all die tollen und verständlichen Erklärungen! Eine Frage habe ich jedoch aktuell: Ich würde gerne schauen, ob es einen generellen Zusammenhang zwischen Alter und Bildung in meiner Stichprobe gibt (N=1400). Hierzu habe ich wegen der ziemich großen Alterspannweite Alterskategorien gebildet und mir einen Chi-Quadrat Wert zusammen mit Cramer V ausgeben lassen. Ergebnis: Signifikant und mittlere Zusammenhangsstärke.

    Aus Interesse habe ich dann noch einmal das Alter ohne Kategorien (metrisch) mit der Bildung untersucht (über bivariate Korrelation, Spearman und Kendall Tau-b). Dieses Mal zeigt sich kein signifikanter Zusammenhang. Wie kann das sein und wie gehe ich damit um, also was ist zu berichten?
    Viele Grüße
    Claudia

    1. Hallo Claudia,
      der Chi-Quadrat-Test berücksichtigt keine Rangfolge, er betrachtet sozusagen gleichberechtigt nebeneinander stehende Kategorien. Beim Alter ist jedoch die Reihenfolge wichtig. Daher würde ich erst mal der Korrelation mehr trauen.
      Nichtsignifikante Korrelation heißt: Kein linearer Zusammenhang. Deine Ergebnisse könnten auf einen nichtlinearen Zusammenhang deuten. Ich würde mir den Zusammenhang grafisch ansehen, z. B. ein Streudiagramm (Punktdiagramm) mit Alter und Bildung. Elegant wären noch Anpassungslinien: Linear und nichtlinear.

  7. Hallo, ich hätte mal eine (bzw. mehrere) Frage(n).

    Für meine Abschlussarbeit habe ich mehrere Hypothesen aufgestellt und sollte multiple Regressionsanalysen mit jeweils einer Moderatorvariablen durchführen. Ich habe eine einzige abhängige Variable, die aus einer Likertskala (von 1 bis 5) besteht. Pro Hypothese bzw. Analyse habe ich also je eine abhängige, eine unabhängige und eine Moderatorvariable. Nun habe ich die Analysen in Excel durchgeführt und es hat alles soweit gut funktioniert und die Ergebnisse sind auch interpretierbar. Nun habe ich gelesen, dass ich auch noch auf Normalverteilung testen muss/soll. Das habe ich für die abhängige Variable mit einem Kolmogorov-Smirnov-Test und einem Q-Q-Plot sowie für alle Variablen mit Schiefe und Kurtosis getestet (alles in Excel, problemlos). Die abhängige Variable scheint in allen Fällen normalverteilt zu sein. Ich habe eine Stichprobengröße von über 150. Meine Fragen lauten daher:

    a) Muss ich lediglich die abhängige Variable auf Normalverteilung testen oder ALLE Variablen (inkl. unabhängige und Moderatorvariable)?
    b) Falls ich ALLE Variablen testen muss: Wie sieht es aus, wenn mein Moderator binär ist (0 oder 1) ? Kann ich die oben erwähnten Analysen dennoch durchführen?
    c) Was mache ich mit Variablen, die nicht normalverteilt sind? Kann ich mich da auf den zentralen Grenzwertsatz berufen?
    c) Kann ich meine Ergebnisse der multiplen Regressionsanalysen (mitsamt der t-Statistik, p-Wert, R^2 etc.) dennoch beibehalten?

    Ich freue mich auf Ihre Antwort.

    1. Hallo Mustafa,
      a) Die AV ist meines Erachtens die wichtigste beim Test auf NV. Bei den anderen empfehle ich auch, die Verteilungen „mit gesundem Menschenverstand“ anzusehen. Wenn es z. B. bei einer Variablen mit dem Wertebereich 1 bis 5 sehr viele 1er und 5er gibt, aber (fast) keine Werte dazwischen – wie sinnvoll ist dann eine Interpretation im Sinne „Wenn x um eine Einheit steigt …“?
      b) Binäre Moderatoren sind nicht ungewöhnlich.
      c) und d) Das hängt auch etwas vom Fachbereich / Betreuer ab. Ich komme aus dem sozialwissenschaftlichen Bereich, wo statistische Voraussetzungen oft mehr oder weniger deutlich verletzt werden. Wir wurden gut bewertet, wenn wir Ergebnisse vorsichtig interpretierten und Voraussetzungen diskutierten. Man kann sich die Daten nicht perfekt zaubern, aber man kann zeigen, dass man Anforderungen versteht und Ergebnisse einordnen kann. Z. B. würde ich auch bei kleinen Wertebereichen (etwa 1 bis 5 bei Ihrer AV) weniger auf exakte Modellformeln abzielen (und Dezimalstellen) und eher Wirkungsrichtungen und Schlussfolgerungen hinsichtlich der Hypothesen diskutieren.
      Viel Erfolg!

  8. Lieber Herr Riepl,

    ich habe einen Fragebogen erstellt den ich mittels einer Hauptkomponenten-Analyse auf eine begrenzte Zahl von Komponenten reduziert habe. Diese möchte ich gerne als abhängige Variablen untersuchen.
    Die Komponenten würden damit aus verschiedenen Fragebogenitems bestehen die mit „stimme gar nicht zu“ (codiert als 1), „stimme eher nicht zu“ (=2), „stimme eher zu“ (=3) und „stimme völlig zu“ (=4) beantwortbar sind.
    Nun wäre das Skalenniveau ja eigentlich ordinal. Müsste ich, wenn ich einen Summenscore aus den Items in einer Komponente (=AV) bilde, bei einem Gruppenvergleich (3 Gruppen) dann den H-Test (Kruskal-Wallis) anwenden? Oder wäre aufgrund der Codierung auch eine Anova möglich bzw. sinnvoll?

    Über einen Rückmeldung von ihnen wäre ich sehr dankbar!
    Viele Grüße

    1. Hallo Lisa,
      zum Verständnis: mit einer Hauptkomponenten-Analyse kann man Items zusammenfassen, wenn man mit den Faktorwerten weiterrechnet. Die sind dann wesentlich feiner abgestuft als die ursprünglichen 4-stufigen Items. Da hätte ich mit parametrischen Verfahren (Anova, gilt auch für Regression etc.) keine Bedenken (außer die Verteilungen sind sehr schief).
      Auch ein Summenscore aus mehreren Items ist feiner abgestuft, d. h. hat mehr als vier Ausprägungen. Auch das halte ich für Anovas etc. für geeignet.
      Wenn Sie die ursprünglichen 4-stufigen Items EINZELN verwenden (d. h. die AV hat tatsächlich nur 4 Ausprägungen): Da gibt es verschiedene Auffassungen, strenge und weniger strenge. Bei sozialwissenschaftlichen Fragestellungen werden auch da manchmal parametrische Verfahren angewendet. In dem Fall würde ich zumindest das Vorgehen in einem methodenkritischen Abschnitt diskutieren. Wenn Sie Zeit und Platz haben, ergänzend auch nichtparametrische Tests (wie Kruskal-Wallis) rechnen, vergleichen und diskutieren.
      Viel Erfolg!
      Wolf

  9. Hallo Wolf,

    ich bin gerade bei der Datenauswertung für meine Doktorabreit und habe folgendes Problem: Ich habe Vergleich mithilfe des T-Tests für unabhängige Stichproben durchgeführt. Nun würde ich gerne eine Kontrollvariable in den vergleich einbeziehen und hatte deshalb eine Varianzanalyse durchgeführt. Der Leven-Test ergab jedoch, dass nicht von homogenen Varianzen ausgegangen werden kann (p<.001).

    Kannst Du mir hier weiterhelfen? Kann ich nun meinen Datensatz aufteilen und fpr die nominalskalierte Kontrollvariable getrennt einen T-Test für unabhängige Stichproben durchführen?

    Vielen Dank im Voraus!!

    1. Hallo Lisa,
      verstehe ich richtig, dass die Varianzen bei der Kontrollvariable nicht homogen sind? Üblicherweise wird das eher bei der Gruppenvariable getestet, bei der Kontrollvariable wird es nicht so kritisch gesehen.
      Ich halte die Varianzanalyse mit Kontrollvariable für das elegantere Verfahren – separate t-Tests sind eher ein „Workaround“. Zumal man bei mehreren t-Tests das Signifikanzniveau anpassen sollte (Stichwort Alpha-Fehler-Kumulierung).

  10. Hallo Rolf,

    meine Daten erfüllen nicht alle Voraussetzungen für den Chi-Quadrat-Test, da die erwartete Häufigkeit nicht immer mindestens 5 ist. Was wäre eine alternative Möglichkeit, um den Zusammenhang zwischen einer Gegebenheit und dem Alter zu analysieren?

    Beste Grüsse,
    Marie

    1. Hallo Marie,
      falls inhaltlich vertretbar: Kategorien zusammenfassen?
      Statistische Alternative: Fisher’s Exact Test
      Vermutlich lohnt aber ein genauerer Blick auf die Skalenniveaus. Ist das Alter metrisch gemessen? Und die „Gegebenheit“ kategorial? Dann z. B. Mittelwerte des Alters nach Kategorien. Bei 2 Kategorien t-Test, bei mehr als 2 Kategorien Varianzanalyse (ANOVA), ggf. mit Post-Hoc-Tests.

      1. Das Alter wird metrisch gemessen, die Gegebenheit kategorial. Der Chi-Quadrat Test ist signifikant, der Fisher Exact Test genauso. Da nur vier Befragte einer Alterskategorie befragt worden sind, ist die erwartete Häufigkeit in der Altersklasse nicht gegeben.

        Wie analysiere ich den Fisher’s Exact Test und wie gebe ich die Ergebnisse gemäss APA-Richtlinien an?

        1. Fisher: Sig. Ergebnis (p < 0.05, bzw. eine andere Schwelle, falls Sie eine definiert haben) bedeutet: über-zufälliger Zusammenhang zwischen Alterskategorie und Gegebenheit. APA bitte selbst nachschlagen ...

  11. Hallo Wolf,
    vielen Dank für Deine Expertise!
    Ich hätte noch eine letzte Verständnisfrage zu einer Moderatoranalyse. Ich möchte untersuchen, ob eine Moderatorvariable (Geschlecht) einen Einfluss auf den Zusammenhang zwischen einer Variable X und Y hat.
    Ist es nur dann sinnvoll, die Moderationsanalyse durchzuführen, wenn sich die Variable X hinsichtlich des Geschlechts voneinander unterscheidet oder kann es auch sein, dass wenn es keine Geschlechtsunterschiede bei X gibt, dass das Geschlecht einen Einfluss auf den Zusammenhang zwischen X und Y hat? Vielen Dank!

    Liebe Grüße 🙂
    Lis

    1. Hallo Lis,
      Geschlecht kann auch dann einen Einfluss auf den Zusammenhang zwischen X und Y ausüben, wenn es bei X keine Geschlechtsunterschiede gibt.

  12. Hallo Herr Riepl,

    zunächst einmal vielen Dank für den tollen Beitrag und die Möglichkeit Sie zu kontaktieren. Ich bin bereits seit Tagen bei google unterwegs um mir Infos für meine (erste) Hausarbeit zu besorgen.
    Leider habe ich Probleme mit einer meiner Variablen, weshalb ich gerne Sie als Experten um Hilfe bitten möchte.
    Meine Hypothese lautet: Männern ist die Bequemlichkeit (kostenlose Retoure etc.) bei dem Kauf von Weihnachtsgeschenken wichtiger als Frauen.
    Gemessen wurde die Variable Bequemlichkeit in einem Fragebogen mit einem Likert skalierten Item von 1 (nicht wichtig) – 7 (sehr wichtig).
    Da es sich um eine ordinalskalierte Variable handelt habe ich diese bei R in einen Faktor mit 7 Merkmalsausprägungen umgewandelt – da beginnt bereits die Unsicherheit. Ist das so korrekt?
    Um nun die Daten von Männern und Frauen zu vergleichen, würde ich auf den Chi-Quadrat Test zurückgreifen um zu prüfen ob es einen Zusammenhang zwischen dem Geschlecht und der jeweiligen Einschätzung gibt.
    Allerdings bin ich mir absolut nicht sicher über dieses Vorgehen..können Sie mir weiterhelfen?

    Ich bedanke mich bereits im Voraus für Ihre Zeit!

    Viele Grüße
    Steffi L.

    1. Hallo Steffi,
      der Chi-Quadrat-Test ist für nominalskalierte Merkmale gedacht, also Kategorien ohne Sortierung. Die Likert-Skala ist mindestens ordinal, manche sehen sie auch als metrisch an. Vielleicht gibt es Pakete, die mit einem ordinalskalierten Faktor rechnen. Ich würde das Merkmal als numerisch codieren und dann t-Test und/oder Wilcoxon Rangsummentest für unabhängige Stichproben (auch als Mann-Whitney-U-Test bekannt) machen. Letzterer ist für Ordinaldaten gedacht, ersterer streng genommen für normalverteilte intervallskalierte Daten. Der t-Test wird jedoch oft auf solche Skalen angewendet. Du kannst auf Normalverteilung testen (Shapiro-Wilk, grafisch) und, wenn Du es ausführlich machen willst, beide Tests durchführen und dokumentieren.

  13. Lieber Wolf,
    ich hätte da mal eine fundamentale Frage zu Mittelwertsvergleichen: Ich möchte meine beiden Gruppen (Rheuma-Patienten vs. gesunde Kontrollen) hinsichtlich eines Blutwertes (metrisch skaliert) miteinander vergleichen.
    Nun könnte man das ja auf zweierlei Wegen tun: Entweder man behandelt die Gruppen als dichotom (0/1) und vergleicht die metrischen Blutwerte damit mit einem Mann-Whitney-U-Test oder man splittet die Blutwerte der Patienten auf der einen Seite und die der Kontrollen auf der anderen Seite und vergleicht die mit einem t-Test, oder? Geht das beides? Danke schonmal für eure Hilfe 🙂

    Liebe Grüße
    Lis

    1. Hallo Lis,
      ich sehe keinen Unterschied in den Herangehensweisen. Beide Tests sind von der Datenstruktur her geeignet. Beide vergleichen zwei Gruppen (Rheuma vs. gesunde Kontrollen) hinsichtlich des Blutwertes. Für die Tests spielt es prinzipiell keine Rolle, ob die Gruppe 0/1-codiert sind oder anders gekennzeichnet sind.

      Vielleicht entsteht die Unklarheit dadurch, dass es verschiedene t-Tests gibt. Hier passt wohl der Test für unabhängige Stichproben, da es keine Zuordnung eines bestimmten Rheuma-Patienten zu einem bestimmten gesunden Patienten geben dürfte – es werden wohl zwei unabhängige Gruppen sein. Deine Beschreibung: „Blutwerte der Patienten / Kontrollen aufsplitten“ klingt eher nach t-Test für abhängige (=verbundene) Stichproben.

      Die Unterscheidung zwischen t-Test und U-Test wird anhand der Verteilung der metrischen Variable (Blutwert) und anhand der Fallzahl getroffen. Der t-Test geht von normalverteilten Daten aus (dafür wird mindestens n=30 angenommen) und nimmt außerdem an, dass die Varianzen in den beiden Gruppen gleich sind. Es gibt jedoch Aussagen in der Literatur, dass der t-Test „robust auf Verletzungen seiner Voraussetzungen reagiert“ (steht bei Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler). Unzuverlässig wird der t-Test vor allem dann, wenn die Varianzen ungleich sind und die Gruppengrößen deutlich unterschiedlich. Für ungleiche Varianzen gibt es einen Korrekturfaktor. Im Zweifelsfall kann man den U-Test nehmen. Oder beide durchführen, Ergebnisse vergleichen und diskutieren. Oft kommen beide Tests zum gleichen Ergebnis.

  14. Hallo Wolf,

    in meiner Forschungsarbeit untersuche Kinder und ihre Medienkompetenz. Nun habe ich eine Hypothese ausgestellt, die besagt, dass mit zunehmenden Alter, die Medienkompetenz der Kinder zunimmt. Dies werde ich mittels Pearson und einer einfachen Regressionsanalyse berechnen. Nun besteht die Variable Medienkompetenz aus verschiedenen Kategorien, die am Ende als Medienkompetenz zusammengefasst werden soll. Hast du einen Vorschlag, wie ich die Medienkompetenz am besten statistisch aufbereiten oder messbar machen kann?

    1. Hallo Ina,
      Du kannst für die Kategorien Punkte vergeben und die Punkte zu einer Summe (einem Score, Index) zusammenzählen. Vielleicht gibt es speziell zur Medienkompetenz schon Literatur. Du kannst auch einen eigenen Index entwickeln. Wichtig wäre, die Erstellung zu dokumentieren und zu diskutieren. Zum Beispiel könntest Du bestimmte Kategorien als wichtiger definieren als andere und dafür mehr Punkte vergeben.
      Wolf

  15. Lieber Wolf,
    ich bin gerade auf der Suche nach dem richtigen statistischen Verfahren. Ich vermute, dass der Chi-Quadrat Test der richtige für mich ist, würde mich aber gerne nochmal bei einem Profi vergewissern.
    Ich habe 2 Gruppen. Die eine besteht aus Patienten, die unter einer rheumatischen Erkrankung leiden und die andere ist eine Kontrollgruppe aus gesunden Probanden. Bei allen Versuchspersonen wurde erhoben, ob sie sich sportlich betätigen oder nicht („sportliche Aktivität – ja/nein bzw. 1/0“). Jetzt würde ich gerne statistisch untersuchen, ob sich die eine Gruppe mehr sportlich betätigt als die andere (also ob in einer Gruppe mehr Leute die Frage nach sportl. Aktivität mit Ja beantwortet haben). (Basierend auf meinen Hypothesen tut das die Rheuma-Gruppe weniger, bedingt durch die körperl. Einschränkung.)

    2 Gruppen: Rheuma-Patienten vs. gesunde Kontrollprobanden
    1 Variable, dichotom erfasst: Sportliche Aktivität – ja/nein

    Liebe Grüße
    Lis

    1. Hallo Lis,
      ja, Chi-Quadrat-Test klingt passend. Es kommt auch auf die Fallzahlen an. Bei sehr kleinen Gruppengrößen kann der Test problematisch sein, dann gibt es Fisher’s Exact Test als Alternative. Vermutlich passt aber Chi-Quadrat. (Manche Statistik-Pakete warnen, wenn erwartete Häufigkeiten <5 auftreten.)
      Wolf

      1. Hallo Wolf,
        danke Dir. Die Fallzahlen dürften groß genug sein, die erwarteten Häufigkeiten sind auch groß genug.
        Ich hab einen Chi²-Test durchgeführt. Die Gruppenunterschiede sind nicht signifikant.
        Ich würde die Odds Ratios trotzdem gerne berichten, bin nur unsicher mit der Interpretation der ORs.
        Macht es Sinn, wenn ich die Vierfeldertafel bei meinem Gruppenvergleich so aufstelle?

        …………………………………….. Keine sportl. Aktivität ………………………… Sportl. Aktivität
        Rheuma-Patienten …………. 12 (a) ………………………………………………. 65 (b)
        Gesunde ………………………… 9 (c) ……………………………………………….. 89 (d)

        Ich würde gerne aussagen, dass die „Chance“/Odds, ohne sportliche Aktivität zu erkranken x-mal höher ist als mit.
        Wenn ich jetzt die Odds Ratios berechne, (a x d)/(b x c), komme ich auf 1,8. Bedeutet das nun genau das?

        Liebe Grüße & danke,
        Lis

        1. Hallo Lis,
          hab jetzt nicht nachgerechnet; die Formulierung klingt plausibel. „x-mal höher“ oder „um den Faktor x höher“ ist eine typische OR-Interpretation.
          Ich kenne ORs vor allem aus logistischen Regressionen.
          Wolf

  16. Hallo Herr Riepl,

    ich bin mir unsicher, ob sich für meine Analyse überhaupt statistische Tests eignen. Ich habe eine Patientenbefragung mit 35 Probanden gemacht. Dabei ging es mir darum, was ihnen nach ihrem stationären Aufenthalt wichtig ist und sie haben bspw. angegeben, dass ihnen ein Item von 1=keine Sorgen bis 7=große Sorgen macht. Fragestellung der Arbeit ist herauszufinden, was Patienten wichtig ist und wie ihre Behandlung optimiert werden könnte.
    Ist es hier überhaupt sinnvoll Testverfahren anzuwenden? Und wenn ja, welche?

    Vielen Dank im Voraus!

    1. Hallo Leana,
      selbstverständlich sind mit diesen Daten statistische Verfahren möglich und sinnvoll. Welche konkret, hängt von Ihren Fragestellungen und Hypothesen ab. Wenn man die Skalen als ordinal (Rangfolge) auffasst bzw. aufgrund der Fallzahlen auf Nummer sicher gehen will, empfehlen sich nichtparametrische Verfahren, z. B. die Rangkorrelation nach Spearman für Zusammenhangsanalysen (Je-desto) oder der Mann-Whitney-U-Test für Gruppenvergleiche oder der Chi-Quadrat-Test bei Kreuztabellen.

  17. Hallo, ich bin mir nicht sicher welchen Test ich für meine Hypothesen verwenden soll. Sie sind siingemäß alle so ähnlich:
    „Je mehr Zeit mit Medien verbracht wird, desto schlechter/besser ist die Reaktionszeit“ (die Medienzeit ist auf einer Skala von 1-5 (Stunden), Reaktionszeit ganz genau in ms). Ich wäre froh wenn mir jemand helfen kann !

    1. Hallo Melanie,
      klingt nach Korrelationsanalyse. Rangkorrelation (Spearman), um auf der sicheren Seite zu sein, da die Fünferskala streng genommen nicht metrisch skaliert ist, sondern ordinal. In der Praxis werden in solchen Fällen allerdings oft dennoch Pearson-Korrelationen gerechnet. Oft unterscheiden sich die Ergebnisse nicht sehr.
      Wenn Du noch Kontrollvariablen aufnehmen willst: Regressionsanalyse.

  18. Guten Tag Herr Riepl,

    1.) ich muss 2 Fragebögen (einer der normale Eigenschaften misst und ein Fragebogen, der als Pendant fungiert und pathologische Eigenschaften erfasst) auf Konvergenz prüfen, habe jedoch die Aufgabe personenzentriert (Profilvergleich) vorzugehen. Welche Clusteranalyse empfehlen Sie?
    2.) Geht denn eine Interaktionsanalyse von 2 hochkorrelierten Prädiktoren über eine Clusteranalyse?
    Liebe Grüße Ingo

    1. Hallo Ingo,
      ich denke, dass für beide Aufgaben die Clusteranalyse nicht so geeignet ist. Sie ist ein struktur-entdeckendes Verfahren ohne Zielvariable.
      Zu 1. kann man z. B. Korrelationen der Variablen prüfen. Personenzentriert kann man Profile erstellen, indem man verschiedene Merkmale (Eigenschaften) auf der x-Achse und die jeweiligen Punkte auf der y-Achse abträgt. Das für beide Fragebögen, um zu vergleichen, ob die Profilverläufe sich ähneln.
      Zu 2.: Interaktion sehe ich als Spezialfall der Regressionsanalyse, d. h. man benötigt eine Zielvariable (abhängige Variable). Bei der Clusteranalyse gibt es keine Zielvariable.
      Wolf

  19. Hallo,
    Ich schreibe eine Arbeit über Produktplatzierung in Videospielen. Die uV ist also die Platzierung, die aV die Bewertung des Produktes.
    Hierbei habe ich drei Gruppen (eine Gruppe spielt mit einer Produktplatzierung, die auf Grund meiner Theorie sehr effektiv sein sollte, eine Produktplatzierung die weniger effektiv sein sollte, sowie eine Kontrollgruppe- sie spielt ohne Produktplatzierung)
    Weil ich auch noch Drittvariablen (Arousal etc.) mit einbeziehen soll, nehme ich an, dass ich mit einer mulitplen Regression rechnen sollte und nicht mit einer ANOVA?
    Freue mich über eine Antwort 🙂

    1. Hallo Christian,
      ja, meine Präferenz wäre multiple Regression. Die finde ich etwas besser interpretierbar als die ANOVA. Allerdings ist letztere ebenfalls geeignet – beide Methoden beruhen auf dem Generalized Linear Model. Bei korrekter Spezifizierung kommen beide zum gleichen Ergebnis.
      Viel Erfolg!
      Wolf

  20. Hallo Wolf!

    Ich stelle am Dienstag mein Exposé für die Bachelorarbeit vor. Mein Thema lautet: Einfluss der Persönlichkeit
    eines IT-lers auf seine Erwartungen an einen Arbeitgeber. Ich teste erst die Persönlichkeit des ITlers anhand eines Big 5 Persönlichkeits-Kurztests und frage danach noch 4-5 Anforderungen/ Erwartungen ab, die der ITler an einen Arbeitgeber stellt (wahrscheinlich anhand einer Likert-Skala?).
    Meine Hypothesen sind alle gleich aufgebaut: Je mehr bzw. weniger von Persönlichkeitsausprägung XY, desto mehr bzw. weniger wünscht sich der IT-ler XY vom Arbeitgeber. Zum Beispiel: Je extrovertierter der IT-ler ist, desto größer ist die Erwartung an einen Arbeitsplatz mit viel Kontakt zu Menschen.
    Funktioniert das? Und welches Testverfahren ist hier das richtige?

    Vielen vielen Dank für deine zeitnahe Antwort!! 🙂

    LG
    Tanja

    1. Hallo Tanja,
      die Hypthesen klingen schon mal präzise formuliert. Die Anforderungen / Erwartungen würde ich nicht zu grob abfragen. Du hast mehr Freude bei der Auswertung, wenn die Teilnehmer sich in ihren Erwartungen mehr unterscheiden können – d. h. nicht zu wenige Stufen nehmen. (Pretest empfohlen, wenn zeitlich irgendwie möglich)
      Je-desto-Aussagen kann man mit Korrelationen testen. Wenn Du weitere Variablen berücksichtigen willst (z. B. Kontrolle nach Geschlecht, Alter, …), bieten sich Regressionsanalysen an.
      Viel Erfolg & viele Grüße
      Wolf

  21. Hallo,

    ich sitze derzeit auch an der Statistik für meine Doktorarbeit. Ich habe 2 Gruppen (je gut 100 Probanden) die meiner Meinung nach unabhängig voneinander sind. Die eine Gruppe hat eine Transfusion bekommen, die andere nicht. Ich möchte nun herausfinden ob die Transfusionen einen Einfluss auf verschiedenen metrische Parameter haben (medianes Alter, Tumorgröße, Thrombozytenzahlen etc…) Welchen Test nehme ich hier? Einen T-Test für unabhängige Stichproben? Danke schonmal im voraus. (arbeite mit JMP)

    1. Hallo Alexander,
      ja, klingt nach unabhängigen Stichproben. T-Test ist eine sinnvolle Möglichkeit. Mit Anova oder Regressionen kannst Du zusätzliche Kontrollvariablen aufnehmen.
      Alter: Warum „median“? Der t-Test ist ein Mittelwertstest.
      Übrigens bezweifle ich, dass eine Transfusion das Alter beeinflussen kann – das wäre mal was … Spaß beiseite, ist wohl nur eine Formulierungsfrage.

      1. Erstmal vielen Dank für die schnelle Antwort. Ist echt klasse!!!
        Median ist blöd formuliert es geht um das Durschschnittsalter. Bei dem konkreten Beispiel geht es darum ob die, die transfundiert wurden signifikant älter sind im Schnitt.
        Wenn ich nun keine Normalverteilung habe (mit dem Shapiro-Wilk-Test berechnet) ist dann der Mann-Whitney-U Test nötig und sonst wenn eine Normalverteilungen vorliegt nehme ich dann einen unabhängigen T-Test oder? Handelt es eigentlich sich um gepoolte oder ungepoolte Tests? Ich hätte gepoolt gesagt.

        1. Normalverteilung: Das wird unterschiedlich gehandhabt. Bei N=200 sind Abweichungen nicht mehr so problematisch wie bei kleinen Fallzahlen. Tests wie Shapiro-Wilk reagieren gerade dann strenger. Ich würde die Verteilung auch grafisch überprüfen, z. B. Histogramm mit Normalverteilungskurve. Wenn das gut aussieht, ist der t-Test verwendbar. Zur Sicherheit kannst Du ja zusätzlich Mann-Whitney rechnen und beides dokumentieren.
          Gepoolt: Da geht es um die Annahme der Varianzgleichheit in den beiden Gruppen, nehme ich an. Kann man auch testen. Wenn sie verletzt ist, gibt es einen Korrekturfaktor bei den Freiheitsgraden. Weiß nicht, wie JMP das handhabt …

  22. Guten Tag Herr Riepl,
    Nach dem Lesen aller Kommentare und durchsuchen des Internets habe ich leider noch keine Lösung für meine vermeintlich einfache Hypothese. Ich hoffe daher dass sie mir eventuell helfen könnten.
    Ich habe 120 Probanden 2 Produkte vergleichen lassen und und die Zufriedenheit mit 11 stufigen likert Skalen (0-10) abgefragt. Die Ergebnisse sind einigermaßen normal verteilt. Meine Hypothese ist: Die Probanden sind mit Produkt A zufriedener als mit Produkt B.
    Vergleiche ich dort nur die Mittelwerte? Denn die sind bei A (4,7) höher als bei B (3,3).
    Ich würde mich freuen wenn sie mir helfen könnten.
    Mfg Gregor Schneider

    1. Guten Tag Herr Schneider,
      natürlich kann man die Analyse ausführlicher machen als „nur“ die Mittelwerte zu vergleichen. Als Hypothesentest schlage ich den t-Test für abhängige Stichproben vor (abhängig, da es die gleichen Probanden sind, die beide Produkte bewertet haben). Ergänzend kann man Grafiken erstellen, Verteilungen vergleichen und ggf. weitere Merkmale berücksichtigen, z. B. im Rahmen einer Varianzanalyse mit Messwiederholung (= Erweiterung des t-Tests für abhängige Stichproben).
      MfG Wolf Riepl

  23. Hallo,

    Im Rahmen meiner Abschlussarbeit untersuche ich die Hände vom Personal (vor und nach Durchführung der Händedesinfektion) auf Kontaminationen.

    Den t-test kann ich ja aber nicht anwenden, weil entweder liegen Kontaminationen vor oder es liegen keine vor (0).

    Welche Methode könnte ich aber sonst anwenden ?

    Ich wäre Ihnen sehr dankbar für Ihre Hilfe!

  24. Hallo,

    ich möchte herausfinden, ob verkaufsfördernde Maßnahmen die Stückzahl an verkauften Artikeln auch tatsächlich erhöhen im Zeitraum in welchem solch eine Maßnahme durchgeführt wird. Hierzu möchte ich 10 verschiedene Maßnahmen betrachten. Die Abverkaufzahlen liegen mir in Stück vor. Eine Maßnahme ist erfolgreich, wenn in dem Zeitraum der Maßnahme mehr Artikel verkauft werden als in dem Zeitraum davor, z.B.: Die Maßnahme wird in KW 30 durchgeführt und es werden 100 Artikel verkauft. In KW 29 (hier wurde keine Maßnahme durchgeführt) wurden 90 Artikel verkauft. Die Maßnahme wäre in diesem Beispiel erfolgreich gewesen (Index 111).
    Nachdem ich alle Maßnahmen ausgewertet habe, kann ich also sagen, dass von den untersuchten Maßnahmen z.B. 8 von 10 den Absatz in Stück erhöht haben, also erfolgreich waren.
    Da die 10 Maßnahmen, die ich untersuchen möchte eine Strichprobe darstellen muss ich im nächsten Schritt von dieser Stichprobe auf die Grundgesamt schließen und an dieser Stelle bin ich mir sehr unsicher, welche statistische Methode ich hierfür anwenden kann.
    Es wäre klasse, wenn du mir hier weiterhelfen kannst! Vielen Dank!

    1. Hallo Anka,
      Vorher-Nachher-Messungen sind abhängige Stichproben, d. h. ein bestimmter Wert „ohne Maßnahme“ ist einem ganz bestimmten Wert „mit Maßnahme“ zugeordnet. Möglicher Test: t-Test für abhängige Stichproben. n=10 ist jedoch recht klein, da könnte man auch ein nichtparametrisches Pendant nehmen. (Der t-Test setzt streng genommen Normalverteilung voraus, was bei dieser Fallzahl diskutabel ist.) Alternative Wilcoxon-Test – der rechnet mit Rangsummen und trifft keine Verteilungsannahmen. Wenn Du es ausführlich machen willst, kannst Du beide Tests rechnen, Ergebnisse vergleichen und diskutieren.

  25. Hallo und Danke mal für den tollen Beitrag!

    Ich hätte eine Frage bezüglich eines Vergleichs zweier Geräte. Es handelt sich um einen technischen und klinischen Vergleich zweier EKGs. Erhoben und verglichen werden verschiedenste EKG-Zeiten und Amplituden, die teils voneinander abhängig und teils unabhängig seien können. Der Vergleich soll untersuchen, ob die beiden Geräte die selben Messwerte ausspucken. Ein EKG dient dabei als Referenzprodukt und das andere soll damit verglichen werden.

    Aus der Literatur ist mir die Methode nach Bland und Altman bekannt für den Vergleich technischer Messungen, jedoch wäre es denke ich nicht das richtige, dass für jede Variable getrennt zu vergleichen.

    Hast du vielleicht eine Idee dazu? Mir wäre damit sehr geholfen!

    Liebe Grüße
    Aylin

    1. Hallo Aylin,
      das klingt spannend. Kann ich ehrlich gesagt so nicht sagen, welcher Test der richtige ist. „Teils abhängig, teils unabhängig“ – es gibt unterschiedliche Tests für abhängige und unabhängige Stichproben … Das müsste man sich ganz genau ansehen, wie die Daten aufgebaut sind und ob man sie evtl. anders strukturieren muss. Du suchst ja anscheinend ein Gesamtmodell statt mehrerer einzelner Tests.
      Ich kann das leider nicht übernehmen, bin ausgelastet …
      Sorry – viele Grüße!
      Wolf

  26. Hallo Wolf!

    Im Rahmen meiner Abschlussarbeit befrage ich ca. 100 Kunden meines Arbeitgebers per Fragebogen, inwiefern sie die Integration bestimmter Preiselemente in den Vertrag akzeptieren würden. Dazu habe ich 13 Faktoren bestimmt, wobei die Befragten auf die Aussage, dass sie die Integration des jeweiligen Preisfaktors in den Vertrag akzeptieren würden mit „stimme überhaupt nicht zu“ (1), „stimme eher nicht zu“ (2), „Teils/teils“ (3), „Stimme eher zu“ (4) und „Stimme voll und ganz zu“ (5) reagieren sollen.

    Zusätzlich habe ich zu jedem der Faktoren eine Hypothese aufgestellt, die entweder besagt, dass die Befragten die Integration des Faktors akzeptieren oder, dass sie sie nicht akzeptieren.

    1) Beispiel: Hypothese 1 – Die Integration von Faktor A wird akzeptiert
    Wenn ich jetzt festlege, dass ein Wert größer als 3,5 bedeutet, dass der Befragte die Integration des jeweiligen Faktors akzeptiert, kann ich dann bei einem durchschnittlichen Wert aller Befragten über 3,5 Hypothese 1 einfach annehmen bzw. bei einem Wert kleiner gleich 3,5 ablehnen?

    2) Sollte ich zudem beispielsweise einen Einstichproben-t-Test durchführen, um zu überprüfen, ob der Mittelwert meiner Stichprobe für jeden Faktor signifikant vom Erwartungswert (hier = 3) abweicht?

    Vielen Dank für deine Hilfe!

    1. Hallo Frank,

      ja, klingt plausibel. Achtung: Bei vielen einzelnen t-Tests steigt die Wahrscheinlichkeit, dass „zufällig“ mal einer signifikant wird. Fachbegriff Alpha-Fehler-Kumulierung. Da empfiehlt sich ein Korrekturfaktor für die p-Werte. Siehe z. B. hier:
      https://statistikguru.de/rechner/adjustierung-des-alphaniveaus.html

      Spannender finde ich Hypothesen, die (mindestens) zwei Variablen in Beziehung setzen. Zum Beispiel: Frauen stimmen Preisfaktor X eher zu als Männer.

      Viel Erfolg und viele Grüße!

      Wolf

  27. Hallo! 🙂
    Ich habe in einem Fragebogen den Zusammenhang zwischen der Angabe persönlicher Informationen und der Teilnahme an Geld-zurück-Garantien untersucht. Mit Geld-zurück-Garantien meine ich die der Aktionsprodukte „Jetzt gratis testen“, d.h. man muss nach dem Kauf eines Produkts z.B. seine Bankdaten und Adresse angeben und dann bekommt man den Kaufpreis vom Unternehmen erstattet.
    Meine Frage im Fragebogen lautete: „Welche der folgenden Gründe würden Sie hindern, die Geld-zurück-Garantie eines Aktionsprodukts geltend zu machen? Mehrfachantworten sind möglich.“
    Es gab folgende Antwortmöglichkeiten:
    Die Angabe meiner Bankdaten (1=nicht ausgewählt, 2=ausgewählt)
    Die Angabe meiner persönlichen Anschrift (1=nicht ausgewählt, 2=ausgewählt)
    keines der beiden (1=nicht ausgewählt, 2=ausgewählt)
    Meine Hypothesen lauten:
    H4: Die Angabe persönlicher Informationen hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.
    ∙H4a: Die Angabe von Bankdaten hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.
    ∙H4b: Die Angabe der privaten Anschrift hat Einfluss auf die Teilnahme solcher Geld-zurück-Garantien.

    Ich habe folgende Fragen: Handelt es sich hierbei um ungerichtete Zusammenhangshypothesen? Wenn ja, hatte ich überlegt die Ausprägungen (1 und 2) jeder der 3 Antwortmöglichkeiten mit einer selbst erstellten Spalte mittels Spearman Korrelation zu vergleichen (dies ist ja auch mit dichotomen Daten möglich oder?). Also ich wollte eine Spalte erstellen mit 1=Nichtteilnahme (wenn zum Beispiel angeklickt wurde, dass die Angabe der Bankdaten an der Teilnahme hindert) bzw. 2= Teilnahme (wenn zum Beispiel ausgewählt wurde: keines der beiden)

    Liege ich mit meinen Ideen richtig? Oder handelt es sich doch eher um einen Wilcoxon-Vorzeichen-Rang Test als Anpassungstest?

    Liebe Grüße

    1. Hallo Sophia,
      ja, man kann die Hypothesen als ungerichtet bezeichnen. Es gibt allerdings nur jeweils 2 Ausprägungen: ausgewählt oder eben nicht. Das würde ich kategorial analysieren, nicht ordinal (Spearman-Korrelation). Ich sehe allerdings auch nicht, dass man zwei Variablen in Zusammenhang setzen müsste. Im Grunde ist doch die Hypothese widerlegt, wenn die Teilnehmer sich nicht von der Inanspruchnahme der Geld-zurück-Garantie abhalten lassen? Das sieht man doch auch an einfachen Häufigkeitsauszählungen, oder? Um es testbar zu machen, könnte man eine Schwelle festlegen, z. B. wenn mindestens x% der Teilnehmer sich abhalten lassen, dann hat die Angabe persönlicher Infos Einfluss. Drei Tabellen: a) Bankdaten, b) Anschrift; c) mindestens eine der beiden Info-Arten (das wird der höchste Anteil an Personen, die sich abhalten lassen). Evtl zusätzlich d) Wie viele haben beides angekreuzt.
      Viele Grüße & viel Erfolg!
      Wolf

      1. Hallo Wolf,

        ich sitze momentan an der Auswertung meiner Untersuchung, bei der ich Commitment (affektiv, normativ und kalkulatorisch) auf einer Likert Skala abgefragt habe.
        Meine Hypothese lautet nun:
        Mit steigender Zugehörigkeitsdauer (4 Kategorien: unter 1 Jahr, 1-2 Jahre,2-5 Jahre, 6-10 Jahre) der Mitarbeiter steigt auch die Ausprägung der Komponenten (affektiv, kalkulatorisch, normativ) des organisationalen Commitments.

        Gehe ich richtig in der Annahme, dass die eine Zusammenhangshypothese ist?
        Wäre ich hier mit einer linearen Regression?

        Außerdem überprüfe ich noch die folgende Hypothese:
        Je ausgeprägter die Fehlermanagementkultur ist, desto höher ist das affektive organisationale Commitment bei den MA.

        beide Variablen wurden auf einer 5 stufigen Likertskala abgefragt.
        Welcher Test wäre hier angebracht?

        Ich würde mich sehr mich über eine Rückmeldung freuen.

        Liebe Grüße

        1. Hallo Chris,
          ja, das sind Zusammenhangshypothesen. Man kann sie mit Korrelationsanalysen oder Regressionsanalysen testen. Die Regression erlaubt es, weitere Kontrollvariablen aufzunehmen (z. B. Geschlecht oder Alter). Zugehörigkeitsdauer würde ich für eine Regression dummycodieren, das heißt eine Variable pro Kategorie, mit Ausprägungen 0 und 1. Z. B. Variable unter_1_Jahr, 0=nein, 1=ja. Für die Regression eine der vier Kategorien weglassen und als Referenzkategorie interpretieren.
          Fehlermanagement: Könnte man mit Rangkorrelation (Spearman) testen. Für eine Regression müsste man annehmen, dass die Likertskala metrisch ist. Wird oft gemacht, ist diskutabel …
          Viel Erfolg
          Wolf

  28. Hallo!

    Sitze gerade an meiner Doktorarbeit und bin etwas überfordert mit der Auswertung meiner Ergebnisse. Habe im Labor Experimente mit verschiedenen Medikamenten auf Zellen gemacht und möchte jetzt eine Kontrollgruppe A mit einer Experimentgruppe B und eine andere Kontrollgruppe C mit Experimentgruppen D, E und F vergleichen. Habe pro Gruppe ca. 20 Messungen und intervallskalierte Werte.
    Würde ich dann für den Vergleich zwischen A und B einen einfachen t-test machen? Und welchen Test kann ich für den Vergleich C-D,C-E und C-F am besten machen?

    Vielen Dank für die Hilfe!

    1. Hallo Julia,
      danke für den Kommentar! Ja, zwei Gruppenmittelwerte kann man per t-Test vergleichen. Bei mehr als zwei Gruppen Varianzanalyse. (Der t-Test ist ein vereinfachter Spezialfall der Varianzanalyse.)
      Viel Erfolg & viele Grüße!

  29. Hallo, ich bin gerade über Deinen Blog gestoßen und finde ihn sehr spannend. Ich habe eine Frage zur Varianzanalyse mit Messwiederholung. Ich habe fünf Gruppen, die ich zu zwei Zeitpunkten bezüglich verschiedener Perfektionismusdimensionen befragt habe. Nun zeigt die Varianzanalyse keinen signifikanten Unterschied, aber im post-hoc Test ist bei einer Gruppe ein signifikanter Unterschied des Messzeitpunkts zu sehen. Diesen würde ich gerne berichten. Nun steht aber überall, dass es nicht berichtet werden darf, wenn die vorausgegangene ANOVA nicht signifikant ist. Dann wiederum wird argumentiert, dass es sich bei den Verfahren um unterschiedliche Testverfahren handelt und man sich auch direkt die post-hoc Tests anschauen dürfte. Darf ich es nun berichten und wenn ja wo finde ich eine geeignete Literaturquelle, die das untermauert? Über eine Antwort würde ich mich sehr freuen. Viele Grüße Daniela

    1. Hallo Daniela,
      ich kenne es auch so, dass man Post-Hoc-Tests nach signifikantem Gesamtergebnis macht. Wenn Du den signifikanten Gruppenunterschied aus Post-Hoc berichten willst, dann würde ich auf jeden Fall auch das Gesamtergebnis berichten. Generell: Alle Tests dokumentieren (darf auch kurz sein), nicht nur das rauspicken, was einem gefällt.
      Literatur: Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler fand ich ganz gut.

  30. Hallo,
    ich hätte zwei Fragen:
    1) Ich habe eine Auswertung gemacht bei der ich gerne prüfen würde, ob sich die Tendenz nach einem Teamtimeout im Handball in den nachfolgenden 5min verändert. Dazu habe ich den 5min-Abschnitt nach dem Teamtimeout in jeweils 1min-Blöcke unterteilt (also 5 Variablen) und jede Variable hat 3 Möglichkeiten (positiv/neutral/negativ). Wie bekomme ich jetzt raus, ob sich die Tendenz mit Zunahme der Zeit verändert? (Die Stichprobengröße wird mit Zunahme der Zeit immer kleiner)

    2) Desweiteren wüsste ich gerne ob gewisse Taktiken (z.B. Auswechslungen) öfter zu einer positiven Tendenz führen.

    Vielen Dank schonmal und schöne Grüße
    Hendryk

    1. Hallo Hendryk,
      für den Timeout-Effekt könnte man den Friedman-Test nehmen. Es handelt sich um abhängige Stichproben, da eine bestimmte Messung einem bestimmten Spiel zugeordnet ist. Der Test erfordert vollständige Daten, d. h. Spiele mit Fehlwerten ab einem bestimmten Messzeitpunkt werden ausgeschlossen. Man könnte mehrfach testen, z. B. bis zur 3. / 4. / 5. Minute, jeweils mit weniger Fällen, und die Ergebnisse vergleichen und diskutieren.
      Der Friedman-Test ist nichtparametrisch, d. h. er trifft keine Verteilungsannahmen. Die Zielvariable ist ordinal (Rangfolge klar, aber nicht fein abgestuft metrisch). Daher würde ich keine Varianzanalyse mit Messwiederholungen nehmen. Bei kleinen Fallzahlen und geringen Häufigkeiten in einer der drei Ergebnis-Kategorien könnte man nur den Vergleich von zwei Kategorien nehmen (z. B. positiv vs. nicht-positiv (neutral und neg. zusammen)) und mit dem McNemar-Test arbeiten.

    2. Zu 2) Kommt auf die Codierung der Daten an. Vorschlag: Kreuztabelle Taktik vs. Tendenz, Chi-Quadrat-Test (berücksichtigt die Rangfolgen der Tendenz nicht) oder Mann-Whitney-U-Test (Tendenz ordinal, vergleicht zwei Taktiken) oder Kruskal-Wallis-Test für mehr als zwei Taktik-Gruppen.

  31. Hallo,

    ich suche nach einem geeigneten Test für folgende Hypothese:

    Wenn man seine Lüge im Voraus plant, ist die kognitive Belastung während des Lügens geringer als wenn man die Lüge nicht vorher plant.

    Dabei habe ich eine Fallzahl von ca. 50 Leuten, die Variable zur Planung der Lüge hat die Ausprägungen [JA / NEIN / WEISS NICHT] und die Variable zur Messung kognitiver Belastung hat die Ausprägungen von 1 (gar nicht anstrengend) bis 6 (ausgesprochen anstrengend).

    Fragen:
    A) Liege ich richtig in der Annahme, dass die Planungsvariable nominalskaliert ist?
    B) Liege ich richtig in der Annahme, dass die Variable, die kognitive Belastung misst, ordinalskaliert ist?
    C) Von welcher Verteilung kann ich ausgehen bzw. wie finde ich die Verteilung der Variablen heraus?
    D) Welchen Test muss ich zu Überprüfung dieser Hypothese verwenden?

    Ich wäre sehr dankbar für eine Rückmeldung.

    Liebe Grüße

    1. Hallo Clara,
      interessante Hypothese!
      A) „Schlimme“ Antwort: Kommt drauf an. Kann man so sehen. Alternative: Weiß nicht = Fehlwert. Bleiben zwei Möglichkeiten, die man als dummycodiert auffassen kann (z. B. 0=nein, 1=ja). Dummycodierte Variablen können in vielen Verfahren (z. B. Regression) wie metrisch skalierte Variablen verwendet werden.
      B) Ja. Oft werden solche Variablen aber auch als (quasi-)metrisch aufgefasst und so verwendet.
      C) Am besten ist eine Kombination aus grafisch-visueller Analyse und einem statistischen Test. Zum Beispiel Histogramm mit Normalverteilungskurve. Normalverteilt (Gauß’sche Glockenform) heißt: die meisten Fälle liegen im mittleren Bereich – je näher an den Rändern, desto weniger Fälle. Test: Zum Beispiel Shapiro-Wilk-Test auf Normalverteilung.
      Das gilt für die kognitive Belastung. Die Planungsvariable kann bei so wenigen Ausprägungen nicht normalverteilt sein. Günstig für die Analyse wäre, wenn ja und nein einigermaßen ähnlich häufig auftreten. Problematisch wäre, wenn eine Antwortalternative nur ganz selten (z. B. weniger als 5 mal) vorkommt.
      D) Da gibt es mehrere Möglichkeiten. Die einfachste wäre ein t-Test für unabhängige Stichproben. Gruppenvariable: Planung ja/nein, abhängige: kogn. Belastung.
      Mögliche Erweiterung: Zusätzliche Variablen aufnehmen, z. B. Geschlecht und/oder Alter etc. Regressionsmodell mit kogn. Belastung als abhängiger Variable.
      Falls es Dir wichtig ist, bei Planung „weiß nicht“ mit zu berücksichtigen: Varianzanalyse (Anova) als Erweiterung des t-Tests.

  32. Hallo,
    ich habe ein Problem bei einer multiplen Regression. Und zwar weist meine abhängige Variable sowohl negative als auch positive Prozentwerte auf. Kann ich diese einfach so verwenden oder muss ich die Werte per Quadrierung zunächst alle positiv gestalten? Leider kann ich hierzu nirgends gute Informationen finden.
    Beste Grüße, Tobias

    1. Hallo Tobias,
      das ist prinzipiell kein Problem, die Werte der abhängigen Variable dürfen auch negativ sein.
      Das befreit Dich natürlich nicht davon, Modellvoraussetzungen zu testen und die Ergebnisse sorgfältig zu interpretieren.
      Viel Erfolg!

      1. Erstmal vielen Dank für die schnelle Antwort. Die Modellvoraussetzungen sind natürlich BLUE, so dass ich hier keine Probleme habe bzw. passende Modelle wähle.
        Mein Betreuer ist nur der Ansicht, dass die Prozentwerte sich gegenseitig ausgleichen würden und so falsche Ergebnisse geliefert werden und die ein absolutes No-Go ist. Allerdings ist es meiner Ansicht nach eher genau andersrum, da die eindeutig signifikante Variable bei einer Quadrierung nicht mehr signifikant ist und diese signifikant sein muss.
        Danke. Haben Sie eventuell einen Tipp in welchem Buch oder Onlinedokument man hierzu nähreres erfahren könnte?

        1. Literatur dazu habe ich grade nicht parat.
          Nach Deiner Beschreibung erscheint es mir weniger ein Problem der negativen Werte an sich zu sein, sondern eher eine Frage der Konstruktion der abhängigen Variable. Wie kommen die Prozentwerte zustande, sind sie direkt gemessen oder aus mehreren Variablen abgeleitet? Wie sind sie verteilt? Bei einer Quadrierung verliert man das Vorzeichen, d. h. was zuvor -20% waren, ist dann nicht mehr unterscheidbar von einem Wert, der zuvor +20% betrug. Ist das sinnvoll? (Das ist eine ernstgemeinte Frage – die Antwort kenne ich nicht, ohne den Kontext zu kennen – je nach Fragestellung kann die Antwort ja oder nein lauten.) Quadrierung erhöht auch die Bedeutung der Ausreißer.
          Ich würde weniger nach irgendwelchen „Regeln“ vorgehen, sondern mich möglichst an inhaltlichen Überlegungen orientieren. Was will ich messen und testen, und welche Art der Operationalisierung kommt dem Ziel inhaltlich am nächsten?
          Wenn negative Werte vermieden werden sollen, kann man das auch durch andere Transformationen erreichen, z. B. durch Addition des (negativen) Minimums, sodass der Wertebereich bei 0 beginnt.

  33. Hallo!
    Ich möchte eine multiple Regression rechnen, aber die Linearität und Homoskedastizität sind nicht erfüllt. Wie kann ich weiterverfahren?

    Liebe Grüße
    Tina

    1. Hallo Tina,
      da gibt es viele Möglichkeiten … Zum Beispiel:
      – prüfen, ob mit weiteren Prädiktoren bessere Anpassungen erreicht werden oder ob Prädiktoren ausgeschlossen werden sollten (z. B. bei Multikollinearität)
      – nichtlineare Terme aufnehmen
      – einflussreiche Ausreißer finden und ggf. ausschließen
      – die Regressionsdiagnostik beschreiben und diskutieren – die meisten Zusammenhänge sind nicht genau linear; bei vielen Modellen sind Voraussetzungen verletzt

  34. Hallo Herr Riepl,

    ich möchte Tests mit SPSS durchführen. Meine Daten sind nicht normalverteilt. Kann ich damit nur nicht-parametrische Tests durchführen oder auch zum Beispiel Kreuztabellen (Person-Chi²-Test) und Rangkorrelationen?

    Viele Grüße

    1. Hallo Seb,

      Chi² und Rangkorrelationen setzen keine Normalverteilung voraus. Chi² ist für kategoriale Daten, d. h. hier werden keine Rangfolgen berücksichtigt (anders gesagt: Die Sortierung der Kategorien spielt keine Rolle). Rangkorrelationen zähle ich zu den nichtparametrischen Verfahren.

      Die Abgrenzung (parametrische Verfahren nur bei NV) wird nicht immer so streng gesehen. Normalverteilungstests werden bei größeren Fallzahlen eher signifikant (im Sinne von keine NV) – gerade dann können die Tests Abweichungen von der NV besser kompensieren. Daher kann man auch grafische Methoden (z. B. Histogramm mit NV-Kurve) in die Entscheidung einbeziehen. Jürgen Bortz (Statistik für Human- und Sozialwissenschaftler) argumentiert, der t-Test reagiere robust auf Verletzungen seiner Voraussetzungen. (Problematisch wird es vor allem dann, wenn die Varianzen in den Gruppen ungleich sind und die Fallzahlen ebenfalls.)

  35. Sehr geehrter Herr Riepl,

    ich führe derzeit mit SPSS die Auswertung einer Befragung durch. Die Befragung hat innerhalb eines Unternehmens stattgefunden. Ich befinde mich derzeit bei den Tests um Unterschiede herauszufinden, allerdings Frage ich mich ob ich da die Angaben nur innerhalb eines Unternehmens gemacht wurden nur abhängige, verbundene Stichproben habe oder wäre es auch möglich, dass es unabhängig ist?

    Wenn Sie mir vlt kurz erklären könnten, wann ich Tests für abhängige Stichproben und wann für unabhängige Stichproben durchführe wäre ich Ihnen sehr dankbar. Wie gesagt sind die Daten alle nur innerhalb eines Unternehmens erfasst worden.

    1. Hallo Maik,

      es kommt auf die konkrete Fragestellung an. Viele Variablen können verwendet werden, um Gruppen zu bilden und zu vergleichen.

      Beispiel: Nehmen wir an, Sie vergleichen den Krankenstand zwischen zwei Abteilungen. Wenn es keine Zuordnung eines bestimmten Mitarbeiters in einer Abteilung zu einem bestimmten Mitarbeiter in der anderen Abteilung gibt, handelt es sich um unabhängige Stichproben.

      Anderes Beispiel: Sie messen den Krankenstand in einer Abteilung vor und nach einer Gesundheitsmaßnahme. Dann gibt es zu jedem Mitarbeiter zwei Messungen. Die Messung von Herrn Maier vor der Maßnahme ist der Messung von Herrn Maier nach der Maßnahme zugeordnet. (Anders formuliert: Der Test soll berücksichtigen, dass es sich hier 2x um dieselbe Person handelt.) Es handelt sich um abhängige Stichproben.

      Abhängige Stichproben können es auch sein, wenn es sich um verschiedene Messobjekte (z. B. Personen) handelt, aber mit klarer Zuordnung, zum Beispiel Trainings- oder Ehepartner.

      1. Sehr geehrter Herr Riepl,

        vielen Dank für die schnelle Antwort. Das erschließt sich mir soweit. Also angenommen ich habe bisher keine Gruppen, bilde aber einfach welche durch Zuordnung nach Geschlecht oder Einkommen etc. dann sind das unabhängige Stichproben?

        Auf ihr Beispiel bezogen, wenn ich nun eine Abteilung habe, in der der aktuelle Krankenstand abgefragt wird und zusätzlich dann eben noch Zusammenhang mit Geschlecht, Einkommen, Arbeitszeiten von den gleichen Personen in der Abteilung damit testen will. Unabhängige Stichproben?

        1. Ich weiß, „es kommt darauf an“-Antworten sind schrecklich, aber ich habe noch eine:
          Es kommt auf das Skalenniveau der Variablen an. Krankenstand metrisch (in Tagen / Jahr) und Geschlecht: Ja, unabhängige Stichproben.
          Krankenstand metrisch und Einkommen metrisch oder Arbeitszeiten metrisch: Dann machen Sie keinen Gruppenvergleich, sondern können z. B. Korrelationen berechnen. Da gibt es keine Auswahl zwischen abhängigen und unabhängigen Stichproben. Natürlich können Sie aus dem Einkommen oder den Arbeitszeiten Gruppen bilden (z. B. hoch / niedrig) und dann wieder Gruppenvergleiche mit unabhängigen Stichproben durchführen.
          „Von den gleichen Personen“ klingt missverständlich: Wenn Sie Frauen und Männer einer Abteilung vergleichen, dann haben Sie zwei Teilgruppen mit unterschiedlichen Personen.

  36. Hallo Herr Riepl,

    ich schreibe gerade meine Abschlussarbeit und muss dazu sechs Fragen eines ausgefüllten Fragebogens plus drei zusätzliche Fragen zu demographischen Daten mit SPSS analysieren. Leider habe ich von Statistik nun so gar keine Ahnung und weiß deshalb nicht welche Tests ich alles durchführen muss und hatte gehofft Sie könnten mir weiterhelfen. Die Fragebogen sind fertig ausgefüllt und alle Daten liegen vor. Ich muss also nun nur mit SPSS die Daten analysieren.

    Die ersten beiden Fragen befassen sich mit psychischen Problemen zu denen die Teilnehmer Angaben machen mussten. Sie hatten dabei die Auswahl anzukreuzen (immer, oft, manchmal, selten, nie) und diesen Antwortmöglichkeiten wurden die Zahlen 1 bis 5 zugewiesen.

    Die nächste Frage beschäftigt sich mit Erreichbarkeit durch das Handy. Die Teilnehmer konnten ja, nein oder trifft nicht zu ankreuzen. Dabei bekamen ja und nein die Zahlen 1 und 2 zugewiesen und trifft nicht zu die 98. Die nächste Frage ist gleich aufgebaut. und die dritte Frage auch mit 5 Antwortmöglichkeiten für die die Zahlen 1 bis 5 vergeben wurden und die Zahl 98 für keine Angabe.

    Die sechste Frage lässt sich nur mit ja oder nein beantworten und auch hier wurden den Antwortmöglichkeiten wieder die Zahlen 1 und 2 zugewiesen.

    Als letztes sind noch die demographischen Angaben. Eine Frage zum Geschlecht (männlich, weiblich) mit den zugewiesenen Zahlen 1 und 2. Eine Frage ob man eine leitenden Funktion inne hat (ja, nein) mit den zugewiesenen Zahlen 1 und 2. Und eine Frage zum Alter (unter 30, 30-44 Jahre, 45-55 Jahre, über 55) mit den zugewiesenen Zahlen 1 bis 4.

    Können Sie mir helfen und sagen was ich nun mit diesen Daten anfangen muss, welche Tests ich durchführen kann/muss?

    Viele Grüße,

    CESRL

    1. Hallo CESRL,
      danke für Ihren Kommentar!
      Zunächst ist es sinnvoll, Hypothesen zu formulieren. Es gibt ja verschiedene Möglichkeiten für Zusammenhänge zwischen den Variablen und es wird nicht erforderlich sein, alle Möglichkeiten auszuschöpfen. Was interessiert Sie besonders und welche Ergebnisse erwarten Sie?
      Dann ist es gut, die Skalenniveaus zu betrachten. Die mit 1 bis 5 codierten Fragen würde ich als ordinal betrachten (immer, oft, manchmal, selten sind nicht so genau definiert und meines Erachtens nicht als streng metrisch zu sehen; die Abstände zwischen den Kategorien sind nicht unbedingt gleich groß). Wenn Sie Gruppenvergleiche damit anstellen, empfehle ich nichtparametrische Tests. Zum Beispiel: Geben Frauen häufiger psychische Probleme an als Männer? Mann-Whitney-U-Test mit psychischen Problemen als abhängiger Variable, Geschlecht als Gruppenvariable.
      Die Werte 98 würde ich als Fehlwerte definieren, d. h. diese Probanden werden von den jeweiligen Analysen ausgeschlossen und man vergleicht Ja- mit Nein-Antworten.
      Wie gesagt gibt es recht viele Möglichkeiten und ich werde nicht alles in einem Kommentar beschreiben können …
      Viele Grüße,
      Wolf Riepl

      1. Hallo Herr Riepl,

        ich habe nun Hypothesen formuliert um diese zu testen. 2 Hypothesen sind durch jeweils nominal skalierte Fragen aufgestellt worden und 5 Hypothesen durch jeweils nominal und ordinal skalierte Fragen gemischt. Ich habe bereits gelesen, dass man sich aber in dem gemischten Fall, jeweils am „schwächsten Glied“ orientieren muss, also dann quasi nur Tests für nominal skalierte Fragen zulässig sind. Ich habe dafür nun ungerichtete Hypothesen aufgestellt, also muss ja zweiseitig getestet werden. Welche Tests kann ich nun damit durchführen? Nur den Pearson Chi Quadrat Test durch Kreuztabellen?

        Gruppenvergleiche anstellen habe ich verstanden, vielen Dank dafür. Und die Werte 98 habe ich nun als Fehlwerte definiert. Vielen Dank auch dafür.

        Viele Grüße,

        CESRL

        1. Hallo CESRL,
          es kommt darauf an, wie der „gemischte Fall“ aussieht. Wenn Sie Gruppenvergleiche durchführen wie in meinem vorigen Kommentar beschrieben, dann ist die Gruppenvariable nominal skaliert und die Testvariable ordinal. In diesem Fall nehmen Sie Tests für Ordinaldaten, z. B. den Mann-Whitney-U-Test. Die Gruppenvariable muss nicht ordinal sein.
          Bei Korrelationen zwischen ordinalskalierter und intervallskalierter Variable gilt Ihr Beispiel: Im Zweifel das nichtparametrische Verfahren, z. B. Rangkorrelation nach Spearman.
          Wenn Sie Kreuztabellen erstellen, können Sie mit dem Chi-Quadrat-Test prüfen, ob die Verteilung der einen Variable sich in den Untergruppen der anderen signifikant unterscheidet. Wenn dabei eine ordinalskalierte Variable verwendet wird, berücksichtigt der Test die Rangfolge nicht, sondern sieht nur die Kategorien, unabhängig von der Sortierung.

          1. Hallo Herr Riepl,

            bei nominal und nominal skalierter Frage dann den Pearson Chi Quadrat Test?

            Der gemischte Fall ist nicht ordinal- und intervallskaliert sondern nominal- und ordinalskaliert. Ich habe auch keine Gruppen, sondern einfach nur Daten/Angaben von einzelnen Personen eines Unternehmens bezüglich den Fragestellungen. Die Personen lassen sich nicht in eine oder die andere Gruppe einteilen. Also dann doch nicht den Mann-Whitney-U-Test oder?

            Kann ich sonst nichts mehr testen bei nominal- und ordinalskalierter, gemischter Hypothese?

            Eine Hypothese lautet dann zum Beispiel so: Es besteht ein signifikanter Zusammenhang zwischen der Erwartung durch Kollegen permanent erreichbar zu sein (nominal durch ja oder nein) und dem zu kurz kommen des Privatlebens durch die Arbeit (ordinal durch immer, oft selten, manchmal, nie, aber mit den Zahlen 1-5 versehen)

            Sorry für die Fragen, aber ich versteh leider noch nicht so viel darüber.

            Viele Grüße,

            CESRL

          2. > bei nominal und nominal skalierter Frage dann den Pearson Chi Quadrat Test?
            Ja. Wenn es zu viele Kategorien / zu kleine Fallzahlen werden, ggf. Gruppen zusammenfassen.

            > Der gemischte Fall ist nicht ordinal- und intervallskaliert sondern nominal- und ordinalskaliert. Ich habe auch keine Gruppen, sondern einfach nur Daten/Angaben von einzelnen Personen eines Unternehmens bezüglich den Fragestellungen.
            Sie können die nominalskalierte Variable als Gruppenvariable verwenden.

            Ihr Beispiel:
            Gruppenvariable: Erwartung, permanent erreichbar zu sein ja/nein (-> zwei Gruppen)
            Testvariable: Zu-kurz-Kommen des Privatlebens

            Weiter möchte ich es in den Kommentaren nicht mehr treiben …

  37. Hallo Herr Riepl,

    Ich bin ein ziemlicher SPSS-Neuling und komme momentan nicht weiter..
    Hier ist mein mein Problem:
    Um herauszufinden welche statistischen Tests für meine erhobenen Daten in Frage kommen, muss ich ja erstmal gucken ob meine Variablen normalverteilt sind. Mein Gesamtkollektiv lässt sich in zwei Gruppen unterteilen (Operationsmethode A und B). Diese beiden Gruppen will ich später hinsichtlich unterschiedlicher Parameter vergleichen (Blutverlust, OP-Dauer, etc.). Nun verstehe ich nicht, ob für den Normalverteilungstest für jede Variable ALLE Patienten (also beider OP Methoden zusammen) oder immer beide Stichproben einzeln auf Normalverteilung überprüft werden müssen. Ist letzteres der Fall, stellt sich mir die nächste Frage: Was mache ich wenn z.B. OP-Methode A hinsichtlich des Blutverlustes normalverteilt, OP-Methode B dies jedoch nicht ist. Entscheide ich mich dann grundsätzlich für nichtparametrische Testverfahren (z.B. U-test)?

    und noch eine andere Frage: Zu meiner Auswertung kommen auch dichotome Variablen (wie z.B. Intensivaufenthalt Ja/Nein). bei solch dichotomen Variablen, kann ja keine „Normalverteilung“ vorliegen. Benutze ich hierfür dann den chi²-Test oder besser den exakten Fisher-Test (exakter Chi²)?

    Ich hoffe meine Fragen machen Sinn und sind verständlich formuliert. Vielen vielen Dank im Voraus!

    1. Hallo Gäußchen,

      zum Normalverteilungstest: Exakter ist es, die Gruppen separat auf Normalverteilung zu prüfen. In der Praxis wird das allerdings oft nicht gemacht, sondern nur die Gesamtstichprobe getestet. Gibt es Abweichungen von der Normalverteilungsannahme, evtl. auch nur in einer Untergruppe, ist es streng genommen besser, einen nichtparametrischen Test durchzuführen. Hier gibt es allerdings erhebliche Spielräume. Z. B. schreibt Jürgen Bortz in Statistik für Human- und Sozialwissenschaftler, der t-Test reagiere robust auf Verletzungen seiner Voraussetzungen. Ich führe oft beide Tests durch (parametrisch und nichtparametrisch) und dokumentiere die Ergebnisse (den zweiten Test oft in einer Fußnote), dann ist man auf der sicheren Seite. Wenn sie zu unterschiedlichen Ergebnissen kommen, kann man das diskutieren.

      Ein Haken an Normalverteilungstests ist, dass sie eher bei großen Stichproben signifikant werden (im Sinne von signifikanter Abweichung von der Normalverteilung) und gerade bei großen Stichproben die Verfahren auch mit solchen Abweichungen robuster funktionieren. Bei kleinen Stichproben werden sie nicht so leicht signifikant, obwohl gerade da Abweichungen von der Normalverteilung kritischer sind. Empfehlung: Normalverteilung auch optisch prüfen (z. B. Histogramm mit Normalverteilungskurve).

      Der Fisher-Test ist dem Chi-Quadrat-Test vor allem bei sehr kleinen Stichproben überlegen. Für den Chi-Quadrat-Test sollten die erwarteten Häufigkeiten nicht (zu oft) unter 5 liegen.

      Hoffe das hilft weiter. Viel Erfolg!

  38. Hallo Herr Riepl,

    auf der Suche nach statistischen Methoden, die ich für meine Abschlussarbeit verwenden kann, bin ich auf Ihrer Seite gelandet. Ich hoffe Sie können mir ein wenig weiterhelfen bei der Auswahl der Methode(n).
    In meiner Arbeit untersuche ich die Arbeitgeberattraktivität der Gesundheitsbranche und habe dazu über einen Online-Fragebogen die Daten erhoben. Die meisten Daten sind nominalskaliert und univariat, diese würde ich mit einfacher deskriptiver Statistik darstellen. Jedoch habe ich insgesamt 5 Fragebogenitems mit einer fünf-stufigen Likert-Skala, hier würde ich die Mittelwerte berechnen und über einen T-Test überprüfen, ob die Mittelwerte signifikant verschieden sind. Die Skalen sollen jedoch mit den Daten des Geschlechtes kombiniert werden, ist dies so möglich?
    Eine weitere Frage ist mit welcher Methode ich von meiner Stichprobe auf die Grundgesamtheit schließen kann?

    Wie sie wahrscheinlich gemerkt haben bin ich statistisch ziemlich ahnungslos, deshalb verzeihen Sie mir bitte mögliche Fehler.

    Vielen Dank schon einmal im Voraus,
    Marcel S.

    1. Hallo Marcel,

      bei mehr als zwei Einzelvergleichen würde ich Varianzanalyse gegenüber t-Test bevorzugen. Bei mehreren Tests steigt die Wahrscheinlichkeit, dass mal „zufällig“ ein signifikantes Ergebnis dabei ist. Deshalb sollte der gesamte Hypothesenkomplex auf dem gewünschten Alpha-Niveau abgesichert werden. Salopp gesagt: Ein t-Test weiß nichts von den anderen t-Tests; in der Varianzanalyse kann man mehrere Einzelvergleiche zusammenfassen.
      Geschlecht mit berücksichtigen: Kommt drauf an, wie die Hypothesen lauten. Man kann für jeweils ein Item (oder eine Skala) die Geschlechter vergleichen: t-Test für unabhängige Stichproben. Oder Geschlecht als Kontrollvariable in einem komplexeren Modell, z. B. Varianz- oder Regressionsanalyse.

      Schluss von der Stichprobe auf die Grundgesamtheit: Das ist im Grunde die Idee hinter allen Signifikanztests, also keine Frage einer ganz bestimmten Methode. Neben der Statistik gehören Überlegungen dazu, wie die Grundgesamtheit definiert ist und ob die Stichprobe diese abbildet. Sind relevante Merkmale in der Stichprobe ähnlich verteilt wie in der Grundgesamtheit? Handelt es sich um eine Zufallssstichprobe? Etc.

      Eine detaillierte Betreuung kann ich in nächster Zeit leider nicht leisten, bin mit Projekten ausgelastet.

      Viele Grüße!

      Wolf

  39. Hallo,

    ich bin momentan auf der Suche nach dem geeigneten statistischen Testverfahren, um verschiedene Bedingungen innerhalb einer Stichprobe miteinander zu vergleichen.
    Es geht um eine recht kleine Stichprobe von ca. 20 Teilnehmern, die verschiedene Objektbewegungen auf einem Computerbildschirm identifizieren sollen.
    Vergleichen möchte ich dann Unterschiede in Genauigkeit der Antworten was zum Beispiel große und kleine Distanzen oder rechts und links angeht.
    Es handelt sich immer um eine Entscheidung zwischen: Ja, es hat eine Bewegung stattgefunden und Nein, es gab keine Bewegung.

    Da ich bisher wenig Erfahrung mit statistischer Auswertung habe, würde ich mich über einige Denkanstöße bezüglich der Auswahl eines geeigneten Verfahrens sehr freuen.

    Vielen Dank!

    1. Hallo Josefine,
      die kleine Stichprobe spricht meines Erachtens für nichtparametrische Verfahren. Bei Messwiederholung und dichotomem Merkmal (wie ja/nein) passt evtl. der McNemar-Test?

      1. Guten Morgen,

        vielen Dank für die schnelle Antwort! Nachdem ich alles noch einmal überdacht habe, ist mir aufgefallen, dass die Antwortmölichkeiten zwar ja/nein sind, die Anzahl der richtigen/falschen Antworten jedoch eine ganzzahlige Zahl sein wird, die normalverteilt ist. Aus diesem Grund tendiere ich zum momentanen Zeitpunkt zum t-test für eine einzige Stichprobe ohne Messwiederholungen. Auf diesem Wege müsste ich die beiden Bedingungen, die ich jeweils gegenüberstellen möchte mit einem Erwartungswert vergleichen können. Ist das richtig, oder denken Sie, dieser Test ist ungeeignet?
        Beste Grüße,
        Josefine

        1. Guten Morgen Josefine,
          hört sich gut an, Anmerkungen:
          Werden zwei Bedingungen verglichen, für die Sie eigene Daten haben? Jeder Teilnehmer hat jede Bedingung absolviert? t-Test für abhängige Stichproben (Messwiederholung)
          Vergleich zweier Bedingungen, wobei einige Teilnehmer Bedingung A absolviert haben, einige Bedingung B: t-Test für unabhängige Stichproben
          Vergleich einer Messung (Variable, Spalte) aus ihren Daten mit einem Erwartungswert, der nicht aus ihrem Datensatz stammt: t-Test für eine Stichprobe

          Bitte beachten: Wenn Sie sehr viele t-Tests durchführen, dann steigt die Wahrscheinlichkeit, zufällig ein signifikantes Ergebnis zu erzielen – Fachbegriff Alpha-Fehler-Kumulierung. Auf der verlinkten Webseite gibt es eine Anleitung, wie man manuell das Signifikanzniveau anpassen kann: p-Wert durch Anzahl der Einzelvergleiche teilen. Um der Alpha-Fehler-Kumulierung entgegenzuwirken, gibt es bei Varianzanalysen die Post-Hoc-Tests.

  40. Hallo Herr Riepl,

    ich hoffe Sie können mir bei meiner Methodenauswahl ein wenig behilflich sein, meine Dozentin ist momentan nicht erreichbar und Ich bin nicht so fit auf diesem Gebiet, da wir es in der Hochschule nie wirklich gelernt haben.

    Ich habe schon ein wenig Vorarbeit geleistet und meine Daten per Häufigkeitsverteilung, Mittelwert, etc. genauer betrachtet. Ich habe auch schon eine Faktorenanalyse durchgeführt um zu sehen welche Variablen für die FA geeignet sind.
    Jetzt geht es darum wie ich meine Hypothesen, mit welchen Methoden auswerten kann.
    Leider ist es so dass meine Dozentin von der Hochschule zwei Tests unbedingt haben möchte.
    2 multivariate Hypothesen anhand 2 multivariate Tests prüfen – Clusteranalyse, Regressionsanalyse mit Mediator oder Moderator oder Varianzanalyse mit oder ohne Messwiederholung.

    Welche Tests kann ich für welche Hypothese verwenden und sind meine Hypothesen überhaupt geeignet für für diese multivariaten Tests?

    Zuerst zu meinen Hypothesen:

    H1: Auf den einzelnen Social Media Plattformen sind mehr weibliche, als männliche Nutzer angemeldet.
    H2: Frauen sind prinzipiell zufriedener als Männer, in Bezug auf Social Media Plattformen.
    H3: Singles sind pro Tag länger auf Social Media Plattformen unterwegs, als Personen die in einer Beziehung bzw. verheiratet sind.
    H4: Männer wünschen sich weniger Werbeanzeigen auf Social Media Plattformen, als Frauen.
    H5: Jüngere Social Media Nutzer finden Werbeanzeigen interessanter, als Nutzer die älter als 30 Jahre sind.

    Stichprobengröße: n=212
    Thema: Social Media, Werbeanzeigen

    Können Sie mir bei meinem Problem helfen?
    Vielen Dank.

    Viele Grüße
    Sabrina

    1. Hallo Sabrina,
      danke für Ihre Nachricht!
      Ihre Hypothesen kann man bivariat testen, d. h. sie setzen jeweils zwei Variablen in Beziehung. Für multivariate Tests brauchen Sie mindestens drei Variablen.
      Clusteranalysen würde ich ausschließen, wenn Sie nahe an den bisherigen Hypothesen bleiben wollen – das ist ein exploratives Verfahren, bei dem man Gruppen bildet, d. h. es gibt keine Unterscheidung in abhängige und unabhängige Variablen. Regressionsanalysen oder Varianzanalysen sind besser geeignet, um ihre Hypothesen auf multivariate Anwendung zu erweitern.
      Für Messwiederholungen bräuchten Sie passende Daten. Die Hypothesen klingen eher nach Daten, die nur zu einem bestimmten Messzeitpunkt erhoben wurden. (Man kann allerdings auch den Vergleich verschiedener Social Media-Plattformen als Messwiederholungen modellieren.)

      Beispiel für eine multivariate Hypothese:
      Unter Kontrolle des Alters sind Frauen zufriedener als Männer in Bezug auf Social Media-Plattformen.
      Diese Hypothese können Sie mit Regressions- und Varianzanalysen testen.

      Moderator: Wechselwirkung, d. h. der Effekt einer Variable auf eine andere ist unterschiedlich je nach Ausprägung des Moderators.
      Mediator: Eine Drittvariable „vermittelt“ den Zusammenhang zwischen zwei anderen Variablen.

      1. Vielen Dank Wolf, dass du mir so schnell geholfen hast. Es ist manchmal echt schwierig herauszufinden welcher Test für welche Variablen geeignet ist. Das ist glaube ich für die meisten das schwierigste.
        Viele Grüße
        Sabrina

  41. Hallo,

    ich hoffe sehr auf Ihre Hilfe mit Methodenauswahl für meine Analyse.

    Ich habe folgende Daten:
    1. Ein Wert (eine abhängige Variable) für ca. 200 Unternehmen für Jahre 2004-2015. Für jedes Jahr gibt’s Daten für ca. 200 Unternehmen.

    2. Mehrere unabhängige Variablen (über 20), die die obengenannte abhängige Variable beeinflussen. Daten gibt’s auch für den Zeitraum 2004-2015 und für ca.200 Unternehmen.

    3. Einige unabhängige Variablen, die später als 2004 eingeführt wurden und die es nicht für alle Unternehmen gibt.. Manche wurden 2008 eingeführt (dann ist der Zeitraum für diese Variablen 2008-2015), andere 2012 (2012-2015) usw.

    Nun habe ich ein paar Fragen:
    1. Wie kann man analysieren, wie groß der Einfluss von jeder der unabhängigen Variable (s.o. Punkt 2) auf die abhängige Variable für die gesamte Zahl der Unternehmen ist?

    2. Kann man Analysieren, ob die Aufnahme neuer Variablen in den Datensatz (s.o.Punkt 3) einen Einfluss auf die abhängige Variable hat? Und wenn ja, wie groß dieser Einfluss wäre?

    Ich hoffe sehr auf Ihre Antwort! Würde mich auf jede Rückmeldung freuen!

    Vielen Dank!
    MfG
    Karelia P.

    1. Guten Abend Karelia,

      ja, das geht, aber es ist sehr fortgeschritten. Stichworte: Panelanalyse, GEE-Modelle (GEE = Generalized Estimating Equations).

      Viele Grüße,

      Wolf

  42. Hallo,
    Kenne mich leider statistisch nicht so gut aus und habe folgendes Problem.

    Habe diverse Daten von Banken, die ich in drei nicht überschneidende Banken-Gruppe gegliedert habe. Die Kennzahlen sind entweder von 0-100% oder theoretisch von minus unendlich bis plus unendlich. Eine Gruppe besteht nur aus 5 Teilnehmern.

    Ich möchte jetzt einen Mittelwertvergleich durchführen um signifikante Unterschiedeuu finden. Habe eine einfaktorielle ANOVA ausprobiert mit einem posthoc Test. Bin mir aber nicht sicher ob das richtig ist.

    Was musste man anwenden wenn Normalverteilungoder varianzhomogenität nicht gegeben sind bzw kann man die ANOVA überhaupt für alle oben genannten Tests anwenden?

    Danke jetzt schon für jede Antwort!
    LG Armin

    1. Hallo Armin,
      bei diesen kleinen Fallzahlen würde ich keine Anova nehmen oder wenn es unbedingt sein soll, dann wenigstens zusätzlich nichtparametrisch absichern. Die nichtparametrische Alternative ist der Kruskal-Wallis-Test. Er arbeitet nicht mit den Originalwerten, sondern mit Rangplätzen. Streng genommen macht man damit keinen Mittelwertvergleich, sondern einen Vergleich der „zentralen Tendenz“.
      Neuere SPSS-Versionen bieten auch dafür Post-Hoc-Tests an.
      Viel Erfolg!

      1. Vielen Dank für die Antwort Wolf!

        Ich habe gelesen das Kruskal Wallis Tests Probleme bei ungleichen Varianzen habe und es wurde ein Welch Test empfohlen. Kannst du dem zustimmen und würde das bei meinen Daten sinnvoll sein?

        1. Kruskal Wallis ist meines Wissens eine Alternative, wenn die Anova aufgrund ungleicher Varianzen problematisch ist. Da Kruskal Wallis nichtparametrisch (mit Rangplätzen) arbeitet, geht es nicht um Varianzgleichheit.

          Welch ist meines Wissens eine Korrektur bei t-Tests für ungleiche Varianzen.

          Anders gesagt: Kruskal Wallis müsste noch unempfindlicher gegenüber ungleichen Varianzen sein als t-Tests mit Welch-Korrektur.

  43. Hallo,

    ich versuche aktuell herauszufinden, wie sich die Arbeitsfähigkeit von Mitarbeitern einer Firma innerhalb von fünf Jahren verändert hat und suche dazu den richtigen Test.

    Gemessen wird die Arbeitsfähigkeit mit einem Fragebogen und es liegen insgesamt fünf Messzeitpunkte mit unterschiedlicher Teilnehmeranzahl vor. Nun möchte ich genau wissen, inwieweit sich die einzelnen Messungen unterscheiden und zudem die Ergebnisse anhand von 3 vorher festgelegten Altersgruppen analysieren, also welche Altergruppe sich wie verändert hat. Leider fehlt mir dazu das statistische Fachwissen, um sicher den richtigen Test auswählen zu können und hoffe deshalb hier auf Hilfe.

    Wenn meine Beschreibung verständlich ist, würde ich mich über eine Antwort sehr freuen. Vielen Dank vorab.

    1. Hallo Sven,
      klingt nach Varianzanalyse mit Messwiederholung. Mit welcher Software willst Du das analysieren? In SPSS z. B. unter Allgemeines Lineares Modell – Messwiederholung. Within Subjects: Veränderungen innerhalb der Mitarbeiter im Zeitverlauf; Between Subjects: Unterschiede zwischen Mitarbeitern (z. B. Altersgruppen).
      Die ganze Theorie dazu und die Optionen kann man nicht so kurz beschreiben …
      Viele Grüße!
      Wolf

      1. Hallo Wolf,

        vielen Dank für die rasche Antwort. Ja, ich werte die Daten mit SPSS aus. Nun bin ich dch mit Ihrer Antwort bereits ein Stück weiter gekommen. Da werde ich jetzt ansetzen und mich weiter schlau machen, um die einzelnen Schritte zu verstehen und anwenden zu können. Vielen Dank

        Sven

  44. Hallo ich bin gerade dabei drei Hypothesen zu überprüfen, leider sind meine Kenntnisse nicht sehr gut vor allem da ich nicht weiß welche Tests ich machen soll damit ich diese überprüfen kann.

    Ich hab folgende Hypothesen: Die Sympathie ist für Frauen bei einer Bankberatung wichtig, als wie für Männer
    Zweite: Angebot des Online-Bankings verwenden mehr Frauen als Männer und die Dritte: Männer sind eher unzufrieden mit ihrer Bankberatung als Frauen

    Alle drei Hypothesen hängen mit dem Geschlecht zusammen, ich habe es schon mit dem Mittelwert probiert aber damit kann ich meine Hypothesen nicht wirklich überprüfen. Bei der dritten Hypothese zum Beispiel möchte ich ja wissen wie viele Männer bei der Zufriedenheit des Bankberaters gesagt haben das es voll zutrifft, weniger zu trifft, zu trifft und nicht zu trifft.

    Kann mir jemand dabei helfen und mir sagen mit welchen Tests ich diese drei Hypothesen überprüfen kann?

    1. Hallo Claudia,

      ich fang mal in der Mitte an, weil die zweite Hypothese anders zu testen ist: So wie ich sie verstehe, ist das eine Kreuztabelle aus Online-Banking ja/nein und Geschlecht mit 2×2 = 4 Feldern. Da passt die unten stehende Antwort auf Lisa M.

      Bei der ersten und dritten Hypothese kommt es u. a. auf die Fallzahlen und Verteilungen an. Man könnte für Sympathie und Zufriedenheit schon Mittelwerte nehmen, wenn diese beiden Merkmale annähernd normalverteilt sind (grafische Überprüfung: z. B. Histogramm mit Normalverteilungskurve oder QQ-Plot; statistischer Test: z. B. Shapiro-Wilk). Dann t-Test für unabhängige Stichproben, Geschlecht jeweils als Gruppenvariable. Bei Nicht-Normalverteilung, kleiner Fallzahl und/oder sehr ungleichen Gruppengrößen (Anzahl Frauen vs. Männer) gibt es als Alternative den nichtparametrischen Mann-Whitney-U-Test.

      1. Vielen Lieben Dank für deine schnelle Hilfe.
        Die Kreuztabelle zeigt mir sehr gut wie viele Frauen und Männer was geantwortet haben.

  45. Hey,

    ich bin völlig in ahnungslos in Sachen Statistik und muss jetzt aber mit Spss meine Fragebogendaten auswerten.

    Ich habe folgende hypothese:

    Leistungsorientierte Badmintonspieler halten die Dienst- und Serviceleistungen des DBV für wichtiger als die freizeitorientierten Badmintonvereinsspieler.

    Dazu habe ich in meinen Daten einmal die Angabe zu der Spielorientierung meiner Stichprobe (1=Freizeitorientiert 2=Leistungsorientiert) und zu den jeweilien Dienst- und Serviceleistungen hab ich jeweils die Antwortmöglichkeit (1= sehr wichtig; 2=weniger wichtig)

    Es wäre super, wenn du mir sagen könntest welcher Test der richtige ist um meine Hypothese zu überprüfen. Vielen Dank!

    1. Hallo Lisa,

      mach eine einfache Kreuztabelle. Es gibt hier ja nur 2×2 = 4 Felder. Als Test würde ich den Chi-Quadrat-Test nehmen bzw. bei kleiner Fallzahl (Warnung unter der Tabelle, wenn Zellen eine erwartete Häufigkeit < 5 aufweisen) den exakten Test nach Fisher (beides steht in der Ergebnistabelle). Fisher hat noch den Vorteil, dass ein einseitiger Signifikanzwert angegeben wird. Du hast eine gerichtete Hypothese, da Du angibst, in welche Richtung Du einen Unterschied erwartest. Dadurch kannst Du einseitig testen und wirst mit einem kleineren p-Wert "belohnt". (Im Zweifelsfall Chi-Quadrat und Fisher berichten.) Falls der Unterschied in die andere Richtung weist (freizeitorientierte Badmintonspieler halten die Serviceleistungen häufiger für sehr wichtig), ist die Hypothese unabhängig vom p-Wert widerlegt. Die Nullhypothese lautet: Die relativen (=prozentualen) Häufigkeiten der Antwortmöglichkeiten "sehr wichtig" und "weniger wichtig" hinsichtlich der Serviceleistungen sind in beiden Gruppen der Badmintonspieler gleich. Ein signifikanter p-Wert (kleiner oder gleich 0,05) bedeutet, die Unterschiede sind signifikant. Viel Erfolg! Wolf

      1. Hallo Wolf,

        ich sitze gerade an der Auswertung meiner erhobenen Parameter und weiß nicht weiter 🙁

        Ich habe eine Interventions- und Kontrollgruppe. Pro Gruppe habe ich 9 Probanden. Ich habe einen Pre- und Posttest gemacht, bei dem ich 2 Parameter gemessen habe. Die Prüfung auf Normalverteilung mit dem Shaprio-Wilk-Test hat eine Normalverteilung ergeben. Aber welchen Test nehme ich jetzt? Den T-Test für abhängige Stichproben kann ich nicht nehmen, da ich ja nicht genügend Fälle habe. Ist dann der Wilcoxon-Test der richtige? Oder doch eher eine einfache Varianzanalyse mit Messwiederholung?

        Vielen Dank für deine Antwort!

        1. Hallo Tatjana,

          bei N=18 (bzw. 9 pro Gruppe) würde ich nicht von einer Normalverteilung ausgehen (mit so wenigen Punkten kann man kaum eine Gaußsche Glockenform nachbilden). Daher halte ich nichtparametrische Tests für angemessener – in dem Fall Wilcoxon. Der t-Test für abhängige Stichproben ist ein Spezialfall der Varianzanalyse mit Messwiederholung – die beiden Verfahren müssten zum gleichen Ergebnis kommen und beruhen auf den gleichen Voraussetzungen. Wenn man den t-Test nicht will, sollte man die Varianzanalyse auch nicht nehmen.

          Manche sehen es nicht so streng, z. B. Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler: „Der t-Test reagiert robust auf Verletzungen seiner Voraussetzungen.“ Wenn Du es also ausführlicher machen willst, kannst Du t-Test und Wilcoxon-Test machen, die Ergebnisse vergleichen und diskutieren. Im Zweifelsfall würde ich hier mehr auf Wilcoxon vertrauen.

          Viel Erfolg,

          Wolf

          1. Hallo, bemerkenswerte Arbeit die hier passiert… darf man dafür auch bezahlen? Das Geld wäre es allemal wert… Ich habe nämlich auch eine Frage. In meiner Masterarbeit nutze ich 4 Fragebögen: Becks-Dep.Inventar (BDI), ASKU, WHO5 und eine Resilienzskala RS13… es geht um die Resilienzwerte in 3 verschiedenen Gruppen und Korrelatonen mit den restlichen Werten und ich bin ziemlich ratlos, mit welchen Analysen ich da dran gehen soll…
            lieben Gruß
            Susanne

          2. Hallo Susanne,
            danke für Deinen Kommentar! Leider biete ich zur Zeit keine Auswertungen an – bin voll mit R-Schulungen ausgelastet.
            Vielleicht magst Du es bei Daniela Keller (Statistik + Beratung) versuchen?
            Viele Grüße und viel Erfolg
            Wolf

Schreibe eine Antwort zu Lis Antwort abbrechen