Studie: Befragung zum subjektiven Signifikanzniveau

Verteilungsfunktion des subjektiven Signifikanzniveaus

Der Untersuchungsgegenstand der folgenden Studie ist die wissenschaftliche Konvention des 5%-Signifikanzniveaus. Vorliegende Signifikanz per se weist lediglich darauf hin, dass eine anfangs aufgestellte Hypothese (mit einer gewissen statistischen Sicherheit) keine Gültigkeit besitzt. Häufig erfolgt die Beweisführung hier durch einen Widerspruch (lat.: reductio ad absurdum). Daher weist eine verworfene Hypothese darauf hin, dass die widersprüchliche Annahme abgelehnt werden kann.

Beispiel: Nullhypothese „Fairer Würfel“ / Alternativhypothese „Gezinkter Würfel“

Als Beispiel lässt sich hier der Beweis des gezinkten Würfels anfügen. Um den statistischen Beweis des in irgendeiner Form gezinkten Würfels zu erbringen, geht man in der Hypothese von einem fairen Würfel aus. Man berechnet anschließend die Wahrscheinlichkeit, dass eine solche Verteilung der Augenzahlen oder eine noch extremere (extrem im Sinne von: noch größere Abweichungen zur theoretisch fairen Verteilung) – unter der Annahme eines fairen Würfels – zustande kommt. Liegt diese Wahrscheinlichkeit (sog. p-value) unter einem vorgegebenen Signifikanzniveau, so würde man die Hypothese des fairen Würfels ablehnen und die Alternativhypothese annehmen. Die Alternativhypothese besagt lediglich, dass der Würfel nicht fair, sondern beispielsweise in irgendeiner Form gezinkt ist.

Signifikanz bedeutet nicht inhaltliche Relevanz

Die ermittelten Unterschiede zur theoretischen Hypothese (z.B. Zufallshypothese) können auch bei hoher ausgewiesener Signifikanz sehr klein sein. Die Signifikanz steigt ceteris paribus mit der Effektstärke und der Stichprobengröße. Das Signifikanzniveau gibt an, wie hoch der Fehler 1.Art (α-Fehler) – d.h. das Ablehnen der Hypothese, obwohl diese in Wahrheit zutrifft – ist.

Entspricht das übliche 5%-Niveau dem subjektiven Empfinden?

Für den Fall, dass Differenzen zwischen dem Signifikanzniveau der Allgemeinheit und demjenigen der Wissenschaft vorliegen, würde die Wissenschaft entweder Erkenntnisse als signifikant publizieren, die die Gesellschaft selbst noch nicht als signifikant ansieht (niedrigeres subjektives Signifikanzniveau (=subj. SN) als 5%) oder sie würde Erkenntnisse als nicht signifikant einstufen (und somit als nicht relevant), die die Gesellschaft schon als signifikant empfindet (höheres subj. SN als 5%). Das ist möglich, da Signifikanz ein subjektiver Begriff ist, und das was Personen als signifikant empfinden, sich somit auch voneinander unterscheiden kann.

Die Anregung zur Durchführung der Studie stammt von Dubben/Beck-Bornholdt [Beck- Bornholdt, Hans-Peter; Dubben, Hans-Hermann (2010)]. Die Antworten der eigens durchgeführten Studie wurden mittels persönlichen Interviews erhoben. Im Detail soll hier überprüft werden, ob die wissenschaftliche 5%-Konvention des Signifikanzniveaus mit den Überzeugungen der Allgemeinheit vereinbar ist. Die Studie erhebt keinen Anspruch repräsentativ zu sein. Die statistisch belastbaren Aussagen begründen sich mehr auf der Stichprobengröße als auf der Repräsentativität. Zur Ermittlung des subj. SN werden den Probanden 3 Fragen gestellt, anhand derer das subj. SN ermittelt wird. An der Studie nahmen 54 Probanden teil. Davon sind 34 männlich und 20 weiblich. Somit liegen 162 Subjektive P-Values vor (=SPV) [54×3 (PV der Münze, des Würfels und des Zeitintervalls)]. Durch die arithmetische Mittelwertbildung der SPVs aus Frage 1 und Frage 3 gelangt man zum subj. SN des Probanden. Die 54 PVs der Frage 2 werden für diese Berechnung ausgeschlossen, da der Leverage-Effekt [engl. für  Hebeleffekt] auf das subj. SN als zu groß angesehen wird. Die Ergebnisse werden dennoch separat aufgeführt. Es mag paradox erscheinen, das SN für die folgenden Ausführungen auf die wissenschaftliche Konvention (5%) festzusetzten, da selbige dieser Studie inhärent ist. Jedoch ändert dies nichts an den statistischen Aussagen, da sich kein P-Value in einem kritischen Bereich befindet.

Frage 1:         Münzwürfe

Wie oft muss bei einem Münzwurfexperiment nacheinander die gleiche Ausprägung erscheinen, damit sie nicht mehr an den Zufall glauben, sondern bspw. an eine gezinkte Münze oder anderweitige Manipulationen?

Frage 2:         Würfelwürfe

Wie oft muss bei einem Würfelwurfexperiment nacheinander die gleiche Ausprägung erscheinen, damit sie nicht mehr an den Zufall glauben, sondern bspw. an einen gezinkten Würfel oder anderweitige Manipulationen.

Frage 3:         Zeitintervall

Wie groß darf für sie das geschätzte Zeitintervall maximal sein, innerhalb dessen ihnen eine Person die Uhrzeit ihrer Geburt (ihr Geburtsdatum ist irrelevant) korrekt bestimmt, damit sie nicht mehr an den Zufall glauben, sondern bspw. daran, dass diese Person ein Vorwissen diesbezüglich gehabt haben muss?

Ergebnisse der Studie

Häufigkeitsfunktion des subjektiven Signifikanzniveaus
Häufigkeitsfunktion des subjektiven Signifikanzniveaus

Das durchschnittliche subjektive SN liegt nach Auswertung der Ergebnisse bei 5,8%. Dieses ermittelte Signifikanzniveau unterscheidet sich allerdings nicht signifikant (PV: 36,8%) von der wissenschaftlichen 5%-Konvention. Der Anteil der Probanden, deren subj. SN unter 5% liegt, beträgt 55,6%. Der Median liegt bei 4,2%. Die Spannweite reicht von 0,1% im Minimum bis hin zu 31,3% im Maximum. Die 2/3-Spanne erstreckt sich von 1,0% bis hin zu 10,7%.



Verteilungsfunktion des subjektiven Signifikanzniveaus
Verteilungsfunktion des subjektiven Signifikanzniveaus

Die Standardabweichung beträgt 6,0% und der Variationskoeffizient hat somit einen Wert von 1,1. Die untere Grenze des 95%- Konfidenzintervalles (=KI) des Stichprobenmittelwertes liegt bei 4,1% und die obere Grenze bei 7,4%. Des Weiteren ließ sich keine statistische Evidenz für einen signifikanten Unterschied in den subj. SNs zwischen Männern und Frauen nachweisen (PV: 18,9%).

Ergebnisse der Frage 2        (Würfelwürfe)

Das arithmetische Mittel der SPVs liegt hier bei 2,62%. Dieser Wert unterscheidet sich statistisch signifikant von der wissenschaftlichen Konvention (PV: 4,2%). Der Median ist 0,3%. Die Standardabweichung beträgt hier 8,4%, sodass der Variationskoeffizient dem Wert 3,2 entspricht. Der Anteil der Probanden, deren SPV bei dieser Fragestellung die 5% unterschreitet, liegt bei 88,9%. Das 95%-KI des Stichprobenmittelwertes liegt zwischen 0,4% und 6,4%. Auch hier gibt es keinen signifikanten Unterschied zwischen den PVs der Männer und jenen der Frauen (PV: 39,2%)

Interpretation der Ergebnisse

Die Vereinbarkeit der wissenschaftlichen Konvention mit dem Glauben der Allgemeinheit lässt sich anhand der Ergebnisse nicht widerlegen. Mit Ausnahme der Resultate der Frage 2 finden sich keine statistisch signifikanten Abweichungen. Die Probanden sind zwar leicht „misstrauischer“ gegenüber der Zufallshypothese als die Wissenschaft, allerdings nicht in einem signifikanten Ausmaß (subj. SN der Probanden: Ø 5,8% vs. 5% SN der Wissenschaft). Bei Frage 2 ist zu vermuten, dass die Probanden die zu Grunde liegenden Wahrscheinlichkeiten stark überschätzen [1], daher sind diese Ergebnisse mit großer Vorsicht und separat zu betrachten. Die durchgehend starke Streuung lässt jedoch darauf schließen, dass es individuell starke Unterschiede gibt. Das untere Sechstel weist einen subj. SN von ca. 1% und das obere Sechstel von ca. 10,7%. auf. Dies zeigt, dass bei einem nennenswert großen Anteil der Probanden (ca. 1/3) ein deutlich niedrigeres oder höheres subj. SN im Vergleich zur wissenschaftlichen Konvention zu beobachten ist. Demnach sind nicht alle subj. SNs mit der wissenschaftlichen Konvention vereinbar. Dies lässt die Schlussfolgerung zu, dass diese Personen nicht an gewisse wissenschaftliche Erkenntnisse [2] glauben würden, wenn sie wüssten, welchen PV die Ergebnisse aufweisen. Ebenso kann der Fall eintreten, dass Personen wissenschaftliche Erkenntnisse bereits für signifikant halten, die die Wissenschaftler aber nicht publizieren, da der PV der Erkenntnisse über 5% liegt.

Grenzen der Studie

Die Grenzen der Studie liegen darin, dass die ermittelten subj. SNs höchstwahrscheinlich nicht als generelle subj. SNs für die Beurteilung sämtlicher Erscheinungen zu beobachten sind. Dennoch ist zu vermuten, dass diese hierfür eine gute Approximation liefern. Diese Studie soll zeigen, dass die wissenschaftliche Konvention bzgl. des Signifikanzniveaus hinterfragbar ist. Sie stellt dadurch keine Gesetzmäßigkeit dar. Jedes Individuum kann ein eigenes Signifikanzniveau „besitzen“ und glaubt somit entweder früher oder später an eine nicht zufällige, systematische Erscheinung. Es gibt hierbei eigentlich keine normativen Gebote, die Aussagen darüber treffen, welcher PV als Grenze des Akzeptanzbereichs der (Null-)Hypothese dienen sollte. Doch die Wissenschaft tut dies implizit, indem sie Erkenntnisse publiziert, die immer einer gewissen Unsicherheit unterliegen, da sie theoretisch rein zufällig entstanden sein könnten. Der breiten Öffentlichkeit wird somit mit der 5%- Konvention mehr oder minder „vorgeschrieben“, wann sie an das Zutreffen einer Erkenntnis zu glauben hat. Dadurch ist die Öffentlichkeit gezwungen diese als richtig zu erachten. Wird zudem der kritische PV posteriori festgelegt, lässt sich sowieso jedes beliebige Ergebnis als signifikant ausweisen [3]. Anstatt lediglich die Signifikanz auszuweisen, sollte stets der dazugehörige PV angegeben werden. Auf diese Weise könnte sich der kundige Leser selbst ein Urteil über das Vorliegen einer etwaigen Signifikanz bilden.

Alle Berechnungen wurden mittels der Statistiksoftware R durchgeführt.

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.

Autor:  © Tim Scheffczyk (Bachelor of Science Volkswirtschaftslehre)

[1] Leverage-Effekt:
So waren bei Frage 2 z.B. sehr geringe PVs von bis zu 9,5*10-23 zu beobachten.

(Dieselbe Person hat nach Auswertung der Fragen 1&3 einen SPV von 6,25%. Somit beträgt das Verhältnis des PV von Frage 2 zu dem Mittelwert von Fragen 1 und  3: 6,6*1020) Das durchschnittliche Verhältnis dieser Werte ist 1,2*1019. Aufgrund dieser Ergebnisse wurde der Leverage-Effekt  als zu groß angesehen. Den Ergebnissen der Frage 2 ist dadurch die Validität abzusprechen. Ergebnisse der Frage 2 sind intern inkonsistent mit denjenigen der Fragen 1&3.

[2] Nämlich an solche Erkenntnisse, deren Ergebnisse einen höheren PV-Wert aufweisen als ihr SPV. Analog dazu glauben sie aber im Gegensatz zur Wissenschaft an Erkenntnisse, wenn PV≥ SPV

[3] Deutsches Ärzteblatt Int 2010 (2010)




Ein Gedanke zu „Studie: Befragung zum subjektiven Signifikanzniveau“

  1. spannendes thema! Mir ist auch eine andere studie bekannt (leider aber nicht die autoren), bei der probanden 1000 würfelwürfe mental simulieren sollten (es wurde also nicht wirklich gewürfelt). Im vergleich zu 1000 tatsächlichen würfelwürfen wirkten die simulierten deutlich „zufälliger“. zum beispiel kam es bei den tatsächlichen vor, dass 7x hintereinander die 6 gewürfelt wurde, bei den simulierten nicht. Das spricht dafür, das von Menschen sehr viel schneller systematische verzerrungen angemmen werden, als sie tatsächlich vorliegen. Es sollte also bei der diskussion deiner studie auch berücksichtigt werden, dass Wissenschaft sich auch dadurch auszeichnet, dass sie konservativer Ergebnisse interpretiert. Diese Tendenz bildet sich ja auch in deiner arbeit ab…

Freue mich über Kommentare!