Karl Senne moderiert das aktuelle sportstudio, photographiert durch die Torwand, 30. August 1986.
Quelle: Wikimedia Commons; Urheber: Elmar J. Lordemann;
Creative Commons Lizenz
Gastbeitrag von Tim Scheffczyk
Wahrscheinlich unwahrscheinlich
Ein unwahrscheinliches Ereignis tritt per Definition (sehr) selten auf. Bei einer geringen Anzahl an Beobachtungen oder Versuchen ist es in solch einem Fall daher gut möglich, dass dieses Ereignis im Beobachtungszeitraum überhaupt gar nicht erst auftritt. Nimmt man die relative Häufigkeit des Auftretens als Schätzer für die zugrundeliegende Wahrscheinlichkeit, so würde man dem nicht aufgetretenen Ereignis 0% zuweisen. Solch ein Ereignis wäre demnach unmöglich. Dies ist jedoch ein Trugschluss. Denn aus Nicht-Eintreten des Ereignisses, lässt sich nicht rückschließen, dass es unmöglich ist.
Eine Urne sei mit Losen befüllt. Nun wissen wir nicht wieviel hiervon mit Nieten und Gewinnen versehen. Man kann anhand der gezogenen Lose den Anteil an Nieten und Gewinnen abschätzen. Doch wie schätzt man den Anteil, wenn man ausschliesslich Nieten zieht? Ist die Wahrscheinlichkeit für ein Gewinnlos dann 0 %? Nein.
Beginnen wir zunächst mit dem Ziehen eines Loses. Man erhält eine Niete. In der Statistik geht man davon aus, dass ein aufgetretenes Ereignis für eine bestimmte Hypothese noch als plausibel betrachtet werden kann, wenn es eine Wahrscheinlichkeit von mind. 5 % hatte. Auf das Beispiel übertragen müssen wir also noch davon ausgehen, dass die Urne 95 % Gewinnlose und nur 5 % aus Nieten enthält. Die höchste statistische Wahrscheinlichkeit für ein Gewinnlos, welche mit dem Ereignis zu vereinbaren ist, beträgt bei einer einmaligen Ziehung noch 95 %. Diese sei im Folgenden als Probability at Risk definiert. Das bedeutet, dass wir noch davon ausgehen müssen, dass wir das Pech hatten eine Niete zu ziehen, obwohl es eigentlich 95 % aller Lose Gewinne sind. Dies ändert sich jedoch, wenn die Zahl der Nieten sich erhöht ohne, dass ein Gewinn dabei ist. Wenn wir nämlich 2 Nieten nacheinander ziehen, kann man statistisch die Hypothese der 95 %-Gewinnwahrscheinlichkeit nicht mehr aufrechterhalten. Denn wenn dem so wäre, würde nur 5 % Nieten enthalten sein. Wäre diese Annahme korrekt, so läge die Wahrscheinlichkeit für 2 Nieten nacheinander bei 5 % x 5 % = 0.0025 bzw. 1/400. Diese Wahrscheinlichkeit ist so klein, dass wir die dahinter liegende Annahme schlicht nicht mehr glauben. Die Wahrscheinlichkeit muss also kleiner sein als 95 %. Tatsächlich liegt die für ein Gewinnlos bei maximal 77.6 %. Warum? Wenn die Gewinnloswahrscheinlichkeit bei 77.6 %, entspräche die Nietenwahrscheinlichkeit genau der Gegenwahrscheinlichkeit, also 22.4 %. Zwei Nieten nacheinander kommen unter dieser Annahme dann genau zu 5 % vor (22.4 % x 22.4 % = 5 %). Nach der gleichen Logik lässt sich die maximale Wahrscheinlichkeit für ein nicht eingetretenes Ereignis bei einer bestimmten Anzahl an Versuchen ermitteln. Diese Probability at Risk weist Parallelen mit dem finanzmathematischen Value at Risk auf. In Anlehnung an den Value at Risk gibt die Probability at Risk , diejenige Wahrscheinlichkeit für ein Event an mit der maximal trotz Nicht-Auftretens noch zu rechnen ist (siehe Tabellen 1 und 2).
Wichtig hierbei ist, dass man die Verteilung innerhalb der Urne niemals genau kennen wird. Durch die Beobachtung der Nieten und Gewinne kann man jedoch bestimmte Hypothesen testen. Man trifft eine bestimmte Annahme (z.B. Anteil Gewinnlose 50 %) und berechnet wie wahrscheinlich dann das aufgetreten Ergebnis wäre. Ist die Wahrscheinlichkeit klein, so spricht diese gegen die Annahme, ist sie groß dann lässt sich die Annahme statistisch zumindest nicht widerlegen.
Behauptet beispielsweise der Betreiber einer Lotterie nach der Ziehung einer Niete, dass der Anteil der Gewinne bei 50 % liegt, ist das statistisch tatsächlich noch vertretbar (n=1 à Probability at Risk : 95 %). Tut er dies jedoch auch nach 5 Nieten nacheinander immer noch, so ist das statistisch nicht mehr vertretbar. Die Probability at Risk beträgt dann nämlich nur noch 45.1 %. Es lässt sich dann nicht mehr behaupten, dass Gewinne zu mehr als 50 % auftreten. Denn 50 % x 50 % x 50 % x 50 % x 50 % entspricht einer Wahrscheinlichkeit von 3.125 %. Diese Wahrscheinlichkeit ist kleiner als 5 % und damit statistisch als nicht mehr plausibel einzuschätzen.
Probability at Risk
Die Probability at Risk kann herangezogen werden, wenn es darum geht eine Risikoeinschätzung anzugeben. Ein einzelner erfolgloser Versuch (n=1) kann statistisch auch dann noch zutreffen, wenn die Event-Wahrscheinlichkeit bei 95 % liegt. Nach dem zweiten erfolglosen Versuch (n=2) reduziert sich die statistisch haltbare Event-Wahrscheinlichkeit auf 77.6 %. Das Nicht-Eintreten hat dann eine Wahrscheinlichkeit von 22.4 %. Die Wahrscheinlichkeit, dass das Event zweimal nicht eintritt beträgt dann 0.224 x 0.224 = 0.05 (Analog hierzu bei n=3: prob at risk: 63.2 % à 0.378 x 0.378 x 0.378 = 0.05) (siehe Tabelle 1).
Es lässt sich also festhalten, dass eine Wahrscheinlichkeit von 0 % auch nach sehr vielen Fehlversuchen nicht zutrifft. Es ist immer von einer gewissen Wahrscheinlichkeit auszugehen, die immer größer ist als 0 %. Je mehr Fehlversuche, desto kleiner wird die Probability at Risk. Der klassische Ansatz über die relative Häufigkeit berücksichtigt diesen Umstand nicht. Wird die Wahrscheinlichkeit direkt aus der relativen Häufigkeit abgeleitet, so erhalten zwei Versuchsreihen (A: 0 von 1; B 0 von 1’000) mit 0 % die gleiche Wahrscheinlichkeit, wohingegen die Probability at Risk Versuchsreihe A eine Probability at Risk in Höhe von 95 %, Versuchsreihe B 0.3 % zuweist.
Anwendungsfälle im Sport & TV
Nehmen wir ein reales Beispiel: Im ZDF-Sportstudio versuchen sich seit 1964 Prominente und Studiogäste an der Torwand. Seither ist niemandem ein perfektes Torwandschießen mit 6 Treffern gelungen. Die Torwand ist in ihren Maßen seit Jahrzehnten unverändert, sodass die Chance auf einen Treffer konstant bleibt.
Die genaue Anzahl der Schützen ist nicht bekannt. Es wurden bisher 2’265 Ausgaben des Sportstudios ausgestrahlt, die Torwand ein Jahr nach Sendebeginn erfunden. Pro Sendung gab es stets mind. einen Schützen, sodass man konservativ gerechnet von mind. 2’000 Schützen ausgehen kann. Nun haben wir den Fall, dass kein Schütze 6 Treffer erzielen konnte. Liegt die Wahrscheinlichkeit 6 Treffer zu erzielen bei 0%. Nein, denn es ist theoretisch möglich. Geht man einmal von 2’000 Schützen aus, so lässt sich statistisch zeigen, dass man auf einem Signifikanzniveau von 5 % noch von einer Erfolgswahrscheinlichkeit in Höhe von 0.15 % (Chance: 1 zu 667) ausgehen muss. Und in der Tat ist es außerhalb des ZDF-Sportstudios einem Eishockeyspieler im Jahr 1975 gelungen 6 Treffer zu erzielen. Die relative Häufigkeit ist daher in einem solchen Extremfall kein geeigneter Schätzer. Die Bestimmung einer maximalen Eintritts-Wahrscheinlichkeit mittels der Probability at Risk ist hier die bessere Wahl.
Nach der gleichen Logik sollte man Ereignisse mit einer absoluten Häufigkeit von 0 immer in Relation zur Anzahl an durchgeführten Versuchen setzen. Tritt ein Ereignis nach 100 Versuchen nicht ein, deutet das auf eine geringere Eintrittswahrscheinlichkeit hin, als wenn ein Ereignis «nur» 10-mal nicht eingetreten ist. Die relative Häufigkeit beträgt in beiden Fällen 0.
Es stellt sich nun die Frage, welche zugrundeliegende Wahrscheinlichkeit mit einer Beobachtung des Nicht-Eintretens nach 100 Versuchen noch in Einklang zu bringen ist. Hierzu soll die «Probability at Risk » definiert werden. Nach 100 erfolglosen Versuchen beträgt die Probability at Risk 2.95 %. Doch wie lässt sich die Probability at Risk interpretieren? Wenn ein Event eine Wahrscheinlichkeit in Höhe von 2.95 % aufweist, so wird es zu 5 % auch nach 100 Versuchen nicht auftreten. Der Zusatz «at risk» bezieht sich darauf, dass trotz des Nicht-Auftretens noch mit einer bestimmten Wahrscheinlichkeit zu rechnen ist. Erst nach 299 oder mehr erfolglosen Versuchen beträgt die «Probability at Risk » weniger als 1 %. Denn wenn ein Event auch nach 300 Versuchen nicht eingetreten ist, kann man (auf einem Signifikanzniveau von 5 %) davon ausgehen, dass die zugrundeliegende Wahrscheinlichkeit nicht größer ist als 1 %. Damit kann man jede Wahrscheinlichkeit von über 1 % statistisch ausschließen, denn dann wäre eine solche Beobachtung unwahrscheinlicher als 5 %. Zum Beispiel ist eine zugrundeliegende Event-Wahrscheinlichkeit von 2 % nicht mehr mit 300 erfolglosen Versuchen in Einklang zu bringen. Denn dieser Fall würde unter Annahme der 2%-igen Event-Wahrscheinlichkeit nur zu 0.2 % bzw. jedes 429. Mal auftreten.
Anhand der Tabellen 1 und 2 ist abzulesen, dass nach 10 Versuchen (n=10) die maximale Eintrittswahrscheinlichkeit (=Probability at Risk ) noch bei 25.9 % anzusiedeln ist. Denn das ein Ereignis, das im Mittel etwas häufiger als jedes vierte Mal auftritt ist nach 10 Durchgängen nie eintrifft entspricht 5 %. Diese maximale Eintrittswahrscheinlichkeit lässt sich nach 100 erfolglosen Versuchen statistisch nicht mehr in dieser Höhe rechtfertigen, stattdessen muss sie nach unten korrigiert werden. So liegt die Probability at Risk dann nur noch bei 2.95 % bzw. bei einer Quote von 1:33 (Odds at Risk).
Der Weltklasse-Tischtennisspieler Dimitrij Ovtcharov hatte gegen den chinesischen Olympiasieger Ma Long in 19 Partien an der Platte trotz teils knapper Spielverläufe immer das Nachsehen. Die Probability at Risk beträgt bei 19 misslungenen Versuchen immerhin noch 14.6 %. Bei einem künftigen Aufeinandertreffen der Beiden wären Ovtcharov zumindest auf Basis dieser Zahlen eine Siegwettquote von maximal 6.86 zu rechtfertigen.
Boxsportler Henry Maske wies vor seinem designierten letzten Profikampf gegen Virgil Hill einen Kampfrekord von 30:0 auf. Damit 30 Siegen in Folge möglich sind, ist davon auszugehen, dass die Siegwahrscheinlichkeit von Henry Maske für jeden Kampf sehr hoch gewesen sein muss. Geht man einmal von einer konstanten Siegwahrscheinlichkeit aus, muss diese mind. 90.5 % betragen haben. Seinem Gegner Virgil Hill waren daher noch maximal 9.5 %, bzw. ein Odds at Risk in Höhe von 10.52 zuzuschreiben. Diese Chance konnte Virgil Hill tatsächlich nutzen und fügte Henry Maske seine erste und einzige Niederlage bei den Profis zu. Mehr als zehn Jahre später revanchierte sich Maske im direkten Duell gegen Virgil Hill mit einem einstimmigen Punktsieg.
Nach der gleichen Logik sind einem Gegner des aktuellen Schwergewichtsweltmeister Oleksandr Usyk bei einem Kampfrekord von 20:0 noch bis zu 13.9 % zuzuschreiben.
Praxisbeispiel aus dem Gesundheitswesen
Nicht nur im Sport, sondern auch im Gesundheitswesen ist dieses Prinzip anwendbar. Möchte man statistisch belegbar zeigen, dass die Wahrscheinlichkeit für das Auftreten einer z.B. unerwünschten Nebenwirkung eines Medikamentes kleiner ist als 1/1000, so reicht es nicht aus, wenn diese bei 1’000 Probanden nicht aufgetreten ist. Warum eigentlich? Einmal angenommen die Wahrscheinlichkeit liegt genau bei 1/1000, dann ist zu erwarten, dass die Nebenwirkung im Mittel einmal auftritt. Die Wahrscheinlichkeit, dass bei keinem der 1 000 Probanden die Nebenwirkung auftritt, beträgt immer noch 36.7 %. Die These einer Wahrscheinlichkeit von mind. 1/1000 ist also dann noch haltbar. Dies ändert sich erst, wenn die Nebenwirkung bei mind. 2’994 Probanden nicht aufgetreten ist. Denn dann stellt man fest, dass es statistisch nicht mehr vertretbar ist zu behaupten das Risiko der Nebenwirkung beträgt 1/1000. Wäre das der Fall, würde nur jede 20. Studie mit 2’994 Probanden bei keinem der Studienprobanden die Nebenwirkung nachweisen. Und da die Statistik solche Ereignisse, welche nur jedes 20.Mal oder noch seltener auftreten nicht für glaubwürdig erachtet, ist die Annahme von 1/1000 als Wahrscheinlichkeit nicht mehr haltbar. Der Zusatz «<» im Sinne von «kleiner als» ist damit gerechtfertigt.
Als Faustregel lässt sich merken, dass zwischen der (erfolglosen) Versuchsanzahl und den Odds at risk auf einem Signifikanzniveau von 5 % der Faktor 3 näherungsweise zutrifft. Will man z.B. eine Wahrscheinlichkeit von «< 1/500» nachweisen, so sind 1’496 Versuche notwendig (siehe Tabelle 3: Prob at Risk : 0.2 % à n=1’496).
0%, 0.0%, 0.00% oder 0.000% – der kleine, aber feine Unterschied
In der Realität liest man nun oft, dass ein Ereignis eine Wahrscheinlichkeit von 0 % oder 0.0 % hatte, weil es eben nie eigetreten ist. Ist dies denn dann statistisch zwangsläufig immer inkorrekt?. Die Antwort: Es kommt darauf an.
Zu behaupten das Ereignis hat eine Wahrscheinlichkeit von 0 % ist unter bestimmten Umständen tatsächlich legitim. Dies ist der Fall, wenn
1) die Zahl der Fehlversuche mindestens 598 beträgt, sowie
2) dass die Anzeige von (weiteren) Nachkommastellen bereits vor dem Experiment nicht vorgesehen, d.h. nicht erst nachträglich auf Dezimalstellen verzichtet wurde und/oder
3) technisch nicht möglich ist.
Weshalb ist das so?
Zu 1): Bei 598 Fehlversuchen beträgt die Probability at Risk weniger als 0.5 %. Ohne eine Dezimalstelle wird bei einer Rundung daraus 0 %. Bedingung 1) ist zwingend erforderlich.
Von den Bedingungen 2) und 3) muss lediglich mindestens eine zutreffen.
2) Wurde bereits vor dem Experiment festgelegt, dass zu den Kennzahlen keine Dezimalstellen angezeigt werden, so reicht es aus den Schwellwert der Probability at Risk in Höhe von 0.5 % zu unterschreiten, um bei einer Rundung auf 0 % zu kommen. Eine nachträgliche Rundung ohne Dezimalstelle ohne vorherige Vorgabe ist als nicht valide zu betrachten.
3) Wenn die technische Möglichkeit einer Rundung z.B. aus Platzmangel bei einer Tabelle auf einer Seite nicht gegeben ist.
Für die valide Wahrscheinlichkeit von 0% braucht es daher mind. 598 Fehlversuche, die vorherige Absprache, dass keine Dezimalstelle angegeben werden muss und/oder die technische Möglichkeit einer Dezimalstellenanzeige nicht gegeben ist. Bei der Anzeige einer Dezimalstelle, d.h. 0.0 % muss von den Bedingungen 2) und 3) unverändert mind. einer dieser beiden zutreffen. Für Bedingung 1) sind jedoch nun mind. 5’990 Fehlversuche von Nöten.
Die Probability at Risk beträgt dann erst maximal 0.05 %, was bei einer Rundung auf eine Dezimalstelle zu 0.0 % führt). Für eine statistisch legitime Anzeige von 0.00 % bzw. 0.000 % werden analog hierzu 59’913 bzw. 599’145 erfolglose Versuche benötigt (siehe Tabelle 4).