das wolln wa doch mal sehn,
ob wir den
"Hypothesentest" kapieren
Vorweg: im Folgenden
|
Der Hypothesentest wird im Folgenden zwar erst allgemein behandelt, die konkreten Rechnungen werden aber nur anhand von Binomialverteilungen durchgeführt.
Daraus folgt:
(und diese Kenntnisse zu Binomialverteilungen habe ich erst seit
);insbesondere weiß ich seitdem erst, dass die Binomialverteilungen im Schulunterricht eine so große Rolle spielen,
gehen wir mal von folgendem Beispiel aus:
"Ein Sportschütze behauptet von sich, dass er ein regelrechter Profi ist und mit einer Wahrscheinlichkeit von p = 0,9 ins Schwarze trifft.
Um herauszufinden, ob seine Behauptung stimmt oder er nur ein Angeber ist, wird ein Probeschießen von 10 Schüssen vereinbart.
Der Sportschütze trifft bei diesem Probeschießen
Hat er im Fall a. bzw. b. bewiesen, dass er
wie er behauptet hat?"
Zu allererst muss man sich hier klar machen, dass es sich um ein echtes Wahrscheinlichkeitsexperiment handelt:
(auch wenn es durchaus unwahrscheinlich ist)
dennoch durchaus passieren, dass er
(z.B. wegen ungünstiger Bedingungen oder weil er einen "schlechten Tag" hat)
nur 3 mal trifft - also fälschlich als Angeber dasteht;
("auch ein blindes Huhn findet mal ein Korn"),
also zu Unrecht nicht als Angeber dasteht, sondern man ihm seine Selbstwertung glaubt.
Daraus folgt:
(sowohl eines guten wie eines schlechten Schützen)
ist wahrscheinlichkeitsbedingt,
("tatsächlich guter Schütze" oder "Angeber")
stimmt, sondern
(und genau darauf laufen Hypothesentests hinaus!)
nur mit einer gewissen Wahrscheinlichkeit sagen, ob unsere Wertung richtig ist.
So ganz nebenbei haben wir hier auch schon, wenn auch bislang indirekt, den Fehler 1. und den Fehler 2. Art erwähnt:
(oder konkreten Anlass haben, dem Schützen zu glauben),
wenn also die (Null-)Hypothese H0
"der Schütze trifft tatsächlich mit der Wahrscheinlichkeit p = 0,9"
bzw.
"er ist kein Angeber"
lautet, so gibt es zwei mögliche Fehler:
(also sonst wirklich so gut ist, wie er behauptet),
Dieser Fehler besteht also darin, dass
(also sonst viel schlechter ist, als er behauptet),
Dieser andere Fehler besteht also darin, dass
(oder konkreten Anlass haben, dem Schützen zu misstrauen),
wenn also die (Gegen-)Hypothese H1
"der Schütze trifft nicht mit der Wahrscheinlichkeit p = 0,9
[sondern einer geringeren Wahrscheinlichkeit]"
bzw.
"er ist ein Angeber"
lautet, so gibt es wieder zwei mögliche, wenn auch anders gelagerte Fehler:
(also sonst nicht so gut ist, wie er behauptet),
Dieser Fehler besteht hier also darin, dass
(also sonst wirklich so gut ist, wie er behauptet),
Dieser andere Fehler besteht hier also darin, dass
Diese verzwickten bis geradezu haarspalterischen Alternativen sind nun aber (zumindest für mich) der Hauptgrund, warum der Hypothesentest so schwierig oder genauer: kaum zu merken ist
(oder es zumindest für mich bislang war).
Es wird also Zeit, ein bisschen Ordnung in dieses Kuddelmuddel zu bringen, was allerdings auf zwei Arten möglich ist:
wir unterscheiden "moralisch" zwischen
Hier könnte man sich fragen, was da der größere moralische Fehler ist, und ich würde dazu neigen, den ersten Fehler als schlimmer anzusehen
(vgl. das Problem, ob man
Es ist keine leichte Entscheidung und doch geradezu rechtsstaatlicher Grundsatz, dass Ersteres schlimmer als Letzteres ist, und dementsprechend könnte man Ersteres einen "Fehler 1. Art" und Letzteres einen "Fehler 2. Art" nennen).
Nun ist "Moral" allerdings (leider?) kein mathematisches Kriterium, und deshalb kommen wir zur zweiten Sortiermöglichkeit, die nebenbei (s.o.) nicht mit der ersten, moralischen übereinstimmt:
wir unterscheiden nach dem Wahrheitsgehalt
(wobei man Wahrheit ja allerdings auch für einen moralischen Wert halten kann),
also zwischen
Und dafür hat man nunmal die Namen/Reihenfolge gewählt:
Schon haben wir aber das nächste Problem: wie kann man sich diese Reihenfolge merken?
Vielleicht eben doch, wie schon angedeutet, wieder moralisch:
und deshalb ist es auch hier sinnvoll, "die Wahrheit wird fälschlich nicht erkannt" als "Fehler 1. Art" zu bezeichnen.
Auffällig bei unserer gesamten Argumentation ist,
dass wir grundsätzlich strikt zwischen
(die nichts mit Zufall zu tun hat!: der Schütze ist tatsächlich entweder ein Könner oder ein Angeber) und
(die wir aufgrund eines eben doch teilweise durch Zufall bedingten Experiments [im vorliegenden Fall ein Probeschießen] aufstellen) unterscheiden. Das Problem dabei ist, dass wir (zumindest in unserem kurzen Experiment = Probeschießen) die Wahrheit gar nicht kennen, sondern nur Indizien für sie sammeln können. D.h. aber eben auch, dass wir mit unserer aus dem Experiment gebildeten Einschätzung grob daneben liegen können, indem wir beispielsweise einen Könner der Angeberei verdächtigen oder einem Nichtskönner seine Angebereien glauben. Radikaler formuliert: wir können über die Wahrheit grundsätzlich nichts aussagen, sie ist uns völlig unzugänglich. Vielmehr können wir nur Einschätzungen vornehmen, die aber eben auch falsch sein können
Dass aber die Wahrheit vielleicht nicht zugänglich ist und dass Einschätzungen nunmal notgedrungen daneben liegen können, enthebt uns ja nicht dieser unvermeidlichen Einschätzungen, und da wollen wir im Folgenden doch wissen (und das ist der eigentliche Sinn der Hypothesentests!), mit welcher Wahrscheinlichkeit wir richtig oder aber daneben liegen. (Man beachte den subtilen Widerspruch "wissen/Wahrscheinlichkeit", hinter dem sich ein Grundproblem der Wahrscheinlichkeitsrechnung bzw. ihr größtes Wunder verbirgt: über den Zufall eben doch halbwegs verlässliche Aussagen machen zu wollen/können.) Anders gesagt: entbehren unsere Einschätzungen jeglicher Grundlagen oder können wir sie mit einiger Verlässlichkeit aufstellen? Konkreter: bei welchem Ausfall des Probeschießens können wir immerhin halbwegs begründet sagen, dass der Schütze ein Könner oder aber ein Angeber ist? (... wobei wir - nochmals gesagt - immer im Hinterkopf behalten, dass unser Urteil trotz größten Bemühens um Gerechtigkeit falsch sein kann.) |
Bislang haben wir uns arg negativ nur um die Möglichkeiten gekümmert, (unvermeidbare!) Fehler zu begehen. Werden wir also mal positiver:
natürlich können wir mit unseren Einschätzung auch richtig liegen, können die Einschätzungen also mit der Wahrheit übereinstimmen: aufgrund des Probeschießens nehmen wir zu Recht an, dass der Schütze
Das können wir oftmals sogar intuitiv einschätzen, also ohne Mathematik:
(und können doch, wie inzwischen vielfach gezeigt, in beiden Fällen falsch liegen).
Insgesamt ergibt sich damit folgendes Schema:
Wahrheit | |||||
Hypothese ist wahr ("der Schütze ist in Wirklichkeit ein Könner") |
Hypothese ist falsch ("der Schütze ist in Wirklichkeit ein Angeber") |
||||
Hypothese (z.B. "der Schütze ist ein Könner") wird ... |
... angenommen, d.h. die Hypothese scheint durch das Experiment bestätigt
|
richtige Entscheidung ("der Schütze ist tatsächlich ein Könner") |
Fehler 2. Art ("der Schütze wird fälschlich als Könner angesehen") |
||
... abgelehnt, d.h. die Hypothese scheint durch das Experiment widerlegt
|
Fehler 1. Art ("der Schütze wird fälschlich als Angeber angesehen") |
richtige Entscheidung ("der Schütze ist tatsächlich ein Angeber") |
|||
↑ erster Schritt nach dem Experiment (Probeschießen), Entscheidung für oder gegen die anfängliche Hypothese |
↑ zweiter Schritt nach dem Experiment: Überlegungen, ob die Entscheidung für oder gegen die Hypothese richtig oder falsch war |
||||
↑ vor dem Experiment (Probeschießen) |
↑ nach dem Experiment (Probeschießen) |
Oder allgemein, dafür aber sehr knapp:
Wahrheit | ||||
Hypothese ist wahr |
Hypothese ist falsch |
|||
Hypothese wird ... |
... angenommen |
richtige Entscheidung |
Fehler 2. Art |
|
... abgelehnt |
Fehler 1. Art |
richtige Entscheidung |
Wichtig daran ist insbesondere Folgendes:
(seine konkreten Treffer können mich immer noch zur Überzeugung bringen, dass er also trotz gegenteiliger Anfangsannahme eben doch ein Angeber ist),
oder
(seine konkreten Treffer können mich immer noch zur Überzeugung bringen, dass er also trotz gegenteiliger Anfangsannahme eben doch ein Könner ist).
Wahrheit | |||||
Hypothese ist wahr ("der Schütze ist in Wirklichkeit ein Angeber") |
Hypothese ist falsch ("der Schütze ist in Wirklichkeit ein Könner") |
||||
Hypothese (z.B. "der Schütze ist ein Angeber") wird ... |
... angenommen, d.h. die Hypothese scheint durch das Experiment bestätigt
|
richtige Entscheidung ("der Schütze ist tatsächlich ein Angeber") |
Fehler 2. Art ("der Schütze wird fälschlich als Angeber angesehen") |
||
... abgelehnt, d.h. die Hypothese scheint durch das Experiment widerlegt
|
Fehler 1. Art ("der Schütze wird fälschlich als Könner angesehen") |
richtige Entscheidung ("der Schütze ist tatsächlich ein Könner") |
Kommen wir nun aber zu einem Wunsch, der oben schon genannt worden war, nämlich dem, halbwegs sichere Urteile zu fällen.
Eine Möglichkeit besteht darin, ein positives Urteil
("der Schütze ist ein Könner")
dann zu fällen, wenn die Ergebnisse des Experiments = Probeschießens nicht "allzu sehr" (???) vom Erwarteten abweichen, wenn sie also in einem gewissen Bereich um den Erwartungswert herum liegen, der sich aus meiner Anfangsannahme ergibt
(z.B. "ich glaube dem Schützen wohlwollend, dass er ein Könner ist, dass also p = 0,9 ist").
Dieser Bereich soll symmetrisch um den Erwartungswert liegen, also bei obigem zehnfachen Probeschießen mit der Wahrscheinlichkeit p = 0,9 folgendermaßen:
(Es sei ergänzt, dass wir hier einen merkwürdigen Trick anwenden: wir vergleichen die vermutlich keineswegs zufälligen Ergebnisse unseres Schützen mit einem völlig zufälligen Schießen, allerdings unter der Vorgabe p = 0,9.)
Diesen Bereich nennen wir auch "Annahmebereich", und im vorliegenden Fall heißt das: wenn der Schütze zwischen 8 und 10 mal trifft, glauben wir ihm, dass er üblicherweise mit der Wahrscheinlichkeit p = 0,9 trifft, dass er also tatsächlich ein so guter Schütze ist, wie er behauptet.
Komplementär dazu reicht der "Ablehnungbereich" hier von 0 (= gar keinem) Treffer bis 7 Treffer: wenn der Schütze also zwischen 0 und 7 mal trifft, glauben wir es ihm nicht, dass er üblicherweise mit der Wahrscheinlichkeit p = 0,9 trifft, und unterstellen ihm, dass er ein Angeber ist.
Nun stellt sich aber die Frage, wie breit unser Annahmebereich sein sollte, um
(wobei - zum wiederholten Mal gesagt - natürlich die Unwägbarkeiten bleiben, dass
Wie gesagt: es geht um faire Chancen, aber wir können Fehleinschätzungen nicht völlig ausschließen.
Was aber heißt "faire Chance", und das bedeutet eben auch: gibt es ein mathematisches Maß für diese "faire Chance"?
Hier kommen wir aber, wenn die Rechnungen halbwegs einfach sein sollen, nicht weiter, und deshalb kommen wir zu
Wohlgemerkt:
Hier sei vorweg auf das Vorwissen über Binomialverteilungen aus
verwiesen.
Das betrifft insbesondere
= μ • (1 - p) ,
Diese Rechenverfahren sind auch in nicht hergeleitet worden, d.h. man musste sie einfach "glauben".
(Nun ließen sich die Regeln ja im Unterricht durchaus herleiten, es scheint mir nur fraglich, ob das zumindest in einem Mathe-Grundkurs sinnvoll ist - und ob man da nicht besser die anschaulichen Folgen behandelt.)
Und damit komme ich zu "mathematischer Theologie":
(nur) für Binomialverteilungen gibt es einige sogenannte "Sigma-Regeln"
(von σ = Standardabweichung):
Diese Sigma-Regeln muss man "einfach nur glauben". Sie kommen zwar in allen Schulbüchern, die ich zu Rate gezogen habe, vor, werden dort aber nie bewiesen, so dass mir fast schien, dass sie sich gar nicht beweisen lassen, sondern nur Erfahrungswerte sind. Stimmt aber nicht, sondern sie lassen sich durchaus beweisen, wenn auch nur mit fortgeschrittenen Mitteln (vgl. etwa ).
Zudem kann man sich die umständlichen Sigma-Regeln
(z.B. )
wohl kaum merken, sondern die schlägt man in Formelsammlungen nach.
Des weiteren ist zu klären, was beispielsweise der Formelsalat eigentlich bedeutet:
Dabei wird schon deutlicher: je breiter der Annahmebereich, desto eher fallen Werte hinein, desto sicherer kann ich mir meines Urteils also auch sein.
Die Frage, welche Sicherheit ich verlange, hängt teilweise von meiner Risikobereitschaft ab, ist also subjektiv; und sie richtet sich nach dem Anlass: beispielsweise
Die entsprechenden Radien der Annahmebereiche entnimmt man dabei folgender Tabelle:
Allemal erstaunlich finde ich aber die in der Mathematik doch ganz ungewöhnliche
(fast schon "theologische")
Schwammigkeit von
:
(auf unser Probeschießen bezogen: je häufiger in ihm geschossen wird, desto weniger spielt beim Angeber der Glücksfaktor und beim Könner die Tagesform eine Rolle [Gesetz der großen Zahlen], desto sicherer können wir uns also unseres Urteils sein):
wie groß aber muss n denn sein?
Werden wir damit aber konkret und kommen zu unserem Probeschießen-Beispiel unter der Hypothese p = 0,9 zurück. Es ergibt sich:
Wenn wir nun beispielsweise die 1σ-Regel" anwenden, also sehr risikofreudig mit einer ca. 68-%-igen Sicherheit zufrieden sind, ergibt sich als Annahmebereich
[ μ - 1 • σ ; μ + 1 • σ ] =
=[ 9 - 1 • 0,94 ; 9 + 1 • 0,94 ] :
Die einzige ganze Zahl, die in diesem Annahmebereich liegt, ist die 9, so dass wir die Hypothese nur dann beibehalten, wenn der Schütze 9 mal trifft, d.h. wir halten ihn dann für einen Könner. In jedem anderen Fall, also
verwerfen wir unsere Anfangshypothese p = 0,9 und halten den Schützen für einen Angeber.
Nun ist aber der Fall b. offensichtlich Blödsinn, denn dann hielten wir ja auch jemanden, der immer trifft, für einen Angeber.
Wie konnte solch ein Blödsinn aber passieren?:
Spätestens hier wird es Zeit, eine kleine Änderung vorzunehmen:
es war von Anfang an wenig sinnvoll, für einen guten Schützen die punktuelle Wahrscheinlichkeit p = 0,9 anzunehmen. Vielmehr ist es sinnvoll, für die Wahrscheinlichkeit einen Bereich, nämlich z.B. 0,9 ≤ p ≤ 1 bzw. p ≥ 0,9, anzunehmen, denn schließlich würden 10 Treffer ja nur um so deutlicher das Können des guten Schützen herausstellen.
Deshalb nennen wir das Intervall [9; 10] "sicheren Annahmebereich", und wir kümmern uns nur noch um die Sigma-Abschätzung links davon. Wir führen also nicht mehr einen "beidseitigen", sondern nur noch einen "ein-", nämlich hier "linksseitigen" Hypothesentest durch:
Entsprechend ergibt sich für die Anfangshypothese, dass der Schütze ungeübt ist, nicht mehr beispielsweise p = 0,3,
Ein schönes Programm, mit dem man alle Möglichkeiten systematisch und kontinuierlich
durchspielen kann, ist nebenbei
Dabei soll uns im Folgenden nur das Aussehen des Annahme- (hier hellblau) und Ablehnungsbereichs (hier dunkelblau) interessieren:
(Nebenbei: mit dem Programm sind auch einseitige Hypothesentests darstellbar.)
Wenn wir nun beispielsweise die 1σ-Regel" anwenden, also sehr risikofreudig mit einer ca. 68-%-igen Sicherheit zufrieden sind, ergibt sich als Annahmebereich
[ μ - 1 • σ ; μ + 1 • σ ] =
=[ 9 - 1 • 0,94 ; μ + 1 • 0,94 ]
Die einzige ganze Zahl, die in diesem Annahmebereich liegt, ist die 9, so dass wir die Hypothese nur dann beibehalten, wenn der Schütze 9 mal trifft, d.h. wir halten ihn dann für einen Könner. In jedem anderen Fall, also
verwerfen wir unsere Anfangshypothese p = 0,9 und halten den Schützen für einen Angeber.
Nun ist aber der Fall b. offensichtlich Blödsinn, denn dann hielten wir ja auch jemanden, der immer trifft, für einen Angeber.
Wie konnte solch ein Blödsinn aber passieren?:
Hier zeigt sich: man darf rechnerische Ergebnisse nicht einfach glauben, sondern muss zum konkreten Anwendungsbeispiel zurückkehren und überlegen, inwieweit sie da "sinnig" sind.
Ein schönes Programm, mit dem man alle Möglichkeiten systematisch und kontinuierlich durchspielen kann, ist nebenbei
Dabei soll uns im Folgenden nur das Aussehen des Annahme- (hier hellblau) und Ablehnungsbereichs (hier dunkelblau) interessieren: