Korrelation Regression
Die Statistik ist ja so ungemein wichtig, dass sämtliche Pädagogen, Sozialwissenschaftler, Betriebswirtschaftler usw. in ihrem Studium den berühmt-berüchtigten "Statistik-Schein" machen müssen.
Dieser ist für viele die größte Hürde ihres gesamten Studiums und wird üblicherweise folgendermaßen erreicht:
"zum einen Ohr rein, zum anderen wieder raus".
In der Schule ist's beim Thema "Korrelation/Regression" schon vom Lehrplan her ganz ähnlich: diese beiden Themen stehen nur in der 11. Klasse an. Zwar folgt in der 12. und 13. Klasse noch die eigentliche Stochastik/Wahrscheinlichkeitsrechnung
aber von "Korrelation/Regression" ist da nie wieder die Rede, d.h. diese beiden Themen werden nach der 11. Klasse natürlich umgehend wieder gründlich vergessen (verdrängt).
Weshalb werden sie dann überhaupt (eben in der 11. Klasse) durchgenommen?
Bzw. gibt es einen besseren Grund dafür als den, dass halt irgendwas (möglichst Schwieriges) abgeprüft werden soll?
Wenn wir also so realistisch sind einzugestehen, dass die konkreten Themen "Korrelation/Regression"
(oder zumindest doch alle diesbezüglichen Formeln und Rechenverfahren)
sowieso vergessen werden
(wie so vieler anderer Mathe-Schulstoff, also z.B. die ach so bedeutsame Prozent- und Dreisatzrechnung),
so stellt sich die Frage verändert
(aber bezeichnend für den gesamten Mathe-Unterricht)
(und zwar, wie soeben gesagt, nicht die Formeln und Rechnungen), was denn?
Wenn aber weder 1. noch 2. der Fall ist, lasse man die Korrelation/Regression einfach weg! |
Eine typische Antwort ist da, dass die SchülerInnen "im späteren Leben"
(selbst wenn sie nicht Pädagogik, Sozialwissenschaften, BWL ... studieren oder die Statistik gar tatsächlich dringend in ihren späteren Berufen brauchen)
"kritisch" mit statischen Behauptungen umgehen können sollen:
Allerdings hat solch eine Begründung einen entscheidenden Haken: üblicherweise begegnet "Otto Normalverbraucher" Statistiken
(Wirtschaftswerten, Wahlumfragen, Umfragen zu Konsum- und Lebensgewohnheiten ...)
nur in den Mainstream-Medien, und da fehlen
(abgesehen vielleicht von "1000 repräsentativ [???] ausgewählte Bürger")
jegliche statistischen Hintergründe
(Datenauswahl, Rechenverfahren, genaue Fragen ...),
so dass eine "kritische" Bewertung sowieso ausgeschlossen ist.
Die einzig sinnvolle Reaktion kann da nur eine grundsätzliche, aber eben doch auch ressentimentbeladene Skepsis gegenüber allen Statistiken sein, also etwa
"ich glaube nur noch Statistiken, die ich selbst gefälscht habe".
Bzw. es hilft höchstens, nach
(soweit überhaupt herauszufinden)
dem Urheber/Auftraggeber einer Statistik zu fragen:
Wenn man aber so argumentiert, wie ich es hier bislang getan habe, folgt daraus, dass man
arbeitet
(und ich meine ja in der Tat: zugunsten populärwissenschaftlicher Bücher!).
Das Rechnen ist ja gerade in der Statistik höchst zweifelhaft:
(z.B. bei der Kovarianz [s.u.] von 100 Datenpaaren).
Diese Rechnungen überlässt man heute gerne Computern bzw. Rechnern
aber gegen diese gibt's eben auch wieder zwei Argumente:
(jüngst habe ich gehört, dass "grafikfähige Taschenrechner" an einer Uni zu Beginn eines Ingenieurstudiums schon wieder verboten sind);
(und ihm dann das stumpfe Rechnen zu überlassen).
Ich brauche also keine Rechner/Computer, sondern mir reicht eine Datenmenge, die
Es geht mir also um das "tiefere" Verständnis der zentralen Verfahren - an kleinen Datenmengen.
Und es ist mir wichtig zu zeigen, welche grundsätzlichen Probleme anliegen können und wie man sie angehen kann.
Der Nähr- und Bildungswert der gesamten Schulmathematik besteht nämlich in grundsätzlichen "mathematischen Denkweisen", |
von denen eine die Statistik ist - und in engerem Sinn das Problem "Korrelation/Regression".
Wichtig an der Statistik bzw. "Korrelation/Regression" sind
(wie an jedem Schulstoff)
aber allein diejenigen "mathematischen Denkweisen", die in der sonstigen Schulmathematik keine Rolle spielen oder die zumindest neueAspekte am sonstigen Stoff zeigen.
Gäb's keinen Lehrplan, so wäre ich's also zufrieden, wenn "meine" SchülerInnen
(sicherlich anhand knapper Rechnungen)
verstehen würden,
Die "Probleme und Verfahren" bleiben nämlich vielleicht eher "hängen" als die Rechnungen.
Kor|re|la|ti|on [...zion; "Wechselbeziehung"] die; -, -en: 1. das Aufeinanderbezogensein von zwei Begriffen. 2. Zusammenhang zwischen [zwei] statistischen Ergebnissen, die durch Wahrscheinlichkeitsrech-nung ermittelt werden (Math.). 3. Wechselbeziehung zwischen verschiedenen [z.B.
zwei] Organen od. Organteilen (Med.). Re|gres|si|on [lat.] die; -, -en: 1. langsamer Rückzug des Meeres (Geogr.). 2. (Psychol.) a) Reaktivierung entwicklungsgeschichtlich älterer Verhaltensweisen bei Abbau od. Verlust des höheren Niveaus; b) das Zurückfallen auf frühere, kindliche Stufen der Triebvorgänge. 3. (Rhet.) a) = Epanodos; b) nachträgliche, erläuternde Wiederaufnahme. 4. Aufteilung einer Variablen in [zwei Variable, nämlich z.B.] einen systematischen u. einen zufälligen Teil zur näherungsweisen Beschreibung einer Variablen als Funktion anderer (Statistik). 5. das Schrumpfen des Ausbreitungsgebiets einer Art od. Rasse von Lebewesen (Biol.). |
In der bisherigen Statistik und Wahrscheinlichkeitsrechnung war immer nur von einem einzigen Verteilungsmerkmal die Rede, also z.B. den Körpergrößen von fünf Personen
Person: | 1 | 2 | 3 | 4 | 5 | |
erste und einzige Dimension: Körpergröße | 140 cm | 150 cm | 170 cm | 180 cm | 190 cm |
Dabei bedeutet "erste und einzige Dimension" bzw. "eindimensional", dass wir uns bei jeder Person nur für ein einziges Merkmal, nämlich eben die Körpergröße, interessieren.
"eindimensional" bedeutet auch, dass wir alle Körpergrößen auf einer Achse, nämlich der x-Achse, darstellen können:
Eine andere, ebenfalls eindimensionale Verteilung, diesmal allerdings auf der y-Achse dargestellt, ist z.B. die der Körpergewichte:
Bei der "Korrelation/Regression" kommen nun immer zwei Verteilungsmerkmale vor, und es wird untersucht, ob sie in Zusammenhang miteinander stehen und, wenn ja, in welchem. |
Im Folgenden soll es um den Zusammenhang der beiden Verteilungsmerkmale Körpergröße und Körpergewicht von Menschen gehen
(womit natürlich schon unterstellt wird, dass es einen solchen Zusammenhang gibt)
,und da ist es doch naheliegend, erstmal den "gesunden Menschenverstand" bzw. die Anschauung zu bemühen
(wohl wissend, das die manchmal ganz schön trügen können)
.In der Regel wird es doch so sein:
je größer ein Mensch ist, desto schwerer ist er auch. |
Dabei ist natürlich klar, dass es immer auch "Ausreißer" gibt, also z.B. sehr kleine Moppelchen oder sehr große Magersüchtige. Ein Patentrezept bzw. ein alle Fälle umfassender Zusammenhang ist also nicht zu erwarten. Vielmehr suchen wir eine eingeschränkte Regel, wohl wissend: "Jede Regel hat eine Ausnahme."
"je größer ein Mensch ist, desto schwerer ist er auch" lässt auf Anhieb einen (hübsch einfachen) linearen Zusammenhang vermuten.
Allerdings gibt es zwei schon mehr oder minder mathematische Argumente gegen dieses "linear":
Und der sogenannte "Body-Mass-Index" funktioniert ja tatsächlich quadratisch: man nehme die Formel
(wobei
[also z.B. 180 cm = 1,8 m]
ist)
und löse es nach m auf, also zu m = BMI • l2. Wenn nun das Normalgewichts-Body-Mass-Index bei ca. 20 liegt, also BMI = 20 ist, so ergibt sich
m = 20 • l2
Oder mit unseren Bezeichnungen:
y = 20 • x2.
Für (wie oben) Zentimeter umgerechnet ergibt sich damit
.
hängt das Körpergewicht vielleicht weniger von der Länge als vom Volumen ab, und das wächst mit der dritten Potenz: stellen wir uns also der Einfachheit halber mal vor, zwei Person hätten Würfelform und
Dann hätte
Zu vermuten wäre da also ein Graph dritten Grades, bei dem auch wieder "je größer, desto schwerer" gelten würde:
(Dieses Volumenargument ist auch der Grund dafür, dass man beispielsweise eine Maus nicht gleichmäßig auf die Größe eines Elefanten vergrößern könnte: weil das Volumen so rasant ansteigt, müsste die Knochengerüst sehr viel schneller wachsen als der Rest und könnte die Maus hinterher vor lauter Knochen kaum gehen.)
Angenommen mal, dass wir bei jeder von fünf Personen nun gleichzeitig Körpergröße und Körpergewicht messen:
Person: | 1 | 2 | 3 | 4 | 5 | |
erste Dimension: Körpergröße | 140 cm | 150 cm | 170 cm | 180 cm | 190 cm | |
zweite Dimension: Körpergewicht | 45 kg | 50 kg | 80 kg | 70 kg | 90 kg |
Zur gleichzeitigen Darstellung beider Merkmale, also sowohl der Körpergröße als auch des Körpergewichts, brauchen wir hier zwei Achsen bzw. das zweidimensionale Koordinatensystem:
(Wie üblich, sind hier die y-Werte [Körpergewichte] abhängig von den x-Werten [Körpergrößen]. Man nennt
Rein mathematisch könnte man natürlich auch umgekehrt die Körpergrößen [dann auf der y-Achse] in Abhängigkeit von den Körpergewichten [dann auf der x-Achse] ausdrücken, aber das ist vom "Problem" her wenig sinnvoll:
man kann vielleicht sein Gewicht, aber sicherlich nicht seine Größe ändern.)
Um jetzt noch klarzustellen, welches Körpergewicht zu welcher Körpergröße gehört, ordnen wir jeder Person einenPunkt aus zweiKoordinaten, nämlich der Körpergrößen- und der Körpergewichtskoordinate, zu:
Person: | 1 | 2 | 3 | 4 | 5 | |
erste Dimension: Körpergröße | 140 cm | 150 cm | 170 cm | 180 cm | 190 cm | |
zweite Dimension: Körpergewicht | 45 kg | 50 kg | 80 kg | 70 kg | 90 kg | |
Punkt | (140|45) | (150|50) | (170|80) | (180|70) | (190|90) |
Die Punkte und wohl auch ihr eventueller Zusammenhang werden aber erst im Koordinatensystem anschaulich:
Es ergibt sich also eine sogenannte "Punktwolke":
Solch eine Punktwolke ist aber auf Anhieb immer erstmal ein schlechtes Zeichen. Schon der Begriff "Punktwolke" deutet ja an, dass alles arg "wolkig" und "verschwommen", d.h. unregelmäßig und zusammenhangslos ist bzw. zu sein scheint.
Nun wäre es ja durchaus möglich, durch die fünf Punkte den Graph einer Funktion fünften Grades zu legen, was etwa so aussähe:
Aber das hätte doch verschiedene Nachteile:
In der Grafik lässt sich aber durchaus schon erkennen, wer da der Ausreißer ist. Und zwar wird das dadurch deutlich, dass sich die "Wege" einmal kreuzen:
Offensichtlich sticht Person 3 mit dem Punkt (170|80) allzu stark heraus bzw. ist sie zu schwer. Wenn wir sie probeweise mal weglassen, ergibt sich folgendes Bild:
Hier könnte man nun einen (ziemlich einfachen) linearen Zusammenhang vermuten, der aber noch nur ungenau festzulegen ist - und etwa so aussähe:
Nun steht also doch die Vermutung im Raum, dass es einen linearen Zusammenhang zwischen Körpergröße und Körpergewicht geben könnte.
Allerdings wollen wir Person 3 nicht so einfach und willkürlich eliminieren, sondern doch wieder mit berücksichtigen, womit wir zurückkehren zu
Allemal klar ist, dass es keine Gerade gibt, die tatsächlich durch alle Punkte geht. Wir suchen vielmehr eine Gerade, die die Punkte "bestmöglich" annähert. Dabei bedeutet "bestmöglich", dass sich Abweichungen der Einzelpunkte von der Geraden möglichst gut gegenseitig ausgleichen:
Hier gleichen sich die Abstände der (von links gezählt) ersten beiden Punkte zur Geraden genauso aus wie die Abstände der nächsten beiden Punkte zur Geraden, und der fünfte Punkt (ganz rechts) liegt sogar exakt auf der Geraden.
Oder anders gesagt: was Person 1 zu dick ist, ist Person 2 zu dünn, und was Person 3 zu dick ist, ist Person 4 zu dünn.
Allerdings wurde die Gerade nur nach Augenmaß und durch Probieren gefunden, und überhaupt ist "halbwegs" natürlich kein stichhaltiges mathematisches Argument. Als MathematikerInnen wollen wir selbstverständlich die exakteGeradengleichung haben.
Kehren wir damit aber erstmal zur Punktwolke zurück:
Wie so oft in der Mathematik, so sollte man auch beim vorliegenden neuen Problem mal zu Altem zurückschauen, und zwar hier zu eindimensionalen Verteilungen, denn schließlich ist unsere zweidimensionale Körpergröße-/-gewicht-Verteilung aus zwei eindimensionalen Verteilungen zusammengesetzt.
Deshalb sei hier an erinnert, und in der Tat werden wir bei zweidimensionalen Verteilungen Ähnliches wie den Mittelwert (nämlich den Mittelpunkt) und die Varianz (nämlich die Kovarianz) brauchen.
Wenn wir uns also zuerst an die Mittelwertberechnung bei eindimensionalen Verteilungen erinnern, so können wir
und aus beiden zusammen den MittelpunktM der Punktwolke ermitteln.
Zu a.: =
Zu b.: =
Und damit ergibt sich der Mittelpunkt der Punktwolke als M (166|67):
Eine der Bedingungen an unsere bestmögliche Gerade ist nun, dass sie durch diesen zweifelsohne für die Körpergröße-/-gewicht-Verteilung besonders aussagekräftigen MittelpunktM (166|67) der Punktwolke gehen soll
(darauf wird unten zurückzukommen sein!)
.Damit ergibt sich aber vorerst eine Fülle mehr oder weniger sinnvoller Geraden:
Erinnern wir uns nunmehr in einem zweiten Schritt auch noch an die (empirische) Varianz im Eindimensionalen
(vgl. wieder
):Vx = =
344für die Körpergewichte ergibt sich beim Mittelwert y = 67 die Varianz
Vy = = 296
Daraus lassen sich mittels Wurzelziehen die Standardabweichungen bestimmen:
Damit können wir als neue Bereiche einzeichnen
und erhalten damit statt der unregelmäßigen Punktwolke ein übersichtlicheres Rechteck., in dem zwar nicht mehr (wie in der Punktwolke) alle Punkte liegen, aber doch der Trend deutlich wird.
Hier könnte man nun überlegen, was dieses Rechteck in Analogie zu über die zweidimensionale Verteilung aussagt, aber das soll hier nicht unser Thema sein.
Nun könnte man für die Punkte Ähnliches tun, was man für die x-Werte bzw. die y-Werte gemacht hat:
An einem der Punkte , nämlich P(140|45), sei mal exemplarisch gezeigt, wie der Abstand a vom MittelpunktM (166|67) berechnet werden kann:
Hier muss man nun den Satz des Pythagoras als geeignetes Hilfsmittel und somit ein rechtwinkliges Dreieck als Hilfsmittel erkennen:
Damit ergibt sich
Wichtig daran ist: da wir einen Abstand berechnen, ziehen wir nur die positive Wurzel, können wir uns also das Quadrieren sparen, das wir bei den Varianzen benutzt hatten, um negative Werte zu verhindern.
Und dennoch gäbe es gute Gründe, die Abstände dennoch zu quadrieren:
(dann müssen wir allerdings hinterher aus dem Mittelwert der Abstände - wie bei der Standardabweichungen - doch wieder die Wurzel ziehen).
All solche Rechnungen seien hier nicht ausdrücklich vorgeführt, sondern es sei nur das "geometrische" Ergebnis verraten:
Wir erhalten also einen Kreis, und zwar einen, der dieselbe Fläche hat wie das Rechteck in
Wir erhalten mit dem Kreis also keine wirklich neue Information - und verlassen deshalb diesen unnötigen (Um-)Weg.
Es ist mir allerdings ein Rätsel, wie man auf den anderen, jetzt folgenden Weg gekommen ist. Sein Sinn ist mir erst im Nachhinein, von seinem Ende her klar geworden, und deshalb bitte ich auch die LeserInnen um etwas Geduld.
Für diesen anderen Weg kehren wir zu den Varianzen
zurück. Daran sollen uns jetzt nicht mehr die Endergebnisse344 bzw. 296 interessieren, sondern die Konstruktion der Varianzen. Wenn wir die Quadrate als Produkte zweier identischer Terme schreiben, erhalten wir:
Mit diesen beiden einzelnen, eindimensionalen Varianzen Vx und Vy deutet sich eine Möglichkeit an, auch eine Art "Varianz" für unseren inzwischen zweidimensionalen Fall zu definieren, und zwar die sogenannte (empirische) "Kovarianz" cxy. Dazu entnehmen wir
womit sich für die "Kovarianz" ergibt:
cxy =
Das ist vorerst eine fast völlig willkürliche Definition
("fast", da ja immerhin Elemente der beiden einzeln durchaus aussagekräftigen Varianzen Vx und Vy übernommen wurden),
und natürlich kann man, wenn man lustig ist, alles und jedes kombinieren und definieren.
Die Frage muss also sein, was
cxy =
bedeuten mag und ob es eine hilfreiche und aussagekräftige Definition ist.
(Nebenbei: statt z.B. - bei den ersten beiden Klammern im Zähler - (140-166)•(45-67) könnten wir genauso gut auch (166-140)•(67-45) rechnen, also nicht mehr die Mittelwerte von den x- bzw. y-Werten, sondern umgekehrt die x- und y-Werte von den Mittelwerten subtrahieren. Beide Klammern erhielten dadurch das jeweils umgekehrte Vorzeichen, aber das Produkt der beiden Klammern hätte wieder dasselbe Vorzeichen wie vorher.)
Es sei aber vorerst mal festgehalten, was die Kovarianz Kovarianz cxy
(im Gegensatz zu den Varianzen Vx und Vy)
nicht mehr leistet: die Varianzen waren gezielt so definiert worden, dass durch das Quadrieren nur positive Summanden entstanden und somit auch die Varianzen selbst immer positiv waren
Bei den einzelnen Summanden der Kovarianz cxy und damit auch bei der Kovarianz cxy selbst können aber durchaus negative Werte entstehen, was, wie wir gleich sehen werden, kein Nachteil ist, sondern eine ganz eigene Aussagekraft hat.
Zwar wird in unserem konkreten Körpergrößen-/Körpergewicht-Beispiel kein Summand negativ, aber das würde beispielsweise passieren, wenn eine Person 150 cm groß und 80 kg schwer wäre, denn dann würde das entsprechende Produkt in der Kovarianz-Formel lauten:
=
= = - 208, also eine negative Zahl.
Eine negative Zahl kommt immer zustande, wenn eine Person
(also für ihre Größe allzu dick)
(also für ihre Größe allzu spindeldürr)
ist.
Der Zusammenhang sieht in der Grafik so aus:
Damit könne wir immerhin Tendenzen für die Kovarianz cxy, also die Summe all dieser negativen oder positiven Produkte, erkennen:
Die Punkte hätten also eine steigende Tendenz: "je größer x, desto größer y".
Die Punkte hätten also eine fallende Tendenz: "je größer x, desto kleiner y".
Man könnte auf Anhieb meinen, dass sie dann
d.h. gleichmäßig sowohl in xxxxx-Quadranten als auch in xxxxx-Quadranten liegen:
In allen vier Fällen würde sich aber nicht der Mittelpunkt M ergeben, sondern er läge höher oder tiefer, weiter links oder weiter rechts.
Vielmehr liegen die Punkte dann
denn dann ergäben sich massenhaft Null-Produkte:
Hier tut es gut, auf unser Aufgabenbeispiel "Körpergröße/Körpergewicht" zurück zu schauen: was bedeuten da die Linie -------- sowie die LInie -------- ?:
Eine andere Möglichkeit, dass die Kovarianz cxy in der Nähe von Null liegt, besteht darin, dass die Punkte "ziemlich gleichmäßig" in allen vier Quadranten a. bis d. liegen:
Dann aber liegt ein reines Chaos vor und ist eben kein Zusammenhang zwischen Körpergröße und Körpergewicht zu erkennen.
Sinnvoll bleiben also nur die Fälle A. und B., d.h. steigende oder fallende Tendenz. Und da bei unserem Beispiel sämtliche Punkte in den xxxxx-Quadranten c. und d. liegen, liegt der Fall A. vor:
d.h. in unserem Beispiel liegt eindeutig eine steigende Tendenz vor. Das ist nun wahrhaft keine weltbewegend neue Erkenntnis, sondern
Aber wir brauchen solche Kovarianz-Überlegungen für Fälle, in denen aus der Lage der Punkte nicht so eindeutig hervorgeht, welche Tendenz eventuell eben doch vorliegt.
In der Tat ist in unserem Beispiel
cxy =
positiv, und zwar schon allein deshalb, weil alle Produkte positivsind. Es ergibt sich
cxy = 298
Man sagt auch:
Trotz kleiner Schwankungen haben wir in unserem Körpergröße/Körpergewicht-Beispiel also insgesamt die Tendenz "steigend" bzw. "je größer die Leute sind, desto schwerer sind sie"
(was uns - nochmals gesagt - allerdings nicht sonderlich überrascht).
Bleiben wir aber noch bei den
(typisch Statistik bzw. Wahrscheinlichkeitsrechnung!)
vielen Unwägbarkeiten, also Worten wie
Diese Unwägbarkeiten hängen weitgehend mit "'Ausreißern" zusammen, d.h. Einzel- oder einigen wenigen Punkten, die von der sonstigen Tendenz abweichen
(aber wo ist da die Grenze zum völligen Chaos?).
Die Unwägbarkeiten zeigen sich insbesondere darin, dass einige wenige Punkte in den "falschen" Quadranten liegen. Die Unwägbarkeiten ergeben sich aber auch durch die Entfernungen solcher Punkte vom Mittelpunkt M.
Die Entfernungen der Punkte zum Mittelpunkt M werden nämlich durch die Produkte abgeschätzt
(wenn auch nicht exakt angegeben):
die Produkte (oder genauer: ihre Beträge) werden
... womit wir die oben verworfenen Abstände der Punkte vom Mittelpunkt M indirekt doch wieder benutzt haben.
Der Unwägbarkeiten wird man ein wenig Herr, wenn man die Kovarianz cxy zum "Korrelationskoeffizienten" xy "normiert", d.h. für beliebige zweidimensionale Verteilungen auf das Intervall [ - 1 | +1 ] schrumpft bzw. ausdehnt
(nebenbei:
ist der griechische Buchstabe "rho"):Diese Normierung erfolgt natürlich in Analogie zur Wahrscheinlichkeit, die ja auf das Intervall [0 | +1 ] normiert wurde, und genauso, wie bei der Wahrscheinlichkeit 0 für "ausgeschlossen" und +1 für "absolut sicher" steht, bedeuten auch bei xy die Werte -1, 0 und +1 sichere Aussagen, die Werte dazwischen aber nur mehr oder weniger gute Annäherungen.
Es gibt verschiedene Möglichkeiten, den "Korrelationskoeffizienten" zu definieren und zu berechnen. Eine dieser Möglichkeiten funktioniert nach der Formel
In unserem Fall ergibt sich damit xy ≈ , also ein doch sehr nah an +1 liegender Wert, so dass wir davon ausgehen können, dass sich unsere Verteilung trotz aller kleinen Abweichungen weitgehend positiv linear verhält, im Koordinatensystem also gut durch eine steigende Gerade angenähert werden kann.
(Hier sei nicht geklärt, wie man überhaupt auf kommt und weshalb
xy Werte zwischen -1 und +1 ergibt. Wichig ist hingegen, dass das markante Vorzeichen von cxy unverändert auf xy übertragen wird, da sowohl σx als auch σy nie negativ ist.)Erst im Nachhinein wird also wirklich klar, wozu die Kovarianz cxy und mehr noch der Korrelationskoeffizient xy eigentlich da sind: sie sind Maßstäbe dafür, ob eine zweidimensionale Verteilung sich überhaupt halbwegs linear verhält und wenn ja: wie gut die lineare Annäherung ist.
Da wir für unsere konkrete Körpergrößen-/Körpergewicht-Verteilung mittels xy ≈ 0,93 herausgefunden haben, dass ein ziemlich guter linearer Zusammenhang besteht, wird es nach einem kleinen Intermezzo darum gehen, die konkrete Geradengleichung herauszufinden.
Bisher hatten wir immer mit konkreten Werten gearbeitet. Auf die Dauer ist es aber günstig, eine allgemeine und damit leicht auf andere Verteilungen übertragbare Formel zu haben.
Angenommen also, wir haben die Punkte P1 (x1|y1) bis Pn(xn|yn). Dann ist für 1 ≤ i ≤ n der Punkt Pi (xi|yi) einer dieser Punkte.
Damit wird aus der konkreten Kovarianz-Formel
cxy =
die allgemeine Kovarianz-Formel
cxy =
Wie bereits oben gesagt, kann "je größer, desto schwerer" natürlich auch eine quadratische, kubische oder sonstige Funktion bedeuten, für die es je eigene Berechnungsverfahren gibt
(z.B. die "quadratische Korrelation/Regression").
Da unser konkretes Körpergröße/Körpergewicht-Beispiel aber doch sehr nach Linearität "riecht", suchen wir nun
(wie oben schon angedeutet)
nach der "besten" Geraden, wobei wir schon eine Vorbedingung feststellen: diese "beste" Gerade soll auf jeden Fall durch den allemal bedeutsamen Mittelpunkt M (166|67) gehen
(worauf unten zurückzukommen ist).
Indem wir voraussetzen, dass annähernd eine Gerade g vorliegt, werden wir natürlich betriebsblind für andere, vielleicht sinnvollere Möglichkeiten.
Auf jeden Fall hat die Geradengleichung aber die Form
g: y = mx + c,
wobei m die Steigung und c der Achsenabschnitt ist.
Im Folgenden tun wir nun etwas ausgesprochen Dreistes: obwohl wir genau wissen, dass die Punkte nicht auf alle auf einer (einzigen!) Geraden liegen, tun wir einfach mal so, als ob das dennoch der Fall wäre.
Wenn wir also die Geradenform voraussetzen, wissen wir, dass für jedes Steigungsdreieck, das zwischen einem Punkt Pi (xi|yi) und dem MittelpunktM (x|y) aufgespannt wird,
Damit ergibt sich m = wird kürzer m = , woraus folgt:
Wenn wir das nun für jedes 1 ≤ i ≤ n in unsere allgemeine Kovarianz-Formel
cxy =
einsetzen, so erhalten wir nach einiger Rechnerei etwas wahrhaft Erstaunliches:
cxy = =
= =
= =
=
oder kurz
cxy = .
Zumindest auf den ersten Blick erstaunlich ist daran, dass die Kovarianz cxy
(in der doch immerhin zwei Dimensionen berücksichtigt sind)
somit nur ein simples Viel-, nämlich m-faches der
(eindimensionalen)
Varianz Vx ist.
Nunja, ganz so erstaunlich ist das allerdings auch wieder nicht: wir hatten ja eine lineare Abhängigkeit des y vom x vorausgesetzt.
Aus cxy= folgt umgehend
m = .
und somit können wir immerhin schon die Steigung m der gesuchten Gerade g berechnen. In unserem konkreten Körpergröße/Körpergewicht-Beispiel ergibt sich:
m = = ≈ 0,86
Für unsere Gerade gilt also g: y ≈ 0,86 x + c .
Um nun auch noch den Achsenabschnitt c berechnen zu können, erinnern wir uns daran, dass insbesondere der so wichtige Mittelpunkt M (166|67) auf der Gerade g liegen soll. Wir setzen daher seine Koordinaten in die Geradengleichung ein und erhalten
67 ≈ 0,86 • 166 + c
67 ≈ 143,8 + c | - 143,8
-76,8 ≈ c
Insgesamt lautet die Gleichung der sogenannten Regressionsgerade also
g: y ≈ 0,86 x -76,8
Man beachte, dass diese Gerade g in der Tat - wie oben gefordert - zu allen Punken etwa gleichen Abstand hält.
Deutlich wird anhand der Gerade auch, dass sie natürlich nur für Erwachsene gilt, denn Menschen mit einer Körpergröße von weniger als 90 cm hätten laut dieser Gerade ja ein negatives Gewicht.
Unsere Gerade g: y ≈ 0,86 • x -76,8 ähnelt annähernd der Formel, mit der man üblicherweise das "Normalgewicht" berechnet, nämlich y = 1 • x - 100, d.h. Körpergewicht = Körpergröße - 100.
Es lohnt sich immer, vor und nach allen Rechnungen zu überlegen, inwieweit durchaus richtige mathematische Aussagen überhaupt im Hinblick auf die jeweilige Anwendung sinnvoll sind. Überlegen wir also, was die verschiedenen möglichen Ausfälle von xy im Hinblick auf unser Körpergröße-/Körpergewicht-Beispiel bedeuten können:
(von wegen "kein": wir wissen aber, dass es ihn dennoch gibt, nämlich nach der Normalgewichtsformel y = 1 • x - 100 bzw. Körpergewicht = Körpergröße - 100; vgl. daher in diesem Fall 2.);
"Insofern sich die Sätze der Mathematik auf die Wirklichkeit beziehen, sind sie nicht sicher, und insofern sie sicher sind, beziehen sie sich nicht auf die Wirklichkeit."
(Albert Einstein)
Es wäre also sinnvoll, nach dem "Gesetz der großen Zahlen" eine größere Datenmenge zu nehmen.
Fassen wir nunmehr zusammen:
wir hatten
(also wichtige Zentralwerte)
(also wichtige Bereiche um die Zentralwerte herum) bestimmt;
(diese beiden Merkmale hatten uns überhaupt erst gezeigt, dass ein ziemlich guter linearer Zusammenhang vorliegt, was die folgende Suche nach der Regressionsgeraden überhaupt erst legitimiert),
|
Kurz festgehalten sei noch ein wichtiger Unterschied zwischen den berechneten Werten: da gibt es
Man übt all das am besten, indem man sich gezielt aussagekräftige Spezialfälle mit möglichst wenigen und einfachen Werten anschaut, sodass nicht die Rechnungen, sondern das "Prinzip" im Vordergrund stehen/steht. Bei diesen "aussagekräftigen Spezialfällen" weiß man schon vorher, was hinterher "so ungefähr" rauskommen wird, und kann es somit kontrollieren:
An dem Beispiel sei nun mal gezeigt, wie sich (auch für mich) endlich ein intuitives Verständnis ergibt:
es liegt ja wohl nahe, so etwa folgende steigende Regressionsgerade zu verwenden:
Erste kleine Rechnungen ergeben:
Jetzt seien noch
Das sind überwiegend positiv gewertete Abstände, und deshalb werden auch sowohl die Kovarianz cxy als auch der Korrelationskoeffizienten xy positiv, d.h. auch so gesehen liegt eine steigende Regressionsgerade vor.
Ganz anders liegt der Fall in :
Hier gibt es offensichtlich mehrere "sinnvolle" Geraden:
Aber was heißt schon "sinnvoll"?:
stellen wir uns also vor, dass hier wieder von der Körpergrößen-/Körpergewicht-Verteilung die Rede ist
(auch wenn da die Zahlenwerte 1 und 4 da unsinnig sind).
dann würde
Da wäre offensichtlich nur der Fall c. sinnvoll. Aber beispielsweise an d. ist nicht so wichtig, dass er allen Erfahrungen widerspricht, sondern vielmehr, dass er eine unsinnige Folgerung aus dem Umstand ist, dass zwei "Einer" und zwei "VVierer" unterschiedliche Gewichte haben.
Unsinnig ist aber vor allem, dass man aus offensichtlich alles
(und sogar völlig Widersprüchliches)
folgern kann.
Schauen wir uns nun wieder die "Abstände" der Punkte an:
Offensichtlich heben sich hier die positiv und negativ gewerteten Abstände beim Addieren alle gegenseitig zu Null auf, womit sowohl die Kovarianz cxy als auch der Korrelationskoeffizienten xy Null werden und es also auch so gesehen keine sinnvolle Regressionsgerade gibt.
Auf ein im Hinblick auf die Bedeutung des Korrelationskoeffizienten xy besonders schönes Beispiel hat mich aber die Schülerin Vanessa Sumpmann aufmerksam gemacht:
(Ein "Anwendungsbeispiel" wäre da:
Die anschaulich beste Näherungs
gerade g ist da offensichtlich g: y = 1 • x + 1 = x + 1da sich bei ihr alle Abstände nach links oben und rechts unten genau ausgleichen:
Rechnerisch ergibt sich aber xy ≈ 0,63, was auf eine höchstens mittelprächtige Annäherbarkeit durch eine Gerade hindeutet. Wenn man aber weiterrechnet, ergibt sich für diese mittelprächtige Gerade tatsächlich die schon oben anschaulich erahnte Geradengleichung y = x + 1.
Wie aber sind da "beste Näherungsgerade" und "höchstens mittelprächtige Annäherbarkeit" miteinander vereinbar? Ist die gefundene Gerade sozusagen der Einäugige unter den Blinden, also nur die beste unter den durchweg schlechten?
Offensichtlich miss der Korrelationskoeffizient xy also
(was ja immerhin uns Anfangszugang war),
ob sich die (positiv und negativ gemessenen) Abstände der Punkte zur Geraden gegenseitig ausgleichen,
Und die Gerade in
hält nunmal unweigerlich zu allen Punkten einen gewissen Abstand bzw. es ist beim besten Willen nicht möglich, eine Gerade durch alle sechs Punkte zu zeichnen.
Woran das aber liegt, wird erst durch das "Anwendungsproblem" klar: wir wollten ja einen Zusammenhang zwischen der Körpergröße und dem Körpergewicht von Elefanten herauszubekommen. Der ist aber laut xy ≈ 0,63 nur "mittelprächtig" zu ermitteln, weil
(Elefanten können auch gleich groß und dennoch unterschiedlich schwer sein),
Dennoch gibt es aber ansatzweise den Trend "je größer, desto schwerer".
Oben war von der Möglichkeit einer quadratischen Anpassung gesprochen worden. Sie sähe für unser Körpergrößen-/Körpergewicht-Beispiel so aus:
Und eine vielleicht ja
(wie ebenfalls oben gezeigt)
besonders sinnvolle kubische Anpassung, also mittels einer Funktion dritten Grades, sähe so aus:
Um das "Prinzip" zu verstehen, wäre sogar die Übertragung auf eine dreidimensionale Verteilung interessant
(allerdings am besten in einem tatsächlich dreidimensionalen Koordinatensystem-Modell)
:
(Dabei sei dahingestellt, was hier Kovarianz und Korrelation bedeuten mögen und was die Regressionsgerade[-ebene?] sein mag.)
Und erst wenn das "Prinzip" klar ist, überlässt man größere Datenmengen dem Computer.
Vorsicht: "Ein bekanntes Beispiel in der Statistik [für die Scheinkorrelation] ist die Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare in verschiedenen Regionen. Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt, gibt es keinen kausalen Zusammenhang. Tatsächlich gibt es aber einen kausalen Zusammenhang zu einer dritten (intervenierenden) Variable: der Ländlichkeit der Region. Je ländlicher eine Region ist, desto höher ist die Zahl der Kindergeburten und desto größer ist die Zahl der Storchenpaare. Dies führt zu der Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare."
(zitiert nach )
Wie der Lexikon-Eintrag oben zum Thema "Regression" schon mit
"[...] näherungsweise[...] Beschreibung einer Variablen als Funktion [einer] andere[n] [...]"
angedeutet hat: mit all unseren Überlegungen oben ist es uns
(wenn auch auf arg brachiale Art)
gelungen, den Hauptgegenstand der gesamten Schulmathematik, nämlich "Funktionen", auch in die Statistik/Wahrscheinlichkeitsrechnung einzuschleusen:
Bzw. es ist, als wenn die Militärregierung "Funktionen" durch Putsch auch die Macht im Staat "Statistik/Wahrscheinlichkeitsrechnung" übernommen hätte.
Funktionen sind aber nunmal der mathematische Königsweg, um Zusammenhänge zu begreifen.
Anfangs hatte ich gefragt:
(und zwar, wie soeben gesagt, nicht die Formeln und Rechnungen)
was denn?
Nun war die Herleitung von Korrelation und Regression(sgerade) offensichtlich ein langer Weg mit vielen, teilweise ellenlangen Formeln
(die man sowieso in einer Formelsammlung nachschlägt).
Das Allermeiste davon wird zweifelsohne spätestens nach der betreffenden Klausur vergessen. Was also soll im besten Fall davon übrig bleiben?:
zu reduzieren;
(hier für nur drei Punkte P (x1 | y1)
, P2 (x2 | y2) und P3 (x3 | y3) ):dabei wird in Gleichungen, die das Muster ( - ) enthalten, der Mittelwert von [evtl. negativ gemessenen] Abständen gebildet, und zwar
Es wird also jeweils der Mittelwert der Abstände von einem Mittelwert berechnet
[vgl. "der Vater des Vaters der Mutter des Onkels ..."; alle Klarheiten beseitigt?);
(oder zumindest kein linearer);