Korrelation Regression

Die Statistik ist ja so ungemein wichtig, dass sämtliche Pädagogen, Sozialwissenschaftler, Betriebswirtschaftler usw. in ihrem Studium den berühmt-berüchtigten "Statistik-Schein" machen müssen.

Dieser ist für viele die größte Hürde ihres gesamten Studiums und wird üblicherweise folgendermaßen erreicht:

  1. paukt man sich stumpf die (unverstandenen!) Formeln in den Kopf,
  2. besteht man damit spätestens nach dem dritten Anlauf dann doch noch die Prüfung,
  3. vergisst man nach der Prüfung alles wieder komplett, und danach ist's, als wär' nichts gewesen, bzw.

"zum einen Ohr rein, zum anderen wieder raus".

In der Schule ist's beim Thema "Korrelation/Regression" schon vom Lehrplan her ganz ähnlich: diese beiden Themen stehen nur in der 11. Klasse an. Zwar folgt in der 12. und 13. Klasse noch die eigentliche Stochastik/Wahrscheinlichkeitsrechnung

(bis hin zu ),

aber von "Korrelation/Regression" ist da nie wieder die Rede, d.h. diese beiden Themen werden nach der 11. Klasse natürlich umgehend wieder gründlich vergessen (verdrängt).

Weshalb werden sie dann überhaupt (eben in der 11. Klasse) durchgenommen?

Bzw. gibt es einen besseren Grund dafür als den, dass halt irgendwas (möglichst Schwieriges) abgeprüft werden soll?

Wenn wir also so realistisch sind einzugestehen, dass die konkreten Themen "Korrelation/Regression"

(oder zumindest doch alle diesbezüglichen Formeln und Rechenverfahren)

sowieso vergessen werden

(wie so vieler anderer Mathe-Schulstoff, also z.B. die ach so bedeutsame Prozent- und Dreisatzrechnung),

so stellt sich die Frage verändert

(aber bezeichnend für den gesamten Mathe-Unterricht)

  1. : wenn von der Korrelation/Regression überhaupt was hängen bleiben soll

(und zwar, wie soeben gesagt, nicht die Formeln und Rechnungen),

was denn?

  1. : oder sollen die SchülerInnen nur etwas ANHAND der Korrelation/Regression lernen, ist sie also bloß Mittel zum

           (zu welchem?)


    Zweck?

Wenn aber weder 1. noch 2. der Fall ist, lasse man die Korrelation/Regression einfach weg!

Eine typische Antwort ist da, dass die SchülerInnen "im späteren Leben"

(selbst wenn sie nicht Pädagogik, Sozialwissenschaften, BWL ... studieren oder die Statistik gar tatsächlich dringend in ihren späteren Berufen brauchen)

"kritisch" mit statischen Behauptungen umgehen können sollen:

Allerdings hat solch eine Begründung einen entscheidenden Haken: üblicherweise begegnet "Otto Normalverbraucher" Statistiken

(Wirtschaftswerten, Wahlumfragen, Umfragen zu Konsum- und Lebensgewohnheiten ...)

nur in den Mainstream-Medien, und da fehlen

(abgesehen vielleicht von "1000 repräsentativ [???] ausgewählte Bürger")

jegliche statistischen Hintergründe

(Datenauswahl, Rechenverfahren, genaue Fragen ...),

so dass eine "kritische" Bewertung sowieso ausgeschlossen ist.

Die einzig sinnvolle Reaktion kann da nur eine grundsätzliche, aber eben doch auch ressentimentbeladene  Skepsis gegenüber allen Statistiken sein, also etwa

"ich glaube nur noch Statistiken, die ich selbst gefälscht habe".

Bzw. es hilft höchstens, nach

(soweit überhaupt herauszufinden)

dem Urheber/Auftraggeber einer Statistik zu fragen:

Wenn man aber so argumentiert, wie ich es hier bislang getan habe, folgt daraus, dass man

arbeitet

(und ich meine ja in der Tat: Bild zugunsten populärwissenschaftlicher Bücher!).

Das Rechnen ist ja gerade in der Statistik höchst zweifelhaft:

(z.B. bei der Kovarianz [s.u.] von 100 Datenpaaren).

Diese Rechnungen überlässt man heute gerne Computern bzw. Rechnern

(vgl. ),

aber gegen diese gibt's eben auch wieder zwei Argumente: 

(jüngst habe ich gehört, dass "grafikfähige Taschenrechner" an einer Uni zu Beginn eines Ingenieurstudiums schon wieder verboten sind) 

(und ihm dann das stumpfe Rechnen zu überlassen).

Ich brauche also keine Rechner/Computer, sondern mir reicht eine Datenmenge, die

Es geht mir also um das "tiefere" Verständnis der zentralen Verfahren - an kleinen Datenmengen.

Und es ist mir wichtig zu zeigen, welche grundsätzlichen Probleme anliegen können und wie man sie angehen kann.

Der Nähr- und Bildungswert der gesamten Schulmathematik besteht nämlich in grundsätzlichen Bild"mathematischen Denkweisen",

von denen eine die Statistik ist - und in engerem Sinn das Problem "Korrelation/Regression".

Wichtig an der Statistik bzw. "Korrelation/Regression" sind

(wie an jedem Schulstoff)

aber allein diejenigen "mathematischen Denkweisen", die in der sonstigen Schulmathematik keine Rolle spielen oder die zumindest neueAspekte am sonstigen Stoff zeigen.

Gäb's keinen Lehrplan, so wäre ich's also zufrieden, wenn "meine" SchülerInnen

(sicherlich anhand knapper Rechnungen)

verstehen würden,

Die "Probleme und Verfahren" bleiben nämlich vielleicht eher "hängen" als die Rechnungen.


 

Kor|re|la|ti|on [...zion; "Wechselbeziehung"] die; -, -en: 1. das Aufeinanderbezogensein von zwei Begriffen. 2. Zusammenhang zwischen [zwei] statistischen Ergebnissen, die durch Wahrscheinlichkeitsrech-nung ermittelt werden (Math.). 3. Wechselbeziehung zwischen verschiedenen [z.B. zwei] Organen od. Organteilen (Med.).
(Duden - Fremwörter)

Re|gres|si|on [lat.] die; -, -en: 1. langsamer Rückzug des Meeres (Geogr.). 2. (Psychol.) a) Reaktivierung entwicklungsgeschichtlich älterer Verhaltensweisen bei Abbau od. Verlust des höheren Niveaus; b) das Zurückfallen auf frühere, kindliche Stufen der Triebvorgänge. 3. (Rhet.) a) = Epanodos; b) nachträgliche, erläuternde Wiederaufnahme. 4. Aufteilung einer Variablen in [zwei Variable, nämlich z.B.] einen systematischen u. einen zufälligen Teil zur näherungsweisen Beschreibung einer Variablen als Funktion anderer (Statistik). 5. das Schrumpfen des Ausbreitungsgebiets einer Art od. Rasse von Lebewesen (Biol.).
(Duden - Fremwörter)

In der bisherigen Statistik und Wahrscheinlichkeitsrechnung war immer nur von einem einzigen Verteilungsmerkmal die Rede, also z.B. den Körpergrößen von fünf Personen

 Person:12345
 erste und einzige Dimension:
Körpergröße
140 cm150 cm170 cm180 cm190 cm

Dabei bedeutet "erste und einzige Dimension" bzw.  "eindimensional", dass wir uns bei jeder Person nur für ein einziges Merkmal, nämlich eben die Körpergröße, interessieren.

"eindimensional" bedeutet auch, dass wir alle Körpergrößen auf einer Achse, nämlich der x-Achse, darstellen können:

 (wie in  )

Eine andere, ebenfalls eindimensionale Verteilung, diesmal allerdings auf der y-Achse dargestellt, ist z.B. die der Körpergewichte:

Bei der "Korrelation/Regression" kommen nun immer zwei Verteilungsmerkmale vor, und es wird untersucht, ob sie in Zusammenhang miteinander stehen und, wenn ja, in welchem.

Im Folgenden soll es um den Zusammenhang der beiden Verteilungsmerkmale Körpergröße und Körpergewicht von Menschen gehen

(womit natürlich schon unterstellt wird, dass es einen solchen Zusammenhang gibt),

und da ist es doch naheliegend, erstmal den "gesunden Menschenverstand" bzw. die Anschauung zu bemühen

(wohl wissend, das die manchmal ganz schön trügen können).

In der Regel wird es doch so sein:

je größer ein Mensch ist, desto schwerer ist er auch.

Dabei ist natürlich klar, dass es immer auch "Ausreißer" gibt, also z.B. sehr kleine Moppelchen oder sehr große Magersüchtige. Ein Patentrezept bzw. ein alle Fälle umfassender Zusammenhang ist also nicht zu erwarten. Vielmehr suchen wir eine eingeschränkte Regel, wohl wissend: "Jede Regel hat eine Ausnahme."

"je größer ein Mensch ist, desto schwerer ist er auch" lässt auf Anhieb einen (hübsch einfachen) linearen Zusammenhang vermuten.

Allerdings gibt es zwei schon mehr oder minder mathematische Argumente gegen dieses "linear":

  1. gilt  beispielsweise auch bei einer Parabel "je größer, desto schwerer":

Und der sogenannte "Body-Mass-Index" funktioniert ja tatsächlich quadratisch: man nehme die Formel

(wobei

[also z.B. 180 cm = 1,8 m] 

ist)

und löse es nach m auf, also zu m = BMI • l2.  Wenn nun das Normalgewichts-Body-Mass-Index bei ca. 20 liegt, also BMI = 20 ist, so ergibt sich

m = 20 • l2

Oder mit unseren Bezeichnungen:

y = 20 x2.

Für (wie oben) Zentimeter umgerechnet ergibt sich damit

 .

  1. hängt das Körpergewicht vielleicht weniger von der Länge als vom Volumen ab, und das wächst mit der dritten Potenz: stellen wir uns also der Einfachheit halber mal vor, zwei Person hätten Würfelform und

Dann hätte

Zu vermuten wäre da also ein Graph dritten Grades, bei dem auch wieder "je größer, desto schwerer" gelten würde:

(Dieses Volumenargument ist auch der Grund dafür, dass man beispielsweise eine Maus nicht gleichmäßig auf die Größe eines Elefanten vergrößern könnte: weil das Volumen so rasant ansteigt, müsste die Knochengerüst sehr viel schneller wachsen als der Rest und könnte die Maus hinterher vor lauter Knochen kaum gehen.)

 Angenommen mal, dass wir bei jeder von fünf Personen nun gleichzeitig Körpergröße und Körpergewicht messen: 

 Person:12345
 erste Dimension:
Körpergröße
140 cm150 cm170 cm180 cm190 cm
 zweite Dimension:
Körpergewicht
45 kg50 kg80 kg70 kg90 kg

Zur gleichzeitigen Darstellung beider Merkmale, also sowohl der Körpergröße als auch des Körpergewichts, brauchen wir hier zwei Achsen bzw. das zweidimensionale Koordinatensystem:

(Wie üblich, sind hier die y-Werte [Körpergewichte] abhängig von den x-Werten [Körpergrößen]. Man nennt

Rein mathematisch könnte man natürlich auch umgekehrt die Körpergrößen [dann auf der y-Achse] in Abhängigkeit von den Körpergewichten [dann auf der x-Achse] ausdrücken, aber das ist vom "Problem" her wenig sinnvoll:

man kann vielleicht sein Gewicht, aber sicherlich nicht seine Größe ändern.)

Um jetzt noch klarzustellen, welches Körpergewicht zu welcher Körpergröße gehört, ordnen wir jeder Person einenPunkt aus zweiKoordinaten, nämlich der Körpergrößen- und der Körpergewichtskoordinate, zu:  

 Person:12345
 erste Dimension:
Körpergröße
140 cm150 cm170 cm180 cm190 cm
 zweite Dimension:
Körpergewicht
45 kg50 kg80 kg70 kg90 kg
 Punkt(140|45)(150|50)(170|80)(180|70)(190|90)

Die Punkte und wohl auch ihr eventueller Zusammenhang werden aber erst im Koordinatensystem anschaulich:

Es ergibt sich also eine sogenannte "Punktwolke":

Solch eine Punktwolke ist aber auf Anhieb immer erstmal ein schlechtes Zeichen. Schon der Begriff "Punktwolke" deutet ja an, dass alles arg "wolkig" und "verschwommen", d.h. unregelmäßig und zusammenhangslos ist bzw. zu sein scheint.

Nun wäre es ja durchaus möglich, durch die fünf Punkte den Graph einer Funktion fünften Grades zu legen, was etwa so aussähe:

Aber das hätte doch verschiedene Nachteile:

  1. erfordert das nicht mehr ganz einfache Rechnungen,
  2. bekämen wir damit einen sehr umständlichen und damit (beispielsweise in einer Arztpraxis) wenig hilfreichen Zusammenhang,
  3. würden wir damit auf alle "Ausreißer", d.h. alle Ausnahmen von der Regel reinfallen: da muss nur eine der fünf Personen viel zu schwer oder viel zu leicht sein, und schon würde sie unser Bild erheblich verkomplizieren. 

In der Grafik lässt sich aber durchaus schon erkennen, wer da der Ausreißer ist. Und zwar wird das dadurch deutlich, dass sich die "Wege" einmal kreuzen:

Offensichtlich sticht Person 3 mit dem Punkt (170|80) allzu stark heraus bzw. ist sie zu schwer. Wenn wir sie probeweise mal weglassen, ergibt sich folgendes Bild:

Hier könnte man nun einen (ziemlich einfachen) linearen Zusammenhang vermuten, der aber noch nur ungenau festzulegen ist - und etwa so aussähe:

Nun steht also doch die Vermutung im Raum, dass es einen linearen Zusammenhang zwischen Körpergröße und Körpergewicht geben könnte.

Allerdings wollen wir Person 3 nicht so einfach und willkürlich eliminieren, sondern doch wieder mit berücksichtigen, womit wir zurückkehren zu

Allemal klar ist, dass es keine Gerade gibt, die tatsächlich durch alle Punkte geht. Wir suchen vielmehr eine Gerade, die die Punkte "bestmöglich" annähert. Dabei bedeutet "bestmöglich", dass sich Abweichungen der Einzelpunkte von der Geraden möglichst gut gegenseitig ausgleichen:

Hier gleichen sich die Abstände der (von links gezählt) ersten beiden Punkte zur Geraden genauso aus wie die Abstände der nächsten beiden Punkte zur Geraden, und der fünfte Punkt (ganz rechts) liegt sogar exakt auf der Geraden.

Oder anders gesagt: was Person 1 zu dick ist, ist Person 2 zu dünn, und was Person 3 zu dick ist, ist Person 4 zu dünn.

Allerdings wurde die Gerade nur nach Augenmaß und durch Probieren gefunden, und überhaupt ist "halbwegs" natürlich kein stichhaltiges mathematisches Argument. Als MathematikerInnen wollen wir selbstverständlich die exakteGeradengleichung haben.

Kehren wir damit aber erstmal zur Punktwolke zurück:

Wie so oft in der Mathematik, so sollte man auch beim vorliegenden neuen Problem mal zu Altem zurückschauen, und zwar hier zu eindimensionalen Verteilungen, denn schließlich ist unsere zweidimensionale Körpergröße-/-gewicht-Verteilung aus zwei eindimensionalen Verteilungen zusammengesetzt

Deshalb sei hier an   erinnert, und in der Tat werden wir bei zweidimensionalen Verteilungen Ähnliches wie den Mittelwert (nämlich den Mittelpunkt) und die Varianz (nämlich die Kovarianz) brauchen.

Wenn wir uns also zuerst an die Mittelwertberechnung bei eindimensionalen Verteilungen erinnern, so können wir

  1. einerseits      den Mittelwert der Körpergrößen   ,
  2. andererseits den Mittelwert der Körpergewichte errechnen, 

und aus beiden zusammen den MittelpunktM der Punktwolke ermitteln.

Zu a.: =

Zu b.: =

Und damit ergibt sich der Mittelpunkt der Punktwolke als M (166|67):

Eine der Bedingungen an unsere bestmögliche Gerade ist nun, dass sie durch diesen zweifelsohne für die Körpergröße-/-gewicht-Verteilung besonders aussagekräftigen  MittelpunktM (166|67) der Punktwolke gehen soll

(darauf wird unten zurückzukommen sein!).

Damit ergibt sich aber vorerst eine Fülle mehr oder weniger sinnvoller Geraden:

Erinnern wir uns nunmehr in einem zweiten Schritt auch noch an die (empirische) Varianz im Eindimensionalen

(vgl. wieder ):

Vx = = 344

Daraus lassen sich mittels Wurzelziehen die Standardabweichungen bestimmen:

Damit können wir als neue Bereiche einzeichnen

und erhalten damit statt der unregelmäßigen Punktwolke ein übersichtlicheres Rechteck., in dem zwar nicht mehr (wie in der Punktwolke) alle Punkte liegen, aber doch der Trend deutlich wird.

Hier könnte man nun überlegen, was dieses Rechteck in Analogie zu über die zweidimensionale Verteilung aussagt, aber das soll hier nicht unser Thema sein.

Nun könnte man für die Punkte Ähnliches tun, was man für die x-Werte bzw. die y-Werte gemacht hat:

An einem der Punkte , nämlich P(140|45), sei mal exemplarisch gezeigt, wie der Abstand a vom MittelpunktM (166|67) berechnet werden kann:

Hier muss man nun den Satz des Pythagoras als geeignetes Hilfsmittel und somit ein rechtwinkliges Dreieck als Hilfsmittel erkennen:

Damit ergibt sich

     

        

Wichtig daran ist: da wir einen Abstand berechnen, ziehen wir nur die positive Wurzel, können wir uns also das Quadrieren sparen, das wir bei den Varianzen benutzt hatten, um negative Werte zu verhindern.

Und dennoch gäbe es gute Gründe, die Abstände dennoch zu quadrieren:

  1. , um die leidige Wurzel in zu vermeiden,
  2. , um ein mit den Varianzen vergleichbares Ergebnis zu erhalten

(dann müssen wir allerdings hinterher aus dem Mittelwert der Abstände - wie bei der Standardabweichungen - doch wieder die Wurzel ziehen).

All solche Rechnungen seien hier nicht ausdrücklich vorgeführt, sondern es sei nur das "geometrische" Ergebnis verraten:

Wir erhalten also einen Kreis, und zwar einen, der dieselbe Fläche hat wie das Rechteck in

Wir erhalten mit dem Kreis also keine wirklich neue Information - und verlassen deshalb diesen unnötigen (Um-)Weg.

Es ist mir allerdings ein Rätsel, wie man auf den anderen, jetzt folgenden Weg gekommen ist. Sein Sinn ist mir erst im Nachhinein, von seinem Ende her klar geworden, und deshalb bitte ich auch die LeserInnen um etwas Geduld.

Für diesen anderen Weg kehren wir zu den Varianzen

zurück. Daran sollen uns jetzt nicht mehr die Endergebnisse344 bzw. 296 interessieren, sondern die Konstruktion der Varianzen. Wenn wir die Quadrate als Produkte zweier identischer Terme schreiben, erhalten wir:

Mit diesen beiden einzelnen, eindimensionalen Varianzen Vx   und  Vy  deutet sich eine Möglichkeit an, auch eine Art "Varianz" für unseren inzwischen zweidimensionalen Fall zu definieren, und zwar die sogenannte (empirische) "Kovarianz" cxy. Dazu entnehmen wir

womit sich für die "Kovarianz" ergibt:

 cxy

Das ist vorerst eine fast völlig willkürliche Definition

("fast", da ja immerhin Elemente der beiden einzeln durchaus aussagekräftigen Varianzen Vx und Vy übernommen wurden),

und natürlich kann man, wenn man lustig ist, alles und jedes kombinieren und definieren.

Die Frage muss also sein, was

cxy

bedeuten mag und ob es eine hilfreiche und aussagekräftige Definition ist.

(Nebenbei: statt z.B. - bei den ersten beiden Klammern im Zähler - (140-166)(45-67) könnten wir genauso gut auch (166-140)(67-45) rechnen, also nicht mehr die Mittelwerte von den x- bzw. y-Werten, sondern umgekehrt die x- und y-Werte von den Mittelwerten subtrahieren. Beide Klammern erhielten dadurch das jeweils umgekehrte Vorzeichen, aber das Produkt der beiden Klammern hätte wieder dasselbe Vorzeichen wie vorher.) 

Es sei aber vorerst mal festgehalten, was die Kovarianz Kovarianz cxy

(im Gegensatz zu den Varianzen Vx  und  Vy)

nicht mehr leistet: die Varianzen waren gezielt so definiert worden, dass durch das Quadrieren nur positive Summanden entstanden und somit auch die Varianzen selbst immer positiv waren

(vgl. nochmals ).

Bei den einzelnen Summanden der Kovarianz cxy  und damit auch bei der Kovarianz cxy selbst können aber durchaus negative Werte entstehen, was, wie wir gleich sehen werden, kein Nachteil ist, sondern eine ganz eigene Aussagekraft hat.

Zwar wird in unserem konkreten Körpergrößen-/Körpergewicht-Beispiel kein Summand negativ, aber das würde beispielsweise passieren, wenn eine Person 150 cm groß und 80 kg schwer wäre, denn dann würde das entsprechende Produkt in der Kovarianz-Formel lauten:

     =

=  -  208, also eine negative Zahl.

Eine negative Zahl kommt immer zustande, wenn eine Person

  1.           kleiner als der Mittelwert = 166 cm, aber schwerer als der Mittelwert   = 67 kg

(also für ihre Größe allzu dick)

  1. oder größer als der Mittelwert = 166 cm, aber schwerer als der Mittelwert   = 67 kg

(also für ihre Größe allzu spindeldürr

ist.

Der Zusammenhang sieht in der Grafik so aus:

 

Damit könne wir immerhin Tendenzen für die Kovarianz cxy, also die Summe all dieser negativen oder positiven Produkte, erkennen:

  1. wenn die Punkte "großteils" in den beiden xxxxx-Quadranten liegen, ist die Kovarianz cxy positiv:

Die Punkte hätten also eine steigende Tendenz: "je größer x, desto größer y".

  1. wenn die Punkte "großteils" in den beiden xxxxx-Quadranten liegen, ist die Kovarianz cxy negativ:

Die Punkte hätten also eine fallende Tendenz: "je größer x, desto kleiner y".

  1. stellt sich damit aber auch die Frage, ob die Punkte so liegen können, dass die  Kovarianz cxy in der Nähe von Null liegt oder gar genau Null wird..

Man könnte auf Anhieb meinen, dass sie dann

d.h. gleichmäßig sowohl in xxxxx-Quadranten als auch in xxxxx-Quadranten liegen:

In allen vier Fällen würde sich aber nicht der Mittelpunkt M ergeben, sondern er läge höher oder tiefer, weiter links oder weiter rechts.

Vielmehr liegen die Punkte dann

denn dann ergäben sich massenhaft Null-Produkte:

Hier tut es gut, auf unser Aufgabenbeispiel "Körpergröße/Körpergewicht" zurück zu schauen: was bedeuten da die Linie --------  sowie die LInie -------- ?:

Eine andere Möglichkeit, dass die Kovarianz cxy in der Nähe von Null liegt, besteht darin, dass die Punkte "ziemlich gleichmäßig" in allen vier Quadranten a. bis d. liegen:

Dann aber liegt ein reines Chaos vor und ist eben kein Zusammenhang zwischen Körpergröße und Körpergewicht zu erkennen.

Sinnvoll bleiben also nur die Fälle A. und B., d.h. steigende oder fallende Tendenz. Und da bei unserem Beispiel sämtliche Punkte in den xxxxx-Quadranten c. und d. liegen, liegt der Fall A. vor:

d.h. in unserem Beispiel liegt eindeutig eine steigende Tendenz vor. Das ist nun wahrhaft keine weltbewegend neue Erkenntnis, sondern

Aber wir brauchen solche Kovarianz-Überlegungen für Fälle, in denen aus der Lage der Punkte nicht so eindeutig hervorgeht, welche Tendenz eventuell eben doch vorliegt.

In der Tat ist in unserem Beispiel

cxy

positiv, und zwar schon allein deshalb, weil alle Produkte positivsind. Es ergibt sich

cxy = 298

Man sagt auch:

Trotz kleiner Schwankungen haben wir in unserem Körpergröße/Körpergewicht-Beispiel also insgesamt die Tendenz "steigend" bzw. "je größer die Leute sind, desto schwerer sind sie"

(was uns - nochmals gesagt - allerdings nicht sonderlich überrascht).

Bleiben  wir aber noch bei den

(typisch Statistik bzw. Wahrscheinlichkeitsrechnung!)

vielen Unwägbarkeiten, also Worten wie

Diese Unwägbarkeiten hängen weitgehend mit "'Ausreißern" zusammen, d.h. Einzel- oder einigen wenigen Punkten, die von der sonstigen Tendenz abweichen

(aber wo ist da die Grenze zum völligen Chaos?).

Die Unwägbarkeiten zeigen sich insbesondere darin, dass einige wenige Punkte in den "falschen" Quadranten liegen. Die Unwägbarkeiten ergeben sich aber auch durch die Entfernungen solcher Punkte vom Mittelpunkt M.

Die Entfernungen der Punkte zum Mittelpunkt M werden nämlich durch die Produkte abgeschätzt

(wenn auch nicht exakt angegeben):

die Produkte (oder genauer: ihre Beträge) werden

... womit wir die oben verworfenen Abstände der Punkte vom Mittelpunkt M indirekt doch wieder benutzt haben.


  "The person who first introduced the tool of the correlation coefficient was the Victorian geographer, meteorologist, anthropologist, and statistician Sir Francis Galton (1822-1911)."
(zitiert nach ; zum "Galton-Brett" vgl. auch .)
 

Der Unwägbarkeiten wird man ein wenig Herr, wenn man die Kovarianz cxy zum "Korrelationskoeffizienten" xy "normiert", d.h. für beliebige zweidimensionale Verteilungen auf das Intervall [ - 1 | +1 ] schrumpft bzw. ausdehnt

(nebenbei: ist der griechische Buchstabe "rho"):

Diese Normierung erfolgt natürlich in Analogie zur Wahrscheinlichkeit, die ja auf das Intervall [0 | +1 ] normiert wurde, und genauso, wie bei der Wahrscheinlichkeit 0 für "ausgeschlossen" und +1 für "absolut sicher" steht, bedeuten auch bei xy die Werte -1, 0 und +1 sichere Aussagen, die Werte dazwischen aber nur mehr oder weniger gute Annäherungen.

Es gibt verschiedene Möglichkeiten, den "Korrelationskoeffizienten" zu definieren und zu berechnen. Eine dieser Möglichkeiten funktioniert nach der Formel

In unserem Fall ergibt sich damit xy , also ein doch sehr nah an +1 liegender Wert, so dass wir davon ausgehen können, dass sich unsere Verteilung trotz aller kleinen Abweichungen weitgehend positiv linear verhält, im Koordinatensystem also gut durch eine steigende Gerade angenähert werden kann.

(Hier sei nicht geklärt, wie man überhaupt auf  kommt und weshalb xy Werte zwischen -1 und +1 ergibt. Wichig ist hingegen, dass das markante Vorzeichen von  cxy unverändert auf xy übertragen wird, da sowohl σx als auch σy nie negativ ist.)

Erst im Nachhinein wird also wirklich klar, wozu die Kovarianz cxy und mehr noch der Korrelationskoeffizient xy eigentlich da sind: sie sind Maßstäbe dafür, ob eine zweidimensionale Verteilung sich überhaupt halbwegs linear verhält und wenn ja: wie gut die lineare Annäherung ist.

Da wir für unsere konkrete Körpergrößen-/Körpergewicht-Verteilung mittels xy ≈ 0,93 herausgefunden haben, dass ein ziemlich guter linearer Zusammenhang besteht, wird es nach einem kleinen Intermezzo darum gehen, die konkrete Geradengleichung herauszufinden.


Bisher hatten wir immer mit konkreten Werten gearbeitet. Auf die Dauer ist es aber günstig, eine allgemeine und damit leicht auf andere Verteilungen übertragbare Formel zu haben.

Angenommen also, wir haben die Punkte P1 (x1|y1) bis Pn(xn|yn). Dann ist für 1 ≤ i ≤ n der Punkt Pi (xi|yi) einer dieser Punkte.

Damit wird aus der konkreten Kovarianz-Formel

cxy

die allgemeine Kovarianz-Formel

cxy


Wie bereits oben gesagt, kann "je größer, desto schwerer" natürlich auch eine quadratische, kubische oder sonstige Funktion bedeuten, für die es je eigene Berechnungsverfahren gibt

(z.B. die "quadratische Korrelation/Regression").

Da unser  konkretes Körpergröße/Körpergewicht-Beispiel aber doch sehr nach Linearität "riecht", suchen wir nun

(wie oben schon angedeutet)

nach der "besten" Geraden, wobei wir schon eine Vorbedingung feststellen: diese "beste" Gerade soll auf jeden Fall durch den allemal bedeutsamen Mittelpunkt M (166|67)  gehen

(worauf unten zurückzukommen ist).

Indem wir voraussetzen, dass annähernd eine Gerade g vorliegt, werden wir natürlich betriebsblind für andere, vielleicht sinnvollere Möglichkeiten.

Auf jeden Fall hat die Geradengleichung aber die Form

g: y = mx + c,

wobei m die Steigung und c der Achsenabschnitt ist.

Im Folgenden tun wir nun etwas ausgesprochen Dreistes: obwohl wir genau wissen, dass die Punkte nicht auf alle auf einer (einzigen!) Geraden liegen, tun wir einfach mal so, als ob das dennoch der Fall wäre.

Wenn wir also die Geradenform voraussetzen, wissen wir, dass für jedes Steigungsdreieck, das zwischen einem Punkt Pi (xi|yi) und dem MittelpunktM (x|y) aufgespannt wird,

Damit ergibt sich  m  = wird kürzer   m  =  , woraus folgt:

Wenn wir das nun für jedes 1 ≤ i ≤ n in unsere allgemeine Kovarianz-Formel

cxy =

einsetzen, so erhalten wir nach einiger Rechnerei etwas wahrhaft Erstaunliches:

cxy =       =

               =                   =

               =                                                    =

               =  

oder kurz

cxy = .

Zumindest auf den ersten Blick erstaunlich ist daran, dass die Kovarianz cxy

(in der doch immerhin zwei Dimensionen berücksichtigt sind)

somit nur ein simples Viel-, nämlich m-faches der

(eindimensionalen)

Varianz Vx ist.

Nunja, ganz so erstaunlich ist das allerdings auch wieder nicht: wir hatten ja eine lineare Abhängigkeit des y vom x vorausgesetzt.

Aus cxy= folgt umgehend

  m  = .

und somit können wir immerhin schon die Steigung  m  der gesuchten Gerade g berechnen. In unserem konkreten Körpergröße/Körpergewicht-Beispiel ergibt sich:

 m  =  =  0,86

Für unsere Gerade gilt also g: y  0,86  x + c .

Um nun auch noch den Achsenabschnitt c berechnen zu können, erinnern wir uns daran, dass insbesondere der so wichtige Mittelpunkt M (166|67)  auf der Gerade g liegen soll. Wir setzen daher seine Koordinaten in die Geradengleichung ein und erhalten

       67    0,86   166 + c

   67   ≈    143,8       + c    | - 143,8

-76,8 ≈                        c

Insgesamt lautet die Gleichung der sogenannten Regressionsgerade also

g: y  0,86  x -76,8

Man beachte, dass diese Gerade g in der Tat - wie oben gefordert - zu allen Punken etwa gleichen Abstand hält.

Deutlich wird anhand der Gerade auch, dass sie natürlich nur für Erwachsene gilt, denn Menschen mit einer Körpergröße von weniger als 90 cm hätten laut dieser Gerade ja ein negatives Gewicht.

Unsere Gerade g: y  0,86   x -76,8  ähnelt annähernd der Formel, mit der man üblicherweise das "Normalgewicht" berechnet, nämlich y = 1 x - 100, d.h. Körpergewicht = Körpergröße - 100.


Es lohnt sich immer, vor und nach allen Rechnungen zu überlegen, inwieweit durchaus richtige mathematische Aussagen überhaupt im Hinblick auf die jeweilige Anwendung sinnvoll sind. Überlegen wir also, was die verschiedenen möglichen Ausfälle von xy im Hinblick auf unser Körpergröße-/Körpergewicht-Beispiel bedeuten können:

  1. dass tatsächlich "im Schnitt" (k)ein linearer Zusammenhang zwischen Körpergröße und Körpergewicht vorliegt

(von wegen "kein": wir wissen aber, dass es ihn dennoch gibt, nämlich nach der Normalgewichtsformel y = 1 x - 100 bzw. Körpergewicht = Körpergröße - 100; vgl. daher in diesem Fall 2.);

  1. dass die zu kleine Ausgangsmenge von nur sechs Personen und darin überrepräsentierte Ausreißer fälschlich den Eindruck erwecken, es gäbe (k)einen linearen Zusammenhang:

"Insofern sich die Sätze der Mathematik auf die Wirklichkeit beziehen, sind sie nicht sicher, und insofern sie sicher sind, beziehen sie sich nicht auf die Wirklichkeit."
(Albert Einstein)

Es wäre also sinnvoll, nach dem "Gesetz der großen Zahlen" eine größere Datenmenge zu nehmen.


Fassen wir nunmehr zusammen:

wir hatten
  • als Vorarbeiten
    • die Mittelwerte                     = 166 und = 67
    • und daraus den Mittelpunkt M (166    |         67)

(also wichtige Zentralwerte

    • sowie die Varianzen Vx = 344 und Vy = 296 und daraus folgend die Standardabweichungen σx und σy  

(also wichtige Bereiche um die Zentralwerte herum) 

bestimmt; 

  • die Kovarianz cxy = 298 sowie den Korrelationskoeffizienten xy ≈ 0,93 berechnet

(diese beiden Merkmale hatten uns überhaupt erst gezeigt, dass ein ziemlich guter linearer Zusammenhang vorliegt, was die folgende Suche nach der Regressionsgeraden überhaupt erst legitimiert), 

  • mittels der Formel  m  =  die Steigung  m  der Regressionsgeraden g: y =  m  x + c berechnet als  m  0,86 ,
  • durch Einsetzen der Koordinaten des Mittelpunkts M (166|67) in die Geradengleichung g: y  0,86  x + c den y-Achsenabschnitt c erhalten als c -76,8,
  • womit sich die Gleichung der Regressionsgerade ergab als g: y =  0,86  x   - 76,8.

Kurz festgehalten sei noch ein wichtiger Unterschied zwischen den berechneten Werten: da gibt es

  1. die aussagekräftigen und anschaulichen Werte, nämlich
  1. Werte, die abstrakt und wenig aussagekräftig sind, aber als Zwischenwerte gebraucht werden, um aus ihnen die Werte aus 1. zu gewinnen:

Man übt all das am besten, indem man sich gezielt aussagekräftige Spezialfälle mit möglichst wenigen und einfachen Werten anschaut, sodass nicht die Rechnungen, sondern das "Prinzip" im Vordergrund stehen/steht. Bei diesen "aussagekräftigen Spezialfällen" weiß man schon vorher, was hinterher "so ungefähr" rauskommen wird, und kann es somit kontrollieren:

 

An dem Beispiel sei nun mal gezeigt, wie sich (auch für mich) endlich ein intuitives Verständnis ergibt:

es liegt ja wohl nahe, so etwa folgende steigende Regressionsgerade zu verwenden:

Erste kleine Rechnungen ergeben:

Jetzt seien noch

Das sind überwiegend positiv gewertete Abstände, und deshalb werden auch sowohl die Kovarianz cxy als auch der Korrelationskoeffizienten xy  positiv, d.h. auch so gesehen liegt eine steigende Regressionsgerade vor.

Ganz anders liegt der Fall in :

Hier gibt es offensichtlich mehrere "sinnvolle" Geraden:

Aber was heißt schon "sinnvoll"?:

stellen wir uns also vor, dass hier wieder von der Körpergrößen-/Körpergewicht-Verteilung die Rede ist

(auch wenn da die Zahlenwerte 1 und 4 da unsinnig sind).

dann würde

  1. g1 bedeuten, dass alle Menschen trotz unterschiedlicher Größe dasselbe Gewicht haben,
  2. g2 bedeuten, dass alle Menschen dieselbe Größe, aber unterschiedliche Gewichte haben,
  3. g3 bedeuten: je größer ein Mensch ist, desto schwerer ist er,
  4. g4 bedeuten: je größer ein Mensch ist, desto kleiner ist er.

Da wäre offensichtlich nur der Fall c. sinnvoll. Aber beispielsweise an d. ist nicht so wichtig, dass er allen Erfahrungen widerspricht, sondern vielmehr, dass er eine unsinnige Folgerung aus dem Umstand ist, dass zwei "Einer" und zwei "VVierer" unterschiedliche Gewichte haben.

Unsinnig ist aber vor allem, dass man aus offensichtlich alles

(und sogar völlig Widersprüchliches)

folgern kann.

Schauen wir uns nun wieder die "Abstände" der Punkte an:

Offensichtlich heben sich hier die positiv und negativ gewerteten Abstände beim Addieren alle gegenseitig zu Null auf, womit sowohl die Kovarianz cxy als auch der Korrelationskoeffizienten xy Null werden und es also auch so gesehen keine sinnvolle Regressionsgerade gibt.

Auf ein im Hinblick auf die Bedeutung des Korrelationskoeffizienten xy  besonders schönes Beispiel hat mich aber die Schülerin Vanessa Sumpmann aufmerksam gemacht:

(Ein "Anwendungsbeispiel" wäre da:

Die anschaulich beste Näherungsgerade g ist da offensichtlich g: y = 1 • x + 1 = x + 1

,

da sich bei ihr alle Abstände nach links oben und rechts unten genau ausgleichen:

Rechnerisch ergibt sich aber xy  ≈ 0,63, was auf eine höchstens mittelprächtige Annäherbarkeit durch eine Gerade hindeutet. Wenn man aber weiterrechnet, ergibt sich für diese mittelprächtige Gerade tatsächlich die schon oben anschaulich erahnte Geradengleichung y = x + 1.

Wie aber sind da "beste Näherungsgerade" und "höchstens mittelprächtige Annäherbarkeit" miteinander vereinbar? Ist die gefundene Gerade sozusagen der Einäugige unter den Blinden, also nur die beste unter den durchweg schlechten?

Offensichtlich miss der Korrelationskoeffizient xy also

(was ja immerhin uns Anfangszugang war),

ob sich die (positiv und negativ gemessenen) Abstände der Punkte zur Geraden gegenseitig ausgleichen,

Und die Gerade in

hält nunmal unweigerlich zu allen Punkten einen gewissen Abstand bzw. es ist beim besten Willen nicht möglich, eine Gerade durch alle sechs Punkte zu zeichnen.

Woran das aber liegt, wird erst durch das "Anwendungsproblem" klar: wir wollten ja einen Zusammenhang zwischen der Körpergröße und dem Körpergewicht von Elefanten herauszubekommen. Der ist aber laut xy  ≈ 0,63 nur "mittelprächtig" zu ermitteln, weil

(Elefanten können auch gleich groß und dennoch unterschiedlich schwer sein)

Dennoch gibt es aber ansatzweise den Trend "je größer, desto schwerer".


Oben war von der Möglichkeit einer quadratischen Anpassung gesprochen worden. Sie sähe für unser Körpergrößen-/Körpergewicht-Beispiel so aus:

Und eine vielleicht ja

(wie ebenfalls oben gezeigt)

besonders sinnvolle kubische Anpassung, also mittels einer Funktion dritten Grades, sähe so aus:


Um das "Prinzip" zu verstehen, wäre sogar die Übertragung auf eine dreidimensionale Verteilung interessant

(allerdings am besten in einem tatsächlich dreidimensionalen Koordinatensystem-Modell):

(Dabei sei dahingestellt, was hier Kovarianz und Korrelation bedeuten mögen und was die Regressionsgerade[-ebene?] sein mag.)

Und erst wenn das "Prinzip" klar ist, überlässt man größere Datenmengen dem Computer.


Vorsicht:

  • oftmals werden Schein-Korrelationen zwischen zwei Größen entdeckt, obwohl beide gar nichts miteinander zu tun haben oder der wirkliche Grund für den Zusammenhang eine dritte Größe ist, die zu betrachten man schlichtweg vergessen hat:

"Ein bekanntes Beispiel in der Statistik [für die Scheinkorrelation] ist die Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare in verschiedenen Regionen. Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt, gibt es keinen kausalen Zusammenhang. Tatsächlich gibt es aber einen kausalen Zusammenhang zu einer dritten (intervenierenden) Variable: der Ländlichkeit der Region. Je ländlicher eine Region ist, desto höher ist die Zahl der Kindergeburten und desto größer ist die Zahl der Storchenpaare. Dies führt zu der Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare."
(zitiert nach )

  • "Korrelation" bedeutet insbesondere nicht automatisch, dass auch ein ursächlicher Zusammenhang besteht:


Wie der Lexikon-Eintrag oben zum Thema "Regression" schon mit

"[...] näherungsweise[...] Beschreibung einer Variablen als Funktion [einer] andere[n] [...]"

angedeutet hat: mit all unseren Überlegungen oben ist es uns

(wenn auch auf arg brachiale Art)

gelungen, den Hauptgegenstand der gesamten Schulmathematik, nämlich "Funktionen", auch in die Statistik/Wahrscheinlichkeitsrechnung einzuschleusen:

  • "Wenn man ein Hammer ist, scheint die ganze Welt nur aus Nägeln zu bestehen."
  • Wenn man einE MathematikerIn ist, sieht man allüberall Funktionen (hinein).

Bzw. es ist, als wenn die Militärregierung "Funktionen" durch Putsch auch die Macht im Staat "Statistik/Wahrscheinlichkeitsrechnung" übernommen hätte.

Funktionen sind aber nunmal der mathematische Königsweg, um Zusammenhänge zu begreifen.


Anfangs hatte ich gefragt:

  1. : wenn von der Korrelation/Regression überhaupt was hängen bleiben soll

(und zwar, wie soeben gesagt, nicht die Formeln und Rechnungen)

was denn?

  1. : oder sollen die SchülerInnen nur etwas ANHAND der Korrelation/Regression lernen, ist sie also bloß Mittel zum

      
         (zu welchem?)span class="style7">

    Zweck?

Nun war die Herleitung von Korrelation und Regression(sgerade) offensichtlich ein langer Weg mit vielen, teilweise ellenlangen Formeln

(die man sowieso in einer Formelsammlung nachschlägt).

Das Allermeiste davon wird  zweifelsohne spätestens nach der betreffenden Klausur vergessen. Was also soll im besten Fall davon übrig bleiben?:

  1. die Grundsatzüberlegung, jede Verteilung
  • auf einen "Punkt" (im Eindimensionalen: Mittelwerte, im Zweidimensionalen: Mittelpunkt)
  • und einen "Bereich" (Standardabweichungen)

zu reduzieren;

  1. die vielfältige Verwendung des Mittelwerts

(hier für nur drei Punkte P (x1 | y1), P2 (x2 | y2) und P3 (x3 | y3) ):

dabei wird in Gleichungen, die das Muster (  -  ) enthalten, der Mittelwert von [evtl. negativ gemessenen] Abständen gebildet, und zwar

  •           der Abstände zwischen den xi und dem Mittelwert x
  • bzw. der Abstände zwischen den  yi und dem Mittelwert y.

Es wird also jeweils der Mittelwert der Abstände von einem Mittelwert berechnet

[vgl. "der Vater des Vaters der Mutter des Onkels ..."; alle Klarheiten beseitigt?);

  1. die Verbindung zweier eindimensionaler Verteilungen zu einer zweidimensionalen Verteilung;
  2. die drei Möglichkeiten
  • fallende    Regressionsgerade,
  • steigende Regressionsgerade,
  • gar kein Zusammenhang

(oder zumindest kein linearer);

  1. der "Funktionen-Putsch";
  2. in arg "weiches" Kriterium: eine zunehmende mathematische "Kondition", die durch die "Denkgymnastik" bei obigen Überlegungen erworben wurde.