Heiner Stauff - anschauliche Mathematik

Korrelation Regression

Die Statistik ist ja so ungemein wichtig, dass sämtliche Pädagogen, Sozialwissenschaftler, Betriebswirtschaftler usw. in ihrem Studium den berühmt-berüchtigten "Statistik-Schein" machen müssen.

Dieser ist für viele die größte Hürde ihres gesamten Studiums und wird üblicherweise folgendermaßen erreicht:

paukt man sich stumpf die (unverstandenen!) Formeln in den Kopf,
besteht man damit spätestens nach dem dritten Anlauf dann doch noch die Prüfung,
vergisst man nach der Prüfung alles wieder komplett, und danach ist's, als wär' nichts gewesen, bzw.

"zum einen Ohr rein, zum anderen wieder raus".

In der Schule ist's beim Thema "Korrelation/Regression" schon vom Lehrplan her ganz ähnlich: diese beiden Themen stehen nur in der 11. Klasse an. Zwar folgt in der 12. und 13. Klasse noch die eigentliche Stochastik/Wahrscheinlichkeitsrechnung

(bis hin zu ),

aber von "Korrelation/Regression" ist da nie wieder die Rede, d.h. diese beiden Themen werden nach der 11. Klasse natürlich umgehend wieder gründlich vergessen (verdrängt).

Weshalb werden sie dann überhaupt (eben in der 11. Klasse) durchgenommen?

Bzw. gibt es einen besseren Grund dafür als den, dass halt irgendwas (möglichst Schwieriges) abgeprüft werden soll?

Wenn wir also so realistisch sind einzugestehen, dass die konkreten Themen "Korrelation/Regression"

(oder zumindest doch alle diesbezüglichen Formeln und Rechenverfahren)

sowieso vergessen werden

(wie so vieler anderer Mathe-Schulstoff, also z.B. die ach so bedeutsame Prozent- und Dreisatzrechnung),

so stellt sich die Frage verändert

(aber bezeichnend für den gesamten Mathe-Unterricht)

: wenn von der Korrelation/Regression überhaupt was hängen bleiben soll

(und zwar, wie soeben gesagt, nicht die Formeln und Rechnungen),

was denn?

: oder sollen die SchülerInnen nur etwas ANHAND der Korrelation/Regression lernen, ist sie also bloß Mittel zum

(zu welchem?)

Zweck?

Wenn aber weder 1. noch 2. der Fall ist, lasse man die Korrelation/Regression einfach weg!

Eine typische Antwort ist da, dass die SchülerInnen "im späteren Leben"

(selbst wenn sie nicht Pädagogik, Sozialwissenschaften, BWL ... studieren oder die Statistik gar tatsächlich dringend in ihren späteren Berufen brauchen)

"kritisch" mit statischen Behauptungen umgehen können sollen:

Allerdings hat solch eine Begründung einen entscheidenden Haken: üblicherweise begegnet "Otto Normalverbraucher" Statistiken

(Wirtschaftswerten, Wahlumfragen, Umfragen zu Konsum- und Lebensgewohnheiten ...)

nur in den Mainstream-Medien, und da fehlen

(abgesehen vielleicht von "1000 repräsentativ [???] ausgewählte Bürger")

jegliche statistischen Hintergründe

(Datenauswahl, Rechenverfahren, genaue Fragen ...),

so dass eine "kritische" Bewertung sowieso ausgeschlossen ist.

Die einzig sinnvolle Reaktion kann da nur eine grundsätzliche, aber eben doch auch ressentimentbeladene Skepsis gegenüber allen Statistiken sein, also etwa

"ich glaube nur noch Statistiken, die ich selbst gefälscht habe".

Bzw. es hilft höchstens, nach

(soweit überhaupt herauszufinden)

dem Urheber/Auftraggeber einer Statistik zu fragen:

beim Statistischen Bundesamt bin ich gläubiger als bei
"Wissenschaftler haben jetzt herausgefunden, dass Rauchen doch nicht schädlich ist. Gez. Dr. Marlboro."
(Otto Waalkes)

Wenn man aber so argumentiert, wie ich es hier bislang getan habe, folgt daraus, dass man

alles detaillierte Rechnen, wie es in der Schule üblich ist, besser vollständig weglässt und
stattdessen besser beispielsweise mit dem allgemeinverständlichen, kaum Formeln enthaltenden Buch

arbeitet

(und ich meine ja in der Tat: zugunsten populärwissenschaftlicher Bücher!).

Das Rechnen ist ja gerade in der Statistik höchst zweifelhaft:

einerseits sind die Rechnungen zwar meistens sehr einfach, gehen nämlich über die simple Bruchrechnung kaum hinaus,
andererseits erfordern gerade größere Datensätze, bei denen nicht sowieso alles von Anfang an klar ist, schnell sehr viele und ellenlange Rechnungen

(z.B. bei der Kovarianz [s.u.] von 100 Datenpaaren).

Diese Rechnungen überlässt man heute gerne Computern bzw. Rechnern

(vgl. ),

aber gegen diese gibt's eben auch wieder zwei Argumente:

zwar sollen sie das umständliche Rechnen zugunsten grundsätzlicheren Verständnisses abbauen, aber das führt doch schnell dazu, dass sie ohne Sinn und Verstand gefüttert und ihre Ergebnisse blind geglaubt werden

(jüngst habe ich gehört, dass "grafikfähige Taschenrechner" an einer Uni zu Beginn eines Ingenieurstudiums schon wieder verboten sind);

ich bin ja sogar zu faul, einen Rechner/Computer überhaupt erst mit massenhaft Rohdaten zu füttern

(und ihm dann das stumpfe Rechnen zu überlassen).

Ich brauche also keine Rechner/Computer, sondern mir reicht eine Datenmenge, die

klein genug ist, um grundsätzliche Rechenverfahren noch "händisch" anwenden zu können - und zu verstehen,
groß genug ist, damit man merkt, dass auf die Dauer der Rechenknecht wünschenswert wäre.

Es geht mir also um das "tiefere" Verständnis der zentralen Verfahren - an kleinen Datenmengen.

Und es ist mir wichtig zu zeigen, welche grundsätzlichen Probleme anliegen können und wie man sie angehen kann.

Der Nähr- und Bildungswert der gesamten Schulmathematik besteht nämlich in grundsätzlichen

"mathematischen Denkweisen",

von denen eine die Statistik ist - und in engerem Sinn das Problem "Korrelation/Regression".

Wichtig an der Statistik bzw. "Korrelation/Regression" sind

(wie an jedem Schulstoff)

aber allein diejenigen "mathematischen Denkweisen", die in der sonstigen Schulmathematik keine Rolle spielen oder die zumindest neueAspekte am sonstigen Stoff zeigen.

Gäb's keinen Lehrplan, so wäre ich's also zufrieden, wenn "meine" SchülerInnen

die grundsätzlichen Probleme und Verfahren der "Korrelation/Regression"

(sicherlich anhand knapper Rechnungen)

verstehen würden,

aber, wenn's hart auf hart käme, keine einzige statistische Berechnung durchführen könnten.

Die "Probleme und Verfahren" bleiben nämlich vielleicht eher "hängen" als die Rechnungen.

Kor|re|la|ti|on [...zion; "Wechselbeziehung"] die; -, -en: 1. das Aufeinanderbezogensein von zwei Begriffen. 2. Zusammenhang zwischen [zwei] statistischen Ergebnissen, die durch Wahrscheinlichkeitsrech-nung ermittelt werden (Math.). 3. Wechselbeziehung zwischen verschiedenen [z.B. zwei] Organen od. Organteilen (Med.).
(Duden - Fremwörter)

Re|gres|si|on [lat.] die; -, -en: 1. langsamer Rückzug des Meeres (Geogr.). 2. (Psychol.) a) Reaktivierung entwicklungsgeschichtlich älterer Verhaltensweisen bei Abbau od. Verlust des höheren Niveaus; b) das Zurückfallen auf frühere, kindliche Stufen der Triebvorgänge. 3. (Rhet.) a) = Epanodos; b) nachträgliche, erläuternde Wiederaufnahme. 4. Aufteilung einer Variablen in [zwei Variable, nämlich z.B.] einen systematischen u. einen zufälligen Teil zur näherungsweisen Beschreibung einer Variablen als Funktion anderer (Statistik). 5. das Schrumpfen des Ausbreitungsgebiets einer Art od. Rasse von Lebewesen (Biol.).
(Duden - Fremwörter)

In der bisherigen Statistik und Wahrscheinlichkeitsrechnung war immer nur von einem einzigen Verteilungsmerkmal die Rede, also z.B. den Körpergrößen von fünf Personen

	Person:	1	2	3	4	5
	erste und einzige Dimension: Körpergröße	140 cm	150 cm	170 cm	180 cm	190 cm

Dabei bedeutet "erste und einzige Dimension" bzw. "eindimensional", dass wir uns bei jeder Person nur für ein einziges Merkmal, nämlich eben die Körpergröße, interessieren.

"eindimensional" bedeutet auch, dass wir alle Körpergrößen auf einer Achse, nämlich der x-Achse, darstellen können:

(wie in )

Eine andere, ebenfalls eindimensionale Verteilung, diesmal allerdings auf der y-Achse dargestellt, ist z.B. die der Körpergewichte:

Bei der "Korrelation/Regression" kommen nun immer zwei Verteilungsmerkmale vor, und es wird untersucht, ob sie in Zusammenhang miteinander stehen und, wenn ja, in welchem.

Im Folgenden soll es um den Zusammenhang der beiden Verteilungsmerkmale Körpergröße und Körpergewicht von Menschen gehen

(womit natürlich schon unterstellt wird, dass es einen solchen Zusammenhang gibt),

und da ist es doch naheliegend, erstmal den "gesunden Menschenverstand" bzw. die Anschauung zu bemühen

(wohl wissend, das die manchmal ganz schön trügen können).

In der Regel wird es doch so sein:

je größer ein Mensch ist, desto schwerer ist er auch.

Dabei ist natürlich klar, dass es immer auch "Ausreißer" gibt, also z.B. sehr kleine Moppelchen oder sehr große Magersüchtige. Ein Patentrezept bzw. ein alle Fälle umfassender Zusammenhang ist also nicht zu erwarten. Vielmehr suchen wir eine eingeschränkte Regel, wohl wissend: "Jede Regel hat eine Ausnahme."

"je größer ein Mensch ist, desto schwerer ist er auch" lässt auf Anhieb einen (hübsch einfachen) linearen Zusammenhang vermuten.

Allerdings gibt es zwei schon mehr oder minder mathematische Argumente gegen dieses "linear":

gilt beispielsweise auch bei einer Parabel "je größer, desto schwerer":

Und der sogenannte "Body-Mass-Index" funktioniert ja tatsächlich quadratisch: man nehme die Formel

(wobei

m = Masse = Körpergewicht,
l = Länge = Körpergröße, hier allerdings in Metern

[also z.B. 180 cm = 1,8 m]

ist)

und löse es nach m auf, also zu m = BMI • l². Wenn nun das Normalgewichts-Body-Mass-Index bei ca. 20 liegt, also BMI = 20 ist, so ergibt sich

m = 20 • l²

Oder mit unseren Bezeichnungen:

y = 20 • x².

Für (wie oben) Zentimeter umgerechnet ergibt sich damit

hängt das Körpergewicht vielleicht weniger von der Länge als vom Volumen ab, und das wächst mit der dritten Potenz: stellen wir uns also der Einfachheit halber mal vor, zwei Person hätten Würfelform und

der erste Würfel hätte die Seitenlänge 1 m,
der zweite die Seitenlänge 2 m.

Dann hätte

der erste Würfel ein Volumen von 1 m • 1 m • 1 m = 1 m³,
der zweite Würfel ein Volumen von 2 m • 2 m • 2 m = 8 m³,
was aber doch hieße, dass er
- bei doppelter Länge
- ein acht(!)faches Volumen und damit wohl auch
- ein achtfaches Gewicht hätte.

Zu vermuten wäre da also ein Graph dritten Grades, bei dem auch wieder "je größer, desto schwerer" gelten würde:

(Dieses Volumenargument ist auch der Grund dafür, dass man beispielsweise eine Maus nicht gleichmäßig auf die Größe eines Elefanten vergrößern könnte: weil das Volumen so rasant ansteigt, müsste die Knochengerüst sehr viel schneller wachsen als der Rest und könnte die Maus hinterher vor lauter Knochen kaum gehen.)

Angenommen mal, dass wir bei jeder von fünf Personen nun gleichzeitig Körpergröße und Körpergewicht messen:

Person:	1	2	3	4	5
erste Dimension: Körpergröße	140 cm	150 cm	170 cm	180 cm	190 cm
zweite Dimension: Körpergewicht	45 kg	50 kg	80 kg	70 kg	90 kg

Zur gleichzeitigen Darstellung beider Merkmale, also sowohl der Körpergröße als auch des Körpergewichts, brauchen wir hier zwei Achsen bzw. das zweidimensionale Koordinatensystem:

(Wie üblich, sind hier die y-Werte [Körpergewichte] abhängig von den x-Werten [Körpergrößen]. Man nennt

die x-Werte [Körpergrößen] auch "unabhängige"
und die y-Werte [Körpergewichte] auch "abhängige" Variablen.

Rein mathematisch könnte man natürlich auch umgekehrt die Körpergrößen [dann auf der y-Achse] in Abhängigkeit von den Körpergewichten [dann auf der x-Achse] ausdrücken, aber das ist vom "Problem" her wenig sinnvoll:

man kann wohl einem 1,70 m großen Menschen, der 80 kg wiegt, sagen, dass er am besten 70 kg wiegen würde und also abnehmen sollte,
aber es wäre wenig sinnvoll, einem 1,70 m großen Menschen, der 90 kg wiegt, zu sagen, dass er am besten 1,90 m groß wäre:

man kann vielleicht sein Gewicht, aber sicherlich nicht seine Größe ändern.)

Um jetzt noch klarzustellen, welches Körpergewicht zu welcher Körpergröße gehört, ordnen wir jeder Person einenPunkt aus zweiKoordinaten, nämlich der Körpergrößen- und der Körpergewichtskoordinate, zu:

Person:	1	2	3	4	5
erste Dimension: Körpergröße	140 cm	150 cm	170 cm	180 cm	190 cm
zweite Dimension: Körpergewicht	45 kg	50 kg	80 kg	70 kg	90 kg
Punkt	(140\|45)	(150\|50)	(170\|80)	(180\|70)	(190\|90)

Die Punkte und wohl auch ihr eventueller Zusammenhang werden aber erst im Koordinatensystem anschaulich:

Es ergibt sich also eine sogenannte "Punktwolke":

Solch eine Punktwolke ist aber auf Anhieb immer erstmal ein schlechtes Zeichen. Schon der Begriff "Punktwolke" deutet ja an, dass alles arg "wolkig" und "verschwommen", d.h. unregelmäßig und zusammenhangslos ist bzw. zu sein scheint.

Nun wäre es ja durchaus möglich, durch die fünf Punkte den Graph einer Funktion fünften Grades zu legen, was etwa so aussähe:

Aber das hätte doch verschiedene Nachteile:

erfordert das nicht mehr ganz einfache Rechnungen,
bekämen wir damit einen sehr umständlichen und damit (beispielsweise in einer Arztpraxis) wenig hilfreichen Zusammenhang,
würden wir damit auf alle "Ausreißer", d.h. alle Ausnahmen von der Regel reinfallen: da muss nur eine der fünf Personen viel zu schwer oder viel zu leicht sein, und schon würde sie unser Bild erheblich verkomplizieren.

In der Grafik lässt sich aber durchaus schon erkennen, wer da der Ausreißer ist. Und zwar wird das dadurch deutlich, dass sich die "Wege" einmal kreuzen:

Offensichtlich sticht Person 3 mit dem Punkt (170|80) allzu stark heraus bzw. ist sie zu schwer. Wenn wir sie probeweise mal weglassen, ergibt sich folgendes Bild:

Hier könnte man nun einen (ziemlich einfachen) linearen Zusammenhang vermuten, der aber noch nur ungenau festzulegen ist - und etwa so aussähe:

Nun steht also doch die Vermutung im Raum, dass es einen linearen Zusammenhang zwischen Körpergröße und Körpergewicht geben könnte.

Allerdings wollen wir Person 3 nicht so einfach und willkürlich eliminieren, sondern doch wieder mit berücksichtigen, womit wir zurückkehren zu

Allemal klar ist, dass es keine Gerade gibt, die tatsächlich durch alle Punkte geht. Wir suchen vielmehr eine Gerade, die die Punkte "bestmöglich" annähert. Dabei bedeutet "bestmöglich", dass sich Abweichungen der Einzelpunkte von der Geraden möglichst gut gegenseitig ausgleichen:

Hier gleichen sich die Abstände der (von links gezählt) ersten beiden Punkte zur Geraden genauso aus wie die Abstände der nächsten beiden Punkte zur Geraden, und der fünfte Punkt (ganz rechts) liegt sogar exakt auf der Geraden.

Oder anders gesagt: was Person 1 zu dick ist, ist Person 2 zu dünn, und was Person 3 zu dick ist, ist Person 4 zu dünn.

Allerdings wurde die Gerade nur nach Augenmaß und durch Probieren gefunden, und überhaupt ist "halbwegs" natürlich kein stichhaltiges mathematisches Argument. Als MathematikerInnen wollen wir selbstverständlich die exakteGeradengleichung haben.

Kehren wir damit aber erstmal zur Punktwolke zurück:

Wie so oft in der Mathematik, so sollte man auch beim vorliegenden neuen Problem mal zu Altem zurückschauen, und zwar hier zu eindimensionalen Verteilungen, denn schließlich ist unsere zweidimensionale Körpergröße-/-gewicht-Verteilung aus zwei eindimensionalen Verteilungen zusammengesetzt.

Deshalb sei hier an erinnert, und in der Tat werden wir bei zweidimensionalen Verteilungen Ähnliches wie den Mittelwert (nämlich den Mittelpunkt) und die Varianz (nämlich die Kovarianz) brauchen.

Wenn wir uns also zuerst an die Mittelwertberechnung bei eindimensionalen Verteilungen erinnern, so können wir

einerseits den Mittelwert der Körpergrößen ,
andererseits den Mittelwert der Körpergewichte errechnen,

und aus beiden zusammen den MittelpunktM der Punktwolke ermitteln.

Zu a.: =

Zu b.: =

Und damit ergibt sich der Mittelpunkt der Punktwolke als M (166|67):

Eine der Bedingungen an unsere bestmögliche Gerade ist nun, dass sie durch diesen zweifelsohne für die Körpergröße-/-gewicht-Verteilung besonders aussagekräftigen MittelpunktM (166|67) der Punktwolke gehen soll

(darauf wird unten zurückzukommen sein!).

Damit ergibt sich aber vorerst eine Fülle mehr oder weniger sinnvoller Geraden:

Erinnern wir uns nunmehr in einem zweiten Schritt auch noch an die (empirische) Varianz im Eindimensionalen

(vgl. wieder ):

für die Körpergrößen ergibt sich beim Mittelwert x = 1,66 die Varianz

V_x= = 344

für die Körpergewichte ergibt sich beim Mittelwert y = 67 die Varianz

V_y= = 296

Daraus lassen sich mittels Wurzelziehen die Standardabweichungen bestimmen:

σ_x= ≈ 18,5 ,
σ_y= ≈ 17,2 .

Damit können wir als neue Bereiche einzeichnen

und erhalten damit statt der unregelmäßigen Punktwolke ein übersichtlicheres Rechteck., in dem zwar nicht mehr (wie in der Punktwolke) alle Punkte liegen, aber doch der Trend deutlich wird.

Hier könnte man nun überlegen, was dieses Rechteck in Analogie zu über die zweidimensionale Verteilung aussagt, aber das soll hier nicht unser Thema sein.

Nun könnte man für die Punkte Ähnliches tun, was man für die x-Werte bzw. die y-Werte gemacht hat:

bei letzteren hatten wir den Abstand der x- bzw. y-Werte vom jeweiligen Mittelwert x = 166 bzw. y = 67 bestimmt,
und genauso könnten wir nun die Abstände der (aus den x- und y-Werten zusammengesetzten) Punkte vom (aus x = 166 und = 67 zusammengesetzten) Mittelpunkt M (166|67) bestimmen und daraus dann (wie bei den Varianzen V_x und V_y) nochmals den Mittelwert zu bestimmen.

An einem der Punkte , nämlich P(140|45), sei mal exemplarisch gezeigt, wie der Abstand a vom MittelpunktM (166|67) berechnet werden kann:

Hier muss man nun den Satz des Pythagoras als geeignetes Hilfsmittel und somit ein rechtwinkliges Dreieck als Hilfsmittel erkennen:

Damit ergibt sich

Wichtig daran ist: da wir einen Abstand berechnen, ziehen wir nur die positive Wurzel, können wir uns also das Quadrieren sparen, das wir bei den Varianzen benutzt hatten, um negative Werte zu verhindern.

Und dennoch gäbe es gute Gründe, die Abstände dennoch zu quadrieren:

, um die leidige Wurzel in zu vermeiden,
, um ein mit den Varianzen vergleichbares Ergebnis zu erhalten

(dann müssen wir allerdings hinterher aus dem Mittelwert der Abstände - wie bei der Standardabweichungen - doch wieder die Wurzel ziehen).

All solche Rechnungen seien hier nicht ausdrücklich vorgeführt, sondern es sei nur das "geometrische" Ergebnis verraten:

Wir erhalten also einen Kreis, und zwar einen, der dieselbe Fläche hat wie das Rechteck in

Wir erhalten mit dem Kreis also keine wirklich neue Information - und verlassen deshalb diesen unnötigen (Um-)Weg.

Es ist mir allerdings ein Rätsel, wie man auf den anderen, jetzt folgenden Weg gekommen ist. Sein Sinn ist mir erst im Nachhinein, von seinem Ende her klar geworden, und deshalb bitte ich auch die LeserInnen um etwas Geduld.

Für diesen anderen Weg kehren wir zu den Varianzen

V_x= = 344
V_y= = 296

zurück. Daran sollen uns jetzt nicht mehr die Endergebnisse344 bzw. 296 interessieren, sondern die Konstruktion der Varianzen. Wenn wir die Quadrate als Produkte zweier identischer Terme schreiben, erhalten wir:

V_x=
V_y=

Mit diesen beiden einzelnen, eindimensionalen Varianzen V_x und V_y deutet sich eine Möglichkeit an, auch eine Art "Varianz" für unseren inzwischen zweidimensionalen Fall zu definieren, und zwar die sogenannte (empirische) "Kovarianz" c_xy. Dazu entnehmen wir

von V_x jeweils die erste Klammer in einem Produkt,
von V_y jeweils die zweite Klammer in einem Produkt,

womit sich für die "Kovarianz" ergibt:

c_xy =

Das ist vorerst eine fast völlig willkürliche Definition

("fast", da ja immerhin Elemente der beiden einzeln durchaus aussagekräftigen Varianzen V_x und V_y übernommen wurden),

und natürlich kann man, wenn man lustig ist, alles und jedes kombinieren und definieren.

Die Frage muss also sein, was

c_xy =

bedeuten mag und ob es eine hilfreiche und aussagekräftige Definition ist.

(Nebenbei: statt z.B. - bei den ersten beiden Klammern im Zähler - (140-166)•(45-67) könnten wir genauso gut auch (166-140)•(67-45) rechnen, also nicht mehr die Mittelwerte von den x- bzw. y-Werten, sondern umgekehrt die x- und y-Werte von den Mittelwerten subtrahieren. Beide Klammern erhielten dadurch das jeweils umgekehrte Vorzeichen, aber das Produkt der beiden Klammern hätte wieder dasselbe Vorzeichen wie vorher.)

Es sei aber vorerst mal festgehalten, was die Kovarianz Kovarianz c_xy

(im Gegensatz zu den Varianzen V_{_x} und V_y_₎

nicht mehr leistet: die Varianzen waren gezielt so definiert worden, dass durch das Quadrieren nur positive Summanden entstanden und somit auch die Varianzen selbst immer positiv waren

(vgl. nochmals ).

Bei den einzelnen Summanden der Kovarianz c_xy und damit auch bei der Kovarianz c_xy selbst können aber durchaus negative Werte entstehen, was, wie wir gleich sehen werden, kein Nachteil ist, sondern eine ganz eigene Aussagekraft hat.

Zwar wird in unserem konkreten Körpergrößen-/Körpergewicht-Beispiel kein Summand negativ, aber das würde beispielsweise passieren, wenn eine Person 150 cm groß und 80 kg schwer wäre, denn dann würde das entsprechende Produkt in der Kovarianz-Formel lauten:

= = - 208, also eine negative Zahl.

Eine negative Zahl kommt immer zustande, wenn eine Person

kleiner als der Mittelwert = 166 cm, aber schwerer als der Mittelwert = 67 kg

(also für ihre Größe allzu dick)

oder größer als der Mittelwert = 166 cm, aber schwerer als der Mittelwert = 67 kg

(also für ihre Größe allzu spindeldürr)

ist.

Der Zusammenhang sieht in der Grafik so aus:

xxxxx Fall a. und b., d.h. negative Produkte,
xxxxx Fall c. und d., d.h. positive Produkte.

Damit könne wir immerhin Tendenzen für die Kovarianz c_xy, also die Summe all dieser negativen oder positiven Produkte, erkennen:

wenn die Punkte "großteils" in den beiden xxxxx-Quadranten liegen, ist die Kovarianz c_xy positiv:

Die Punkte hätten also eine steigende Tendenz: "je größer x, desto größer y".

wenn die Punkte "großteils" in den beiden xxxxx-Quadranten liegen, ist die Kovarianz c_xy negativ:

Die Punkte hätten also eine fallende Tendenz: "je größer x, desto kleiner y".

stellt sich damit aber auch die Frage, ob die Punkte so liegen können, dass die Kovarianz c_xy in der Nähe von Null liegt oder gar genau Null wird..

Man könnte auf Anhieb meinen, dass sie dann

entweder so ------------
oder so ------------
oder so ------------
oder so ------------,

d.h. gleichmäßig sowohl in xxxxx-Quadranten als auch in xxxxx-Quadranten liegen:

In allen vier Fällen würde sich aber nicht der Mittelpunkt M ergeben, sondern er läge höher oder tiefer, weiter links oder weiter rechts.

Vielmehr liegen die Punkte dann

entweder so --------
oder so --------,

denn dann ergäben sich massenhaft Null-Produkte:

Hier tut es gut, auf unser Aufgabenbeispiel "Körpergröße/Körpergewicht" zurück zu schauen: was bedeuten da die Linie -------- sowie die LInie -------- ?:

wenn alle Punkte auf -------- lägen, hieße dass, dass alle Personen dieselbe Größe, aber völlig unterschiedliche Körpergewichte hätten, und dann wäre jeder Versuch, einen Zusammenhang Größe/Körpergewicht zu finden, sowieso sinnlos;
wenn alle Punkte auf -------- lägen, hieße dass, dass alle Personen unterschiedlich groß wären, aber dennoch dasselbe Körpergewicht hätten, und der "Zusammenhang" bestünde dann in der unsinnigen Aussage, alle Menschen wögen unabhängig von ihrer Größe gleich viel.

Eine andere Möglichkeit, dass die Kovarianz c_xy in der Nähe von Null liegt, besteht darin, dass die Punkte "ziemlich gleichmäßig" in allen vier Quadranten a. bis d. liegen:

Dann aber liegt ein reines Chaos vor und ist eben kein Zusammenhang zwischen Körpergröße und Körpergewicht zu erkennen.

Sinnvoll bleiben also nur die Fälle A. und B., d.h. steigende oder fallende Tendenz. Und da bei unserem Beispiel sämtliche Punkte in den xxxxx-Quadranten c. und d. liegen, liegt der Fall A. vor:

d.h. in unserem Beispiel liegt eindeutig eine steigende Tendenz vor. Das ist nun wahrhaft keine weltbewegend neue Erkenntnis, sondern

das konnte man schon an den Punkten ohne jede Kovarianz-Berechnung sehen,
das war sogar ohne jede Mathematik klar: je größer die Menschen, desto schwerer sind sie im Schnitt.

Aber wir brauchen solche Kovarianz-Überlegungen für Fälle, in denen aus der Lage der Punkte nicht so eindeutig hervorgeht, welche Tendenz eventuell eben doch vorliegt.

In der Tat ist in unserem Beispiel

c_xy =

positiv, und zwar schon allein deshalb, weil alle Produkte positivsind. Es ergibt sich

c_xy = 298

Man sagt auch:

es besteht eine starke, und zwar positive Korrelation zwischen x (Körpergröße) und y (Körpergewicht), und "starke" Korrelation bedeutet, dass y stark von x abhängig ist;
entsprechend sagt man für eine weit im Negativen liegende Kovarianz: es besteht eine starke, allerdings negative Korrelation zwischen x und y;
und für eine Kovarianz in der Nähe von Null sagt man: es besteht eine geringe oder gar keine Korrelation zwischen x und y, d.h. beide sind kaum oder gar nicht voneinander abhängig.

Trotz kleiner Schwankungen haben wir in unserem Körpergröße/Körpergewicht-Beispiel also insgesamt die Tendenz "steigend" bzw. "je größer die Leute sind, desto schwerer sind sie"

(was uns - nochmals gesagt - allerdings nicht sonderlich überrascht).

Bleiben wir aber noch bei den

(typisch Statistik bzw. Wahrscheinlichkeitsrechnung!)

vielen Unwägbarkeiten, also Worten wie

"Tendenz",
"großteils",
"in der Nähe von Null" (wie nah?),
"ziemlich gleichmäßig".

Diese Unwägbarkeiten hängen weitgehend mit "'Ausreißern" zusammen, d.h. Einzel- oder einigen wenigen Punkten, die von der sonstigen Tendenz abweichen

(aber wo ist da die Grenze zum völligen Chaos?).

Die Unwägbarkeiten zeigen sich insbesondere darin, dass einige wenige Punkte in den "falschen" Quadranten liegen. Die Unwägbarkeiten ergeben sich aber auch durch die Entfernungen solcher Punkte vom Mittelpunkt M.

Die Entfernungen der Punkte zum Mittelpunkt M werden nämlich durch die Produkte abgeschätzt

(wenn auch nicht exakt angegeben):

die Produkte (oder genauer: ihre Beträge) werden

sehr groß, wenn beide Faktoren (oder genauer: ihre Beträge) sehr groß sind, wenn also sowohl die x- als auch die y-Abweichung des jeweiligen Punkts vom Mittelpunkt M sehr groß ist,
sehr klein, wenn beide Faktoren (oder genauer: ihre Beträge) sehr klein sind, wenn also sowohl die x- als auch die y-Abweichung des jeweiligen Punkts vom Mittelpunkt M sehr klein ist.

... womit wir die oben verworfenen Abstände der Punkte vom Mittelpunkt M indirekt doch wieder benutzt haben.

"The person who first introduced the tool of the correlation coefficient was the Victorian geographer, meteorologist, anthropologist, and statistician Sir Francis Galton (1822-1911)."
(zitiert nach

; zum "Galton-Brett" vgl. auch

Der Unwägbarkeiten wird man ein wenig Herr, wenn man die Kovarianz c_xy zum "Korrelationskoeffizienten" _xy "normiert", d.h. für beliebige zweidimensionale Verteilungen auf das Intervall [ - 1 | +1 ] schrumpft bzw. ausdehnt

(nebenbei: ist der griechische Buchstabe "rho"):

Diese Normierung erfolgt natürlich in Analogie zur Wahrscheinlichkeit, die ja auf das Intervall [0 | +1 ] normiert wurde, und genauso, wie bei der Wahrscheinlichkeit 0 für "ausgeschlossen" und +1 für "absolut sicher" steht, bedeuten auch bei _xy die Werte -1, 0 und +1 sichere Aussagen, die Werte dazwischen aber nur mehr oder weniger gute Annäherungen.

Es gibt verschiedene Möglichkeiten, den "Korrelationskoeffizienten" zu definieren und zu berechnen. Eine dieser Möglichkeiten funktioniert nach der Formel

In unserem Fall ergibt sich damit _xy ≈ , also ein doch sehr nah an +1 liegender Wert, so dass wir davon ausgehen können, dass sich unsere Verteilung trotz aller kleinen Abweichungen weitgehend positiv linear verhält, im Koordinatensystem also gut durch eine steigende Gerade angenähert werden kann.

(Hier sei nicht geklärt, wie man überhaupt auf kommt und weshalb _xy Werte zwischen -1 und +1 ergibt. Wichig ist hingegen, dass das markante Vorzeichen von c_xy unverändert auf _xy übertragen wird, da sowohl σ_xals auch σ_ynie negativ ist.)

Erst im Nachhinein wird also wirklich klar, wozu die Kovarianz c_xy und mehr noch der Korrelationskoeffizient _xy eigentlich da sind: sie sind Maßstäbe dafür, ob eine zweidimensionale Verteilung sich überhaupt halbwegs linear verhält und wenn ja: wie gut die lineare Annäherung ist.

Da wir für unsere konkrete Körpergrößen-/Körpergewicht-Verteilung mittels _xy ≈ 0,93 herausgefunden haben, dass ein ziemlich guter linearer Zusammenhang besteht, wird es nach einem kleinen Intermezzo darum gehen, die konkrete Geradengleichung herauszufinden.

Bisher hatten wir immer mit konkreten Werten gearbeitet. Auf die Dauer ist es aber günstig, eine allgemeine und damit leicht auf andere Verteilungen übertragbare Formel zu haben.

Angenommen also, wir haben die Punkte P₁ (x₁|y₁) bis P_n(x_n|y_n). Dann ist für 1 ≤ i ≤ n der Punkt P_i (x_i|y_i) einer dieser Punkte.

Damit wird aus der konkreten Kovarianz-Formel

c_xy =

die allgemeine Kovarianz-Formel

c_xy =

Wie bereits oben gesagt, kann "je größer, desto schwerer" natürlich auch eine quadratische, kubische oder sonstige Funktion bedeuten, für die es je eigene Berechnungsverfahren gibt

(z.B. die "quadratische Korrelation/Regression").

Da unser konkretes Körpergröße/Körpergewicht-Beispiel aber doch sehr nach Linearität "riecht", suchen wir nun

(wie oben schon angedeutet)

nach der "besten" Geraden, wobei wir schon eine Vorbedingung feststellen: diese "beste" Gerade soll auf jeden Fall durch den allemal bedeutsamen Mittelpunkt M (166|67) gehen

(worauf unten zurückzukommen ist).

Indem wir voraussetzen, dass annähernd eine Gerade g vorliegt, werden wir natürlich betriebsblind für andere, vielleicht sinnvollere Möglichkeiten.

Auf jeden Fall hat die Geradengleichung aber die Form

g: y = mx + c,

wobei m die Steigung und c der Achsenabschnitt ist.

Im Folgenden tun wir nun etwas ausgesprochen Dreistes: obwohl wir genau wissen, dass die Punkte nicht auf alle auf einer (einzigen!) Geraden liegen, tun wir einfach mal so, als ob das dennoch der Fall wäre.

Wenn wir also die Geradenform voraussetzen, wissen wir, dass für jedes Steigungsdreieck, das zwischen einem Punkt P_i (x_i|y_i) und dem MittelpunktM (x|y) aufgespannt wird,

Damit ergibt sich m = wird kürzer m = , woraus folgt:

Wenn wir das nun für jedes 1 ≤ i ≤ n in unsere allgemeine Kovarianz-Formel

c_xy =

einsetzen, so erhalten wir nach einiger Rechnerei etwas wahrhaft Erstaunliches:

c_xy = =

= =

oder kurz

c_xy = .

Zumindest auf den ersten Blick erstaunlich ist daran, dass die Kovarianz c_xy

(in der doch immerhin zwei Dimensionen berücksichtigt sind)

somit nur ein simples Viel-, nämlich m-faches der

(eindimensionalen)

Varianz V_x ist.

Nunja, ganz so erstaunlich ist das allerdings auch wieder nicht: wir hatten ja eine lineare Abhängigkeit des y vom x vorausgesetzt.

Aus c_xy= folgt umgehend

m = .

und somit können wir immerhin schon die Steigung m der gesuchten Gerade g berechnen. In unserem konkreten Körpergröße/Körpergewicht-Beispiel ergibt sich:

m = = ≈ 0,86

Für unsere Gerade gilt also g: y ≈ 0,86 x + c .

Um nun auch noch den Achsenabschnitt c berechnen zu können, erinnern wir uns daran, dass insbesondere der so wichtige Mittelpunkt M (166|67) auf der Gerade g liegen soll. Wir setzen daher seine Koordinaten in die Geradengleichung ein und erhalten

67 ≈ 0,86 • 166 + c

67 ≈ 143,8 + c | - 143,8

-76,8 ≈ c

Insgesamt lautet die Gleichung der sogenannten Regressionsgerade also

g: y ≈ 0,86 x -76,8

Man beachte, dass diese Gerade g in der Tat - wie oben gefordert - zu allen Punken etwa gleichen Abstand hält.

Deutlich wird anhand der Gerade auch, dass sie natürlich nur für Erwachsene gilt, denn Menschen mit einer Körpergröße von weniger als 90 cm hätten laut dieser Gerade ja ein negatives Gewicht.

Unsere Gerade g: y ≈ 0,86 • x -76,8 ähnelt annähernd der Formel, mit der man üblicherweise das "Normalgewicht" berechnet, nämlich y = 1 • x - 100, d.h. Körpergewicht = Körpergröße - 100.

Es lohnt sich immer, vor und nach allen Rechnungen zu überlegen, inwieweit durchaus richtige mathematische Aussagen überhaupt im Hinblick auf die jeweilige Anwendung sinnvoll sind. Überlegen wir also, was die verschiedenen möglichen Ausfälle von _xyim Hinblick auf unser Körpergröße-/Körpergewicht-Beispiel bedeuten können:

dass tatsächlich "im Schnitt" (k)ein linearer Zusammenhang zwischen Körpergröße und Körpergewicht vorliegt

(von wegen "kein": wir wissen aber, dass es ihn dennoch gibt, nämlich nach der Normalgewichtsformel y = 1 • x - 100 bzw. Körpergewicht = Körpergröße - 100; vgl. daher in diesem Fall 2.);

dass die zu kleine Ausgangsmenge von nur sechs Personen und darin überrepräsentierte Ausreißer fälschlich den Eindruck erwecken, es gäbe (k)einen linearen Zusammenhang:

"Insofern sich die Sätze der Mathematik auf die Wirklichkeit beziehen, sind sie nicht sicher, und insofern sie sicher sind, beziehen sie sich nicht auf die Wirklichkeit."
(Albert Einstein)

Es wäre also sinnvoll, nach dem "Gesetz der großen Zahlen" eine größere Datenmenge zu nehmen.

Fassen wir nunmehr zusammen:

wir hatten

als Vorarbeiten
- die Mittelwerte = 166 und = 67
- und daraus den Mittelpunkt M (166 | 67)

(also wichtige Zentralwerte)

sowie die Varianzen V_x= 344 und V_y= 296 und daraus folgend die Standardabweichungen σ_xund σ_y

(also wichtige Bereiche um die Zentralwerte herum)

bestimmt;

die Kovarianz c_xy = 298 sowie den Korrelationskoeffizienten _x_y ≈ 0,93 berechnet

(diese beiden Merkmale hatten uns überhaupt erst gezeigt, dass ein ziemlich guter linearer Zusammenhang vorliegt, was die folgende Suche nach der Regressionsgeraden überhaupt erst legitimiert),

mittels der Formel m = die Steigung m der Regressionsgeraden g: y = m x + c berechnet als m ≈ 0,86 ,
durch Einsetzen der Koordinaten des Mittelpunkts M (166|67) in die Geradengleichung g: y ≈ 0,86 x + c den y-Achsenabschnitt c erhalten als c ≈ -76,8,
womit sich die Gleichung der Regressionsgerade ergab als g: y = 0,86 x - 76,8.

Kurz festgehalten sei noch ein wichtiger Unterschied zwischen den berechneten Werten: da gibt es

die aussagekräftigen und anschaulichen Werte, nämlich

und , die die jeweiligen eindimensionalen Verteilungen "auf den Punkt bringen",
daraus folgend der Mittelpunkt M ( | | ), der die zweidimensionale Verteilung "auf den Punkt bringt",
die Standardabweichungen σ_xund σ_y , die die Bereiche angeben, in denen die Verteilungen sich "knubbeln",
der Korrelationskoeffizient _x_y , an dem sich überhaupt erst entscheidet, ob halbwegs eine lineare Näherung möglich ist,
m als Steigung und c als y-Achsenabschnitt der Regressionsgeraden,

Werte, die abstrakt und wenig aussagekräftig sind, aber als Zwischenwerte gebraucht werden, um aus ihnen die Werte aus 1. zu gewinnen:

die Varianzen V_x und V_y :
- V_x wird zur Berechnung von σ_x und m benötigt,
- V_y wird nur zur Berechnung von σ_y benötigt,
die Kovarianz c_xy , die zur Berechnung von _x_y und m benötigt wird.

Man übt all das am besten, indem man sich gezielt aussagekräftige Spezialfälle mit möglichst wenigen und einfachen Werten anschaut, sodass nicht die Rechnungen, sondern das "Prinzip" im Vordergrund stehen/steht. Bei diesen "aussagekräftigen Spezialfällen" weiß man schon vorher, was hinterher "so ungefähr" rauskommen wird, und kann es somit kontrollieren:

An dem Beispiel sei nun mal gezeigt, wie sich (auch für mich) endlich ein intuitives Verständnis ergibt:

es liegt ja wohl nahe, so etwa folgende steigende Regressionsgerade zu verwenden:

Erste kleine Rechnungen ergeben:

Jetzt seien noch

in grün jene Abstände eingezeichnet, die in die Berechnung der Kovarianz c_xy = 298 und somit auch des Korrelationskoeffizienten _xy ≈ 0,93 positiv eingehen,
und in rot jene Abstände, die negativ zu Buche schlagen:

Das sind überwiegend positiv gewertete Abstände, und deshalb werden auch sowohl die Kovarianz c_xy als auch der Korrelationskoeffizienten _xy positiv, d.h. auch so gesehen liegt eine steigende Regressionsgerade vor.

Ganz anders liegt der Fall in :

Hier gibt es offensichtlich mehrere "sinnvolle" Geraden:

Aber was heißt schon "sinnvoll"?:

innermathmematisch sind all diese Geraden als Regressionsgeraden geeignet,
aber wenn man an eine Anwendung denkt, wird schnell klar, dass hier einiges unsinnig ist:

stellen wir uns also vor, dass hier wieder von der Körpergrößen-/Körpergewicht-Verteilung die Rede ist

(auch wenn da die Zahlenwerte 1 und 4 da unsinnig sind).

dann würde

g₁ bedeuten, dass alle Menschen trotz unterschiedlicher Größe dasselbe Gewicht haben,
g₂ bedeuten, dass alle Menschen dieselbe Größe, aber unterschiedliche Gewichte haben,
g₃ bedeuten: je größer ein Mensch ist, desto schwerer ist er,
g₄ bedeuten: je größer ein Mensch ist, desto kleiner ist er.

Da wäre offensichtlich nur der Fall c. sinnvoll. Aber beispielsweise an d. ist nicht so wichtig, dass er allen Erfahrungen widerspricht, sondern vielmehr, dass er eine unsinnige Folgerung aus dem Umstand ist, dass zwei "Einer" und zwei "VVierer" unterschiedliche Gewichte haben.

Unsinnig ist aber vor allem, dass man aus offensichtlich alles

(und sogar völlig Widersprüchliches)

folgern kann.

Schauen wir uns nun wieder die "Abstände" der Punkte an:

Offensichtlich heben sich hier die positiv und negativ gewerteten Abstände beim Addieren alle gegenseitig zu Null auf, womit sowohl die Kovarianz c_xy als auch der Korrelationskoeffizienten _xy Null werden und es also auch so gesehen keine sinnvolle Regressionsgerade gibt.

Auf ein im Hinblick auf die Bedeutung des Korrelationskoeffizienten _xy besonders schönes Beispiel hat mich aber die Schülerin Vanessa Sumpmann aufmerksam gemacht:

(Ein "Anwendungsbeispiel" wäre da:

es gibt zwei 1 m große Elefanten, und
- der erste davon wiegt 1 Tonne,
- der zweite davon wiegt 3 Tonnen,
es gibt zwei 2 m große Elefanten, und
- der erste davon wie 2 Tonnen,
- der zweite davon wiegt 4 Tonnen,
es gibt zwei 3 m große Elefanten, und
- der erste davon wiegt 3 Tonnen,
- der zweite davon wiegt 5 Tonnen.)

Die anschaulich beste Näherungsgerade g ist da offensichtlich g: y = 1 • x + 1 = x + 1

da sich bei ihr alle Abstände nach links oben und rechts unten genau ausgleichen:

Rechnerisch ergibt sich aber _xy ≈ 0,63, was auf eine höchstens mittelprächtige Annäherbarkeit durch eine Gerade hindeutet. Wenn man aber weiterrechnet, ergibt sich für diese mittelprächtige Gerade tatsächlich die schon oben anschaulich erahnte Geradengleichung y = x + 1.

Wie aber sind da "beste Näherungsgerade" und "höchstens mittelprächtige Annäherbarkeit" miteinander vereinbar? Ist die gefundene Gerade sozusagen der Einäugige unter den Blinden, also nur die beste unter den durchweg schlechten?

Offensichtlich miss der Korrelationskoeffizient _xy also

nicht

(was ja immerhin uns Anfangszugang war),

ob sich die (positiv und negativ gemessenen) Abstände der Punkte zur Geraden gegenseitig ausgleichen,

sondern, ob die Punkte annähernd gut auf einer Geraden liegen, ob also all ihre (nur positiv gemessenen) Abstände zusammen möglichst klein werden.

Und die Gerade in

hält nunmal unweigerlich zu allen Punkten einen gewissen Abstand bzw. es ist beim besten Willen nicht möglich, eine Gerade durch alle sechs Punkte zu zeichnen.

Woran das aber liegt, wird erst durch das "Anwendungsproblem" klar: wir wollten ja einen Zusammenhang zwischen der Körpergröße und dem Körpergewicht von Elefanten herauszubekommen. Der ist aber laut _xy ≈ 0,63 nur "mittelprächtig" zu ermitteln, weil

je zwei Elefanten zwar dieselbe Körpergröße, aber unterschiedliche Körpergewichte haben

(Elefanten können auch gleich groß und dennoch unterschiedlich schwer sein),

z.B. der dritte, 2 m große Elefant mit 2 Tonnen Gewicht leichter als der zweite, 1m große mit einem Gewicht von 3 Tonnen.

Dennoch gibt es aber ansatzweise den Trend "je größer, desto schwerer".

Oben war von der Möglichkeit einer quadratischen Anpassung gesprochen worden. Sie sähe für unser Körpergrößen-/Körpergewicht-Beispiel so aus:

Und eine vielleicht ja

(wie ebenfalls oben gezeigt)

besonders sinnvolle kubische Anpassung, also mittels einer Funktion dritten Grades, sähe so aus:

Um das "Prinzip" zu verstehen, wäre sogar die Übertragung auf eine dreidimensionale Verteilung interessant

(allerdings am besten in einem tatsächlich dreidimensionalen Koordinatensystem-Modell):

(Dabei sei dahingestellt, was hier Kovarianz und Korrelation bedeuten mögen und was die Regressionsgerade[-ebene?] sein mag.)

Und erst wenn das "Prinzip" klar ist, überlässt man größere Datenmengen dem Computer.

Vorsicht:

oftmals werden Schein-Korrelationen zwischen zwei Größen entdeckt, obwohl beide gar nichts miteinander zu tun haben oder der wirkliche Grund für den Zusammenhang eine dritte Größe ist, die zu betrachten man schlichtweg vergessen hat:

"Ein bekanntes Beispiel in der Statistik [für die Scheinkorrelation] ist die Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare in verschiedenen Regionen. Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt, gibt es keinen kausalen Zusammenhang. Tatsächlich gibt es aber einen kausalen Zusammenhang zu einer dritten (intervenierenden) Variable: der Ländlichkeit der Region. Je ländlicher eine Region ist, desto höher ist die Zahl der Kindergeburten und desto größer ist die Zahl der Storchenpaare. Dies führt zu der Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare."
(zitiert nach )

"Korrelation" bedeutet insbesondere nicht automatisch, dass auch ein ursächlicher Zusammenhang besteht:

Wie der Lexikon-Eintrag oben zum Thema "Regression" schon mit

"[...] näherungsweise[...] Beschreibung einer Variablen als Funktion [einer] andere[n] [...]"

angedeutet hat: mit all unseren Überlegungen oben ist es uns

(wenn auch auf arg brachiale Art)

gelungen, den Hauptgegenstand der gesamten Schulmathematik, nämlich "Funktionen", auch in die Statistik/Wahrscheinlichkeitsrechnung einzuschleusen:

"Wenn man ein Hammer ist, scheint die ganze Welt nur aus Nägeln zu bestehen."
Wenn man einE MathematikerIn ist, sieht man allüberall Funktionen (hinein).

Bzw. es ist, als wenn die Militärregierung "Funktionen" durch Putsch auch die Macht im Staat "Statistik/Wahrscheinlichkeitsrechnung" übernommen hätte.

Funktionen sind aber nunmal der mathematische Königsweg, um Zusammenhänge zu begreifen.

Anfangs hatte ich gefragt:

: wenn von der Korrelation/Regression überhaupt was hängen bleiben soll

(und zwar, wie soeben gesagt, nicht die Formeln und Rechnungen)

was denn?

: oder sollen die SchülerInnen nur etwas ANHAND der Korrelation/Regression lernen, ist sie also bloß Mittel zum

(zu welchem?)span class="style7">

Zweck?

Nun war die Herleitung von Korrelation und Regression(sgerade) offensichtlich ein langer Weg mit vielen, teilweise ellenlangen Formeln

(die man sowieso in einer Formelsammlung nachschlägt).

Das Allermeiste davon wird zweifelsohne spätestens nach der betreffenden Klausur vergessen. Was also soll im besten Fall davon übrig bleiben?:

die Grundsatzüberlegung, jede Verteilung

auf einen "Punkt" (im Eindimensionalen: Mittelwerte, im Zweidimensionalen: Mittelpunkt)
und einen "Bereich" (Standardabweichungen)

zu reduzieren;

die vielfältige Verwendung des Mittelwerts

(hier für nur drei Punkte P (x₁ | y₁), P₂ (x₂ | y₂) und P₃ (x₃ | y₃) ):

dabei wird in Gleichungen, die das Muster ( - ) enthalten, der Mittelwert von [evtl. negativ gemessenen] Abständen gebildet, und zwar

der Abstände zwischen den x_i und dem Mittelwert x
bzw. der Abstände zwischen den y_i und dem Mittelwert y.

Es wird also jeweils der Mittelwert der Abstände von einem Mittelwert berechnet

[vgl. "der Vater des Vaters der Mutter des Onkels ..."; alle Klarheiten beseitigt?);

die Verbindung zweier eindimensionaler Verteilungen zu einer zweidimensionalen Verteilung;
die drei Möglichkeiten

fallende Regressionsgerade,
steigende Regressionsgerade,
gar kein Zusammenhang

(oder zumindest kein linearer);

der "Funktionen-Putsch";
in arg "weiches" Kriterium: eine zunehmende mathematische "Kondition", die durch die "Denkgymnastik" bei obigen Überlegungen erworben wurde.