Deskriptive Statistik – Mittelwert und Co.
Nachdem wir uns mit dem Median beschäftigt haben, soll es nun um den Mittelwert gehen. Ich werde zur Veranschaulichung einige Grafiken einbinden, den Code zur Erstellung solcher Grafiken werden wir aber erst in den Sessions zur Datenvisualisierung lernen.
Mittelwert und Erwartungswert
Mit dem Mittelwert können wir wahrscheinlich noch alle etwas anfangen. Wir addieren alle Werte und dividieren die Summe durch die Anzahl der Beobachtungen. So gibt uns der Mittelwert eine Auskunft darüber in welcher Höhe unsere Messungen im Mittel liegen. Der Erwartungswert ist, im Gegensatz dazu, eine fiktive statistische Größe, die vereinfacht gesagt dem Mittelwert bei unendlich vielen Wiederholungen entspricht. Dies lässt sich am besten an einem Beispiel veranschaulichen. Haben wir zum Beispiel eine Verteilung von Blutzuckerwerten mit einem Erwartungswert von 6.0 mmol/l und einer Standardabweichung von 0.5 mmol/l so können wir mit der rnorm()-Funktionen einen Vektor erstellen, der aus dieser theoretischen Verteilung z.B. 1000 Werte zufällig auswählt. Damit ihr die gleichen Ergebnisse wie ich erhaltet, nutzen wir die set.seed()-Funktion. Hiermit definieren wir einen “Anker” und R zieht immer wieder die selben 1000 Zufallszahlen aus der theoretischen Verteilung. Ohne set.seed() würde R bei jedem Ausführen des Codes neue 1000 Zufallszahlen ziehen.
set.seed(100)
Blutzucker <- rnorm(1000, 6, 0.5)
Nachfolgend können wir den Mittelwert berechnen.
mean(Blutzucker)
## [1] 6.008403
Wir sehen, dass der Wert nahe am Erwartungswert liegt, aber eben nicht genau 6.0 mmol/l ist. Würden wir unendlich viele Zahlen ziehen, würden wir auf den Erwartungswert kommen.
Mittelwert und Ausreißer
Da alle gemessenen Ergebnisse, inklusive Ausreißer in beide Richtungen, in die Bestimmung des Mittelwertes mit eingehen, ist der Mittelwert anfälliger gegen Ausreißer. Dies können wir an unserem Datensatz leicht nachvollziehen, indem wir einfach einmal Median und Mittelwert vergleichen. Den Mittelwert berechnen wir mit der Funktion mean().
median(Data$Verkauf)
## [1] 20.55
mean(Data$Verkauf)
## [1] 41.702
Woran es liegt, dass der Mittelwert so vom Median abweicht, können wir herausfinden, indem wir uns die Daten einfach einmal visualisieren. Zum Beispiel in Form eines Histogramms.
Im Histogramm sehen wir, dass ein Großteil der Firmen unter einer Verkaufszahl von 50 Milliarden Euro liegt. Es gibt aber einen Ausreißer, der über 250 Milliarden liegt. Dieser, und zu einem kleineren Teil auch die Firmen die über 100 Milliarden liegen, ziehen den Mittelwert nach oben.
Standardabweichung
Wie im Histogramm gesehen, weichen die Werte recht stark von Mittelwert ab, vor allem nach oben. Dementsprechend würden wir auch eine große Standardabweichung, als Streumaß der Werte um den Mittelwert, erwarten. Die Standardabweichung berechnen wir mit der Funktion sd().
sd(Data$Verkauf)
## [1] 51.97247
Die Standardbweichung gibt dabei die Schwankung um den Mittelwert an, und zwar in der Einheit und Größenordnung, in der auch der Mittelwert angegeben ist. Wir haben bei den Verkaufszahlen also einen Mittelwert von 41.7 Milliarden Euro mit einer Schwankung von fast 52 Milliarden Euro zwischen den Firmen.
Standardabweichung und Standardnormalverteilung
Um den Mittelwert und die Standardabweichung besser zu verstehen, wollen wir uns kurz mit der Standardnormalverteilung beschäftigen. Diese ist definiert als eine Normalverteilung mit dem Mittelwert von 0 und einer Standardabweichung von 1. Nachfolgend kann man eine Standardnormalverteilung sehen. Als rote Linie ist der Mittelwert eingezeichnet.
Nun können wir einmal zwei blaue Linien zeichnen, die -1 und +1 Standardabweichung anzeigen. Die grünen Linien zeigen -2 und +2 Standardabweichungen.
Dabei liegen 68.75% der Werte einer Verteilung zwischen -1 und +1 Standardabweichungen und 95.45% aller Werte zwischen -2 und +2 Standardabweichungen. Für unser Beispiel bedeutet das, dass 68.75% unserer Werte bei 41.7 +/- 51.97 Milliarden liegen. Aufgrund des Ausreißers ist die Standardabweichung sehr groß, sodass nach unten theoretisch negative Werte entstehen würden. Die zeigt uns, dass es sich bei Mittelwert und Standardabweichung eben um statistische Kenngrößen handelt, die versuchen die Daten zu repräsentieren, es sich aber eben nur um ein theroretisches Modell handelt.
Standardabweichung und Varianz
Um die Standardabweichung zu erhalten, müssen wir normalerweise erst die Varianz berechnen. Die Varianz gibt und an, wie sehr unsere Werte um den Mittelwert streuen. Je höher der Wert der Varianz ist, desto mehr streuen unsere Messwerte um den Mittelwert. Die Berechnung der Varianz ist recht einfach: man zieht von jedem Messwert den Mittelwert ab und quadriert die Differenz. Danach werden alle so erhaltenen Werte (Residuen) addiert. In R berechnen wir die Varianz mit der Funktion var().
var(Data$Verkauf)
## [1] 2701.138
Wenn man also von allen Messwerten den Mittelwert abzieht und diese Residuen quadriert und alle aufsummiert, kommt man auf einen Wert von 2701.138. Warum quadrieren wir die Werte? Da es Messwerte gibt, die unter den Mittelwert liegen, würden bei der Subtraktion negative Werte entstehen. Würden wir dann alle positiven Residuen (Messwert > Mittelwert) und alle negativen Residuen (Messwert < Mittelwert) addieren, so könnte im schlimmsten Fall 0 rauskommen, da sich alle Werte ausgleichen. Wir hätten also kein Maß dafür, wie stark unsere Werte streuen. Durch das Quadrieren der Residuen überführen wir negative Zahlen in positive Zahlen und jedes Residuum wird gleich gewichtet. Der Wert der Varianz ist aber kein Wert der in der Einheit oder der Größenordnung des Mittelwertes verortet ist. In unserem Fall ist die Varianz eben nicht 2701 Milliarden. Der Wert gibt uns einfach nur die Streuung der Messwert an. In einer anderen Stichprobe wäre die Varianz vielleicht nur 1000 und somit würden die Werte geringer um den Mittelwert streuen. Wir können aber die Varianz benutzen um ein Maß zu berechnen, welches uns die Streuung in unserer betrachteten Einheit angibt. Hierzu ziehen wir die Quadratwurzel aus der Varianz.
sqrt(var(Data$Verkauf))
## [1] 51.97247
Wer genau hinschaut, sieht, dass wir diesen Wert bereits kennen. Und zwar als Standardabweichung. So ist also der Zusammenhang zwischen Varianz und Standardabweichung zu erklären.