Grundlagen der Visualisierung
In den folgenden Sessions wollen wir uns mit der Visualisierung von Daten beschäftigen. Dazu haben wir einen Datensatz welcher sich mit dem Vitamin-B12-Haushalt beschäftigt ausgewählt. In dieser Session wollen wir die plot()-Funktion kennenlernen.
Daten laden und Überblick verschaffen
Um unsere Daten zu visualisieren müssen wir diese erst wieder in R laden.
Daten <- read.csv("VITB12.csv", header = T, sep = ";")
Nun wollen wir uns unter Verwendung der Funktionn str() und summary() einen Überblick über die Daten verschaffen.
str(Daten)
## 'data.frame': 1990 obs. of 5 variables:
## $ Alter : num 10.4 11.9 12.8 13.4 13.8 ...
## $ Holotranscobalamin: num 117.1 58 52.2 48 38.6 ...
## $ Methylmalonsäure : num 218 212 193 323 225 ...
## $ VitaminB12 : num 564 379 264 304 330 ...
## $ Altersgruppe : chr "0 - 20" "0 - 20" "0 - 20" "0 - 20" ...
Wir sehen, dass unser Dataset über 1990 Zeilen (obs) verfügt und über 5 Spalten (variables). Das Alter, das Holotranscobalamin, die Methylmalonsäure und das Vitamin-B12 liegen als numerische Daten vor. Die Altersgruppe ist ein character (chr), in diesem Fall eine kategoriale Variable.
summary(Daten)
## Alter Holotranscobalamin Methylmalonsäure VitaminB12
## Min. :10.37 Min. : 3.72 Min. : 38.1 Min. : 79.23
## 1st Qu.:56.70 1st Qu.: 51.88 1st Qu.: 148.0 1st Qu.: 282.35
## Median :67.79 Median : 70.53 Median : 203.6 Median : 358.75
## Mean :65.98 Mean : 76.77 Mean : 261.6 Mean : 410.99
## 3rd Qu.:77.77 3rd Qu.: 96.86 3rd Qu.: 298.1 3rd Qu.: 469.77
## Max. :98.69 Max. :150.00 Max. :9326.7 Max. :2000.00
## Altersgruppe
## Length:1990
## Class :character
## Mode :character
##
##
##
Durch die summary()-Funktion bekommen wir einen ersten Überblick über die Ausprägungen unserer Messwerte für die verschiedenen Parameter. Bezüglich der Altersgruppe interessiert uns noch, wieviele Beobachtungen in jeder Altersgruppe zu finden sind. Dafür können wir die table()-Funktion nutzen.
table(Daten$Altersgruppe)
##
## 0 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90
## 19 34 83 144 340 490 529 311
## 90 - 100
## 40
Wir sehen, dass die meisten Messwerte in der Gruppe der über 60-Jährigen liegen. Dies entspricht auch der Klinik, da ältere Personen aufgrund häufiger Medikation mit Protonenpumpeninhibitoren und/oder dem im Alter häufigeren Auftreten einer atrophischen Gastritis mit Achlorhydrie häufiger einen Vitamin-B12-Mangel aufweisen und somit in dieser Altersgruppe häufiger eine Diagnostik erfolgt.
Die plot()-Funktion
In R gibt es mit der plot()-Funktion eine allgemeine Funktion, die in der Lage ist, aus vielfältig unterschiedlich formatierten Daten die jeweiligen, am besten geeigneten Plots zu erstellen. Wir wollen die plot()-Funktion nun einmal an 3 Beispielen ausprobieren.
Eine Variable darstellen
Zuerst wollen wir eine einzelne Variable darstellen. Wir beginnen mit der Darstellung des Holotranscobalamins.
plot(Daten$Holotranscobalamin)
Wenn ihr den Befehl ausführt, wird euch der Plot unten rechts im Plots-Fenster angezeigt. Wenn wir nur eine Variable darstellen, sehen wir, dass auf der x-Achse der Index, also die Zeilennummer aufgetragen ist. In diesem Fall Zeile 1 bis 1990. Auf der y-Achse wird die jeweilige Variable aufgetragen. Dabei wird die y-Achse mit dem Spaltennamen bezeichnet. Wir sehen, dass die Messwerte des Holotranscobalamins über den ganzen Messbereich streuen.
Dieser Plot ist zugeben noch nicht wirklich schön anzusehen. Wie wir die verschiedenen Plots anpassen können, werden wir in den jeweiligen Videos zu den einzelnen Visualisierungsvarianten lernen.
Zwei Variablen darstellen
Nun wollen wir einmal zwei Variablen in einer Grafik darstellen. Wir sehen uns dafür den Zusammenhang zwischen der Methylamlonsäure und dem Alter an. Um ein solches Punktdiagramm zu entwerfen, müssen wir definieren, welcher Parameter auf der x-Achse und welcher Parameter auf der y-Achse aufgetragen werden sollen. Es bietet sich an, das Alter auf der x-Achse aufzutragen.
plot(x = Daten$Alter, y = Daten$Methylmalonsäure)
Wir sehen wieder, dass die Spaltennamen zur Bezeichnung der Achsen genutzt werden. Aufgrund eines sehr hohen Messwertes der Methylmalonsäure (ca. 9300, siehe Ausprägung der Methylmalonsäure im Output der summary()-Funktion) wirkt der Plot sehr gestaucht. Die Methylmalonsäure gilt ab Konzentrationen von > 271 nmol/l als erhöht. Es würde also Sinn machen, den Plot dementsprechend anzupassen. Wie das funktioniert werden wir in den folgenden Videos lernen.
Alle Variablen darstellen
Zum Abschluss dieser Session wollen wir einmal sehen, was passiert, wenn wir einfach unser komplettes Dataset in die plot()-Funktion eingeben.
plot(Daten)
Wir sehen, dass die plot()-Funktion in der Lage ist, den Zusammenhang zwischen allen Variablen darzustellen. Wir haben also mit dieser Funktion ein sehr nützliches Werkzeug zur Visualisierung von Daten.