Grundlagen der Visualisierung


Zurück
R – Einführung
8:32
Download von R
2:11
Erste Schritte und Rechenregeln in R
8:53
Klassische Rechenoperationen in R
4:33
Spezielle Rechenoperationen – Logarithmus
7:02
Boolesche Operatoren
4:25
Variablen
5:13
Vektor-Indexierung
4:12
Runden
3:50
Datentypen
5:42
Datenformen
3:23
Samples
4:24
Subset
5:43
dat-Dateien laden
0:45
Umgang mit Vektoren
5:45
Umgang mit Vektoren – Details
3:10
CBIND & RBIND
2:54
Zahlenreihen
7:19
Dataframe-Indexierung
5:10
Überblick verschaffen
7:23
Datensatz vorbereiten
5:51
Daten manipulieren
8:45
Deskriptive Statistik – Grundlagen
7:45
Deskriptive Statistik – Mittelwert und Co.
5:00
Grundlagen der Visualisierung
10:02
Histogramme
8:30
Boxplot
7:12
Scatterplot
5:47
Plots kombinieren
9:38
weitere Visualisierungen
3:05

In den folgenden Sessions wollen wir uns mit der Visualisierung von Daten beschäftigen. Dazu haben wir einen Datensatz welcher sich mit dem Vitamin-B12-Haushalt beschäftigt ausgewählt. In dieser Session wollen wir die plot()-Funktion kennenlernen.

Daten laden und Überblick verschaffen

Um unsere Daten zu visualisieren müssen wir diese erst wieder in R laden.

Daten <- read.csv("VITB12.csv", header = T, sep = ";")

Nun wollen wir uns unter Verwendung der Funktionn str() und summary() einen Überblick über die Daten verschaffen.

str(Daten)
## 'data.frame':    1990 obs. of  5 variables:
##  $ Alter             : num  10.4 11.9 12.8 13.4 13.8 ...
##  $ Holotranscobalamin: num  117.1 58 52.2 48 38.6 ...
##  $ Methylmalonsäure  : num  218 212 193 323 225 ...
##  $ VitaminB12        : num  564 379 264 304 330 ...
##  $ Altersgruppe      : chr  "0 - 20" "0 - 20" "0 - 20" "0 - 20" ...

Wir sehen, dass unser Dataset über 1990 Zeilen (obs) verfügt und über 5 Spalten (variables). Das Alter, das Holotranscobalamin, die Methylmalonsäure und das Vitamin-B12 liegen als numerische Daten vor. Die Altersgruppe ist ein character (chr), in diesem Fall eine kategoriale Variable.

summary(Daten)
##      Alter       Holotranscobalamin Methylmalonsäure   VitaminB12     
##  Min.   :10.37   Min.   :  3.72     Min.   :  38.1   Min.   :  79.23  
##  1st Qu.:56.70   1st Qu.: 51.88     1st Qu.: 148.0   1st Qu.: 282.35  
##  Median :67.79   Median : 70.53     Median : 203.6   Median : 358.75  
##  Mean   :65.98   Mean   : 76.77     Mean   : 261.6   Mean   : 410.99  
##  3rd Qu.:77.77   3rd Qu.: 96.86     3rd Qu.: 298.1   3rd Qu.: 469.77  
##  Max.   :98.69   Max.   :150.00     Max.   :9326.7   Max.   :2000.00  
##  Altersgruppe      
##  Length:1990       
##  Class :character  
##  Mode  :character  
##                    
##                    
## 

Durch die summary()-Funktion bekommen wir einen ersten Überblick über die Ausprägungen unserer Messwerte für die verschiedenen Parameter. Bezüglich der Altersgruppe interessiert uns noch, wieviele Beobachtungen in jeder Altersgruppe zu finden sind. Dafür können wir die table()-Funktion nutzen.

table(Daten$Altersgruppe)
## 
##   0 - 20  20 - 30  30 - 40  40 - 50  50 - 60  60 - 70  70 - 80  80 - 90 
##       19       34       83      144      340      490      529      311 
## 90 - 100 
##       40

Wir sehen, dass die meisten Messwerte in der Gruppe der über 60-Jährigen liegen. Dies entspricht auch der Klinik, da ältere Personen aufgrund häufiger Medikation mit Protonenpumpeninhibitoren und/oder dem im Alter häufigeren Auftreten einer atrophischen Gastritis mit Achlorhydrie häufiger einen Vitamin-B12-Mangel aufweisen und somit in dieser Altersgruppe häufiger eine Diagnostik erfolgt.

Die plot()-Funktion

In R gibt es mit der plot()-Funktion eine allgemeine Funktion, die in der Lage ist, aus vielfältig unterschiedlich formatierten Daten die jeweiligen, am besten geeigneten Plots zu erstellen. Wir wollen die plot()-Funktion nun einmal an 3 Beispielen ausprobieren.

Eine Variable darstellen

Zuerst wollen wir eine einzelne Variable darstellen. Wir beginnen mit der Darstellung des Holotranscobalamins.

plot(Daten$Holotranscobalamin)

Wenn ihr den Befehl ausführt, wird euch der Plot unten rechts im Plots-Fenster angezeigt. Wenn wir nur eine Variable darstellen, sehen wir, dass auf der x-Achse der Index, also die Zeilennummer aufgetragen ist. In diesem Fall Zeile 1 bis 1990. Auf der y-Achse wird die jeweilige Variable aufgetragen. Dabei wird die y-Achse mit dem Spaltennamen bezeichnet. Wir sehen, dass die Messwerte des Holotranscobalamins über den ganzen Messbereich streuen.

Dieser Plot ist zugeben noch nicht wirklich schön anzusehen. Wie wir die verschiedenen Plots anpassen können, werden wir in den jeweiligen Videos zu den einzelnen Visualisierungsvarianten lernen.

Zwei Variablen darstellen

Nun wollen wir einmal zwei Variablen in einer Grafik darstellen. Wir sehen uns dafür den Zusammenhang zwischen der Methylamlonsäure und dem Alter an. Um ein solches Punktdiagramm zu entwerfen, müssen wir definieren, welcher Parameter auf der x-Achse und welcher Parameter auf der y-Achse aufgetragen werden sollen. Es bietet sich an, das Alter auf der x-Achse aufzutragen.

plot(x = Daten$Alter, y = Daten$Methylmalonsäure)

Wir sehen wieder, dass die Spaltennamen zur Bezeichnung der Achsen genutzt werden. Aufgrund eines sehr hohen Messwertes der Methylmalonsäure (ca. 9300, siehe Ausprägung der Methylmalonsäure im Output der summary()-Funktion) wirkt der Plot sehr gestaucht. Die Methylmalonsäure gilt ab Konzentrationen von > 271 nmol/l als erhöht. Es würde also Sinn machen, den Plot dementsprechend anzupassen. Wie das funktioniert werden wir in den folgenden Videos lernen.

Alle Variablen darstellen

Zum Abschluss dieser Session wollen wir einmal sehen, was passiert, wenn wir einfach unser komplettes Dataset in die plot()-Funktion eingeben.

plot(Daten)

Wir sehen, dass die plot()-Funktion in der Lage ist, den Zusammenhang zwischen allen Variablen darzustellen. Wir haben also mit dieser Funktion ein sehr nützliches Werkzeug zur Visualisierung von Daten.

Skripte, Audio (Stream & Download)
Bitte melde dich an, um diesen Inhalt zu sehen.,
Login | Jetzt registrieren