Überblick verschaffen
In dieser Session wollen wir uns einen Überblick über Daten verschaffen. Dazu gibt uns R verschiedenen Funktionen an die Hand. Zuerst laden wir unsere Daten in R.
Data <- read.csv("Deutsche Firmen.csv")
Dimensionen unserer Daten
Zu Beginn ergibt es Sinn, sich eine Vorstellung der Dimensionen unserer Daten zu machen. Daten liegen fast immer in Tabellenform vor, sodass wir uns einen Eindruck verschaffen können, indem wir die Anzahl der Zeilen und Spalten erfahren. Hierzu gibt es zwei Funktionen in R:
nrow(Data)
## [1] 50
ncol(Data)
## [1] 6
Mit der Funktion dim() (dim für dimensions) können wir beide Werte zugleich ausgeben lassen.
dim(Data)
## [1] 50 6
Die str()-Funktion
Um unsere Daten noch etwas genauer zu inspizieren, können wir die str()-Funktion (str für structure) verwenden.
str(Data)
## 'data.frame': 50 obs. of 6 variables:
## $ Global.Rank : int 14 25 36 51 55 69 81 99 120 177 ...
## $ Company : chr "Volkswagen Group" "Allianz" "Daimler" "Siemens" ...
## $ Sales...billion. : num 254 140.3 150.8 100.6 98.8 ...
## $ Profits...billion. : num 28.6 6.8 8 5.7 6.6 6.4 4.2 2.9 3.2 1.7 ...
## $ Assets...billion. : num 408 916 212 134 166 ...
## $ Market.Value...billion.: num 94.4 66.4 64.1 91.9 60 90.1 34.9 32.5 84.9 22.9 ...
Hier werden uns die Datenform (Dataframe) sowie die Dimensionen unserer Daten angezeigt. Darüber hinaus zeigt uns der Output die Variablen (also Spaltennamen) an, um welchen Datentyp es sich handelt (numerisch, character, factor, integer) und gibt beispielhafte Werte aus dem Dataframe an. So kann mich sich schnell einen etwas auführlicher Überblick über die vorhandenen Daten machen.
head() und tail()
Mit diesen beiden Funktionen können wir uns jeweils die ersten oder die letzten 6 Zeilen unseres Datensatzen anschauen um einen kurz gefassten Blick in die Daten zu werfen.
head(Data)
## Global.Rank Company Sales...billion. Profits...billion.
## 1 14 Volkswagen Group 254.0 28.6
## 2 25 Allianz 140.3 6.8
## 3 36 Daimler 150.8 8.0
## 4 51 Siemens 100.6 5.7
## 5 55 BMW Group 98.8 6.6
## 6 69 BASF 103.9 6.4
## Assets...billion. Market.Value...billion.
## 1 408.2 94.4
## 2 915.8 66.4
## 3 211.9 64.1
## 4 134.4 91.9
## 5 165.5 60.0
## 6 83.5 90.1
tail(Data)
## Global.Rank Company Sales...billion. Profits...billion.
## 45 1759 IKB Deutsche 2.6 -0.7
## 46 1782 Hugo Boss 3.0 0.4
## 47 1790 ProSiebenSat1 Media 3.0 0.4
## 48 1875 BayWa 13.5 0.1
## 49 1880 DVB Bank 1.5 0.2
## 50 1921 Fraport 3.1 0.3
## Assets...billion. Market.Value...billion.
## 45 41.8 0.4
## 46 2.1 7.7
## 47 7.1 7.9
## 48 5.9 1.7
## 49 31.4 1.5
## 50 12.7 5.2
Auf fehlende Werte prüfen
Bevor wir mit unseren Daten arbeiten und diese analysieren, ist es wichtig, die Daten auf Unvollständigkeit zu prüfen. Fehlende Werte werden in R als NA angezeigt (NA für not available). Hierzu können wir folgende Funktion nutzen:
any(is.na(Data))
## [1] FALSE
Unser Datensatz hat keinen fehlenden Werte, sodass wir gut damit arbeiten können. Wären fehlende Werte vorhanden, so müssten wir uns Gedanken machen, was wir damit machen wollen. Einige der statistischen Funktionen und Operationen funktionieren nicht mehr, sobald fehlende Werte in den Vektoren vorhanden sind. Wie wir mit fehlenden Werten umgehen werden wir in einem anderen Video besprechen.
summary()
Eine weitere sehr hilfreiche Funktion ist die summary()-Funktion. Mit ihr können wir numerische Variablen schnell zusammenfassen:
summary(Data$Market.Value...billion.)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.40 6.65 11.60 25.27 34.30 103.90
Wie wir sehen, gibt uns die Funktion viele grundlegende statistische Größen zurück. Wir können die FUnktion auch auf das gesamte Dataframe anwenden:
summary(Data)
## Global.Rank Company Sales...billion. Profits...billion.
## Min. : 14.0 Length:50 Min. : 1.50 Min. :-6.90
## 1st Qu.: 244.0 Class :character 1st Qu.: 8.20 1st Qu.: 0.30
## Median : 624.5 Mode :character Median : 20.55 Median : 0.60
## Mean : 788.6 Mean : 41.70 Mean : 1.92
## 3rd Qu.:1330.5 3rd Qu.: 54.38 3rd Qu.: 2.15
## Max. :1921.0 Max. :254.00 Max. :28.60
## Assets...billion. Market.Value...billion.
## Min. : 2.1 Min. : 0.40
## 1st Qu.: 11.1 1st Qu.: 6.65
## Median : 39.0 Median : 11.60
## Mean : 152.7 Mean : 25.27
## 3rd Qu.: 109.1 3rd Qu.: 34.30
## Max. :2652.6 Max. :103.90