Überblick verschaffen

Zurück

In dieser Session wollen wir uns einen Überblick über Daten verschaffen. Dazu gibt uns R verschiedenen Funktionen an die Hand. Zuerst laden wir unsere Daten in R.

Data <- read.csv("Deutsche Firmen.csv")

Dimensionen unserer Daten

Zu Beginn ergibt es Sinn, sich eine Vorstellung der Dimensionen unserer Daten zu machen. Daten liegen fast immer in Tabellenform vor, sodass wir uns einen Eindruck verschaffen können, indem wir die Anzahl der Zeilen und Spalten erfahren. Hierzu gibt es zwei Funktionen in R:

nrow(Data)

## [1] 50

ncol(Data)

## [1] 6

Mit der Funktion dim() (dim für dimensions) können wir beide Werte zugleich ausgeben lassen.

dim(Data)

## [1] 50  6

Die str()-Funktion

Um unsere Daten noch etwas genauer zu inspizieren, können wir die str()-Funktion (str für structure) verwenden.

str(Data)

## 'data.frame':    50 obs. of  6 variables:
##  $ Global.Rank            : int  14 25 36 51 55 69 81 99 120 177 ...
##  $ Company                : chr  "Volkswagen Group" "Allianz" "Daimler" "Siemens" ...
##  $ Sales...billion.       : num  254 140.3 150.8 100.6 98.8 ...
##  $ Profits...billion.     : num  28.6 6.8 8 5.7 6.6 6.4 4.2 2.9 3.2 1.7 ...
##  $ Assets...billion.      : num  408 916 212 134 166 ...
##  $ Market.Value...billion.: num  94.4 66.4 64.1 91.9 60 90.1 34.9 32.5 84.9 22.9 ...

Hier werden uns die Datenform (Dataframe) sowie die Dimensionen unserer Daten angezeigt. Darüber hinaus zeigt uns der Output die Variablen (also Spaltennamen) an, um welchen Datentyp es sich handelt (numerisch, character, factor, integer) und gibt beispielhafte Werte aus dem Dataframe an. So kann mich sich schnell einen etwas auführlicher Überblick über die vorhandenen Daten machen.

head() und tail()

Mit diesen beiden Funktionen können wir uns jeweils die ersten oder die letzten 6 Zeilen unseres Datensatzen anschauen um einen kurz gefassten Blick in die Daten zu werfen.

head(Data)

##   Global.Rank          Company Sales...billion. Profits...billion.
## 1          14 Volkswagen Group            254.0               28.6
## 2          25          Allianz            140.3                6.8
## 3          36          Daimler            150.8                8.0
## 4          51          Siemens            100.6                5.7
## 5          55        BMW Group             98.8                6.6
## 6          69             BASF            103.9                6.4
##   Assets...billion. Market.Value...billion.
## 1             408.2                    94.4
## 2             915.8                    66.4
## 3             211.9                    64.1
## 4             134.4                    91.9
## 5             165.5                    60.0
## 6              83.5                    90.1

tail(Data)

##    Global.Rank             Company Sales...billion. Profits...billion.
## 45        1759        IKB Deutsche              2.6               -0.7
## 46        1782           Hugo Boss              3.0                0.4
## 47        1790 ProSiebenSat1 Media              3.0                0.4
## 48        1875               BayWa             13.5                0.1
## 49        1880            DVB Bank              1.5                0.2
## 50        1921             Fraport              3.1                0.3
##    Assets...billion. Market.Value...billion.
## 45              41.8                     0.4
## 46               2.1                     7.7
## 47               7.1                     7.9
## 48               5.9                     1.7
## 49              31.4                     1.5
## 50              12.7                     5.2

Auf fehlende Werte prüfen

Bevor wir mit unseren Daten arbeiten und diese analysieren, ist es wichtig, die Daten auf Unvollständigkeit zu prüfen. Fehlende Werte werden in R als NA angezeigt (NA für not available). Hierzu können wir folgende Funktion nutzen:

any(is.na(Data))

## [1] FALSE

Unser Datensatz hat keinen fehlenden Werte, sodass wir gut damit arbeiten können. Wären fehlende Werte vorhanden, so müssten wir uns Gedanken machen, was wir damit machen wollen. Einige der statistischen Funktionen und Operationen funktionieren nicht mehr, sobald fehlende Werte in den Vektoren vorhanden sind. Wie wir mit fehlenden Werten umgehen werden wir in einem anderen Video besprechen.

summary()

Eine weitere sehr hilfreiche Funktion ist die summary()-Funktion. Mit ihr können wir numerische Variablen schnell zusammenfassen:

summary(Data$Market.Value...billion.)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.40    6.65   11.60   25.27   34.30  103.90

Wie wir sehen, gibt uns die Funktion viele grundlegende statistische Größen zurück. Wir können die FUnktion auch auf das gesamte Dataframe anwenden:

summary(Data)

##   Global.Rank       Company          Sales...billion. Profits...billion.
##  Min.   :  14.0   Length:50          Min.   :  1.50   Min.   :-6.90     
##  1st Qu.: 244.0   Class :character   1st Qu.:  8.20   1st Qu.: 0.30     
##  Median : 624.5   Mode  :character   Median : 20.55   Median : 0.60     
##  Mean   : 788.6                      Mean   : 41.70   Mean   : 1.92     
##  3rd Qu.:1330.5                      3rd Qu.: 54.38   3rd Qu.: 2.15     
##  Max.   :1921.0                      Max.   :254.00   Max.   :28.60     
##  Assets...billion. Market.Value...billion.
##  Min.   :   2.1    Min.   :  0.40         
##  1st Qu.:  11.1    1st Qu.:  6.65         
##  Median :  39.0    Median : 11.60         
##  Mean   : 152.7    Mean   : 25.27         
##  3rd Qu.: 109.1    3rd Qu.: 34.30         
##  Max.   :2652.6    Max.   :103.90

Skripte, Audio (Stream & Download)

Bitte melde dich an, um diesen Inhalt zu sehen.,
Login | Jetzt registrieren