Datensatz vorbereiten
Nachdem wir unseren Datensatz betrachtet haben und eine Vorstellung der Daten bekommen haben, wollen wir nun den Datensatz vorbereiten, um ihn nachfolgend auswerten zu können. Nicht selten nimmt die Vorbereitung der Daten die meiste Zeit in Anspruch. Wir arbeiten mit dem gleichen Datensatz wie im vorherigen Video, sodass ich das Laden der Daten hier nicht noch einmal bespreche.
Spaltennamen korrigieren
Zuerst wollen wir uns die Namen der Saplten, also unsere Variablennamen einmal anschauen.
colnames(Data)
## [1] "Global.Rank" "Company"
## [3] "Sales...billion." "Profits...billion."
## [5] "Assets...billion." "Market.Value...billion."
Wie wir sehen, sind die Spaltennamen nicht schön formatiert. Meistens gibt es hier einige Umsetzungsfehler aus Excel-Dateien o.Ä. Wenn wir unsere Spaltennamen neu vergeben wollen, können wir dies tun, indem wir uns zuerst einen neuen Vektor erstellen, welcher die gewünschten Spaltennamen enthält.
Neue.Namen <- c("Globaler.Rang", "Firmenname", "Verkauf", "Profit", "Vermögen", "Markwert")
Nun haben wir den Vektor erstellt und können diesen nun nutzen, um unsere Spalten umzubenennen:
colnames(Data) <- Neue.Namen
Nun schauen wir ob es geklappt hat, indem wir noch einmal colnames() verwenden:
colnames(Data)
## [1] "Globaler.Rang" "Firmenname" "Verkauf" "Profit"
## [5] "Vermögen" "Markwert"
Nun sind unsere Spaltennamen schön formatiert.
Firmennamen korrigieren
Nun wollen wir uns den Firmennamen widmen. Wenn wir diese ausgeben, sehen wir, das 3 Namen aufgrund der Umlaute in der deutschen Sprache unschön formatiert sind:
Data$Firmenname
## [1] "Volkswagen Group" "Allianz"
## [3] "Daimler" "Siemens"
## [5] "BMW Group" "BASF"
## [7] "Munich Re" "E.ON"
## [9] "Bayer" "RWE Group"
## [11] "Deutsche Post" "SAP"
## [13] "Continental" "Linde"
## [15] "Deutsche Bank" "Henkel"
## [17] "Fresenius" "Deutsche Lufthansa"
## [19] "Talanx" "Deutsche Telekom"
## [21] "Merck" "Porsche Automobil Holding"
## [23] "EnBW-Energie Baden" "Adidas"
## [25] "HeidelbergCement" "Commerzbank"
## [27] "ThyssenKrupp Group" "Deutsche Boerse"
## [29] "Metro Group" "Beirsdorf"
## [31] "Südzucker" "Lanxess"
## [33] "W&W-Wüstenrot" "K+S"
## [35] "Brenntag" "TUI"
## [37] "Aurubis" "Infineon Technologies"
## [39] "GEA Group" "Bilfinger"
## [41] "Celesio" "Salzgitter"
## [43] "Aareal Bank" "Nürnberger"
## [45] "IKB Deutsche" "Hugo Boss"
## [47] "ProSiebenSat1 Media" "BayWa"
## [49] "DVB Bank" "Fraport"
Die Namen in Zeile 31, 33 und 44 sind schlecht formatiert. Dies können wir reparieren, indem wir mithilfe der Dataframe-Indexierung neue Namen vergeben.
Data[31,2] <- "Südzucker"
Data[33,2] <- "Wüstenrot"
Data[44,2] <- "Nürnberger"
Data[c(31, 33, 44), 2]
## [1] "Südzucker" "Wüstenrot" "Nürnberger"
Nun haben wir auch die falsch formatierten Namen optimiert.