Einführung
In diesem Lab werden wir untersuchen, wie man mit der Pandas-Bibliothek in Python textuelle Daten manipulieren kann. Sie werden lernen, wie man Zeichen in Kleinbuchstaben umwandelt, Teile von Zeichenketten extrahiert, Zeichenkettenwerte ersetzt und vieles mehr mit verschiedenen integrierten Pandas-Methoden.
Tipps für die VM
Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importieren von erforderlichen Bibliotheken und Daten
Lassen Sie uns beginnen, indem wir die Pandas-Bibliothek importieren und die Daten laden, die wir für diesen Tutorial verwenden werden.
## Import necessary libraries
import pandas as pd
## Load the data
titanic = pd.read_csv("data/titanic.csv")
Konvertieren von Zeichen in Kleinbuchstaben
Als nächstes werden wir alle Zeichen in der Spalte Name in Kleinbuchstaben umwandeln. Wir verwenden die Methode str.lower(), um dies zu erreichen.
## Convert all characters in the 'Name' column to lowercase
titanic["Name"] = titanic["Name"].str.lower()
Extraktion von Nachnamen aus Vornamen und Nachnamen
Lassen Sie uns nun eine neue Spalte Nachname erstellen, die den Nachnamen der Passagiere enthält. Wir werden dies erreichen, indem wir den Teil vor dem Komma in der Spalte Name extrahieren.
## Split the 'Name' column on comma and extract the first part
titanic["Nachname"] = titanic["Name"].str.split(",").str.get(0)
Extrahieren von spezifischen Passagierdaten
Als nächstes extrahieren wir die Passagierdaten der Grafinnen an Bord der Titanic. Wir verwenden die Methode str.contains(), um Zeilen zu finden, in denen die Spalte Name das Wort 'Countess' enthält.
## Find rows where 'Name' contains 'Countess'
countesses = titanic[titanic["Name"].str.contains("Countess")]
Finde den längsten Namen
Lassen Sie uns herausfinden, welcher Passagier der Titanic den längsten Namen hat. Wir verwenden die Methode str.len(), um die Länge jedes Namens zu erhalten, und die Methode idxmax(), um den Index des längsten Namens zu finden.
## Get the length of each name
name_lengths = titanic["Name"].str.len()
## Find the index of the longest name
longest_name_index = name_lengths.idxmax()
## Get the longest name
longest_name = titanic.loc[longest_name_index, "Name"]
Ersetze Werte in einer Spalte
Schließlich ersetzen wir die Werte in der Spalte Sex: ' männlich' durch 'M' und 'weiblich' durch 'F'. Dafür verwenden wir die Methode replace().
## Replace'male' with 'M' and 'female' with 'F' in the 'Sex' column
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})
Zusammenfassung
In diesem Lab haben wir gesehen, wie man textuelle Daten mit der Pandas-Bibliothek in Python manipulieren kann. Wir haben gelernt, wie man Zeichen in einem String in Kleinbuchstaben umwandelt, Teile eines Strings extrahiert, spezifische Zeilen basierend auf dem Stringinhalt findet, den längsten String findet und Stringwerte ersetzt. Dieses Wissen ist sehr nützlich bei der Datenaufbereitung, einem entscheidenden Schritt in der Datenanalyse und maschinellen Lernen.