Pandas Textmanipulation

Einführung

In diesem Lab werden wir untersuchen, wie man mit der Pandas-Bibliothek in Python textuelle Daten manipulieren kann. Sie werden lernen, wie man Zeichen in Kleinbuchstaben umwandelt, Teile von Zeichenketten extrahiert, Zeichenkettenwerte ersetzt und vieles mehr mit verschiedenen integrierten Pandas-Methoden.

Tipps für die VM

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Dies ist ein Guided Lab, das schrittweise Anweisungen bietet, um Ihnen beim Lernen und Üben zu helfen. Befolgen Sie die Anweisungen sorgfältig, um jeden Schritt abzuschließen und praktische Erfahrungen zu sammeln. Historische Daten zeigen, dass dies ein Labor der Stufe Anfänger mit einer Abschlussquote von 98% ist. Es hat eine positive Bewertungsrate von 100% von den Lernenden erhalten.

Importieren von erforderlichen Bibliotheken und Daten

Lassen Sie uns beginnen, indem wir die Pandas-Bibliothek importieren und die Daten laden, die wir für diesen Tutorial verwenden werden.

## Import necessary libraries
import pandas as pd

## Load the data
titanic = pd.read_csv("data/titanic.csv")

Konvertieren von Zeichen in Kleinbuchstaben

Als nächstes werden wir alle Zeichen in der Spalte Name in Kleinbuchstaben umwandeln. Wir verwenden die Methode str.lower(), um dies zu erreichen.

## Convert all characters in the 'Name' column to lowercase
titanic["Name"] = titanic["Name"].str.lower()

Extraktion von Nachnamen aus Vornamen und Nachnamen

Lassen Sie uns nun eine neue Spalte Nachname erstellen, die den Nachnamen der Passagiere enthält. Wir werden dies erreichen, indem wir den Teil vor dem Komma in der Spalte Name extrahieren.

## Split the 'Name' column on comma and extract the first part
titanic["Nachname"] = titanic["Name"].str.split(",").str.get(0)

Extrahieren von spezifischen Passagierdaten

Als nächstes extrahieren wir die Passagierdaten der Grafinnen an Bord der Titanic. Wir verwenden die Methode str.contains(), um Zeilen zu finden, in denen die Spalte Name das Wort 'Countess' enthält.

## Find rows where 'Name' contains 'Countess'
countesses = titanic[titanic["Name"].str.contains("Countess")]

Finde den längsten Namen

Lassen Sie uns herausfinden, welcher Passagier der Titanic den längsten Namen hat. Wir verwenden die Methode str.len(), um die Länge jedes Namens zu erhalten, und die Methode idxmax(), um den Index des längsten Namens zu finden.

## Get the length of each name
name_lengths = titanic["Name"].str.len()

## Find the index of the longest name
longest_name_index = name_lengths.idxmax()

## Get the longest name
longest_name = titanic.loc[longest_name_index, "Name"]

Ersetze Werte in einer Spalte

Schließlich ersetzen wir die Werte in der Spalte Sex: ' männlich' durch 'M' und 'weiblich' durch 'F'. Dafür verwenden wir die Methode replace().

## Replace'male' with 'M' and 'female' with 'F' in the 'Sex' column
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})

Zusammenfassung

In diesem Lab haben wir gesehen, wie man textuelle Daten mit der Pandas-Bibliothek in Python manipulieren kann. Wir haben gelernt, wie man Zeichen in einem String in Kleinbuchstaben umwandelt, Teile eines Strings extrahiert, spezifische Zeilen basierend auf dem Stringinhalt findet, den längsten String findet und Stringwerte ersetzt. Dieses Wissen ist sehr nützlich bei der Datenaufbereitung, einem entscheidenden Schritt in der Datenanalyse und maschinellen Lernen.

Pandas Textuelle Daten