Datenauswahl in Pandas

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab lernen wir, wie man mithilfe von Pandas, einer beliebten Datenanalyse- und -manipulationsbibliothek in Python, spezifische Daten aus einem DataFrame auswählt. Wir werden für diesen Tutorial das Titanic-Dataset verwenden.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Dies ist ein Guided Lab, das schrittweise Anweisungen bietet, um Ihnen beim Lernen und Üben zu helfen. Befolgen Sie die Anweisungen sorgfältig, um jeden Schritt abzuschließen und praktische Erfahrungen zu sammeln. Historische Daten zeigen, dass dies ein Labor der Stufe Anfänger mit einer Abschlussquote von 98% ist. Es hat eine positive Bewertungsrate von 100% von den Lernenden erhalten.

Importieren der erforderlichen Bibliotheken und Daten

Zunächst müssen wir die Pandas-Bibliothek und das Titanic-Dataset importieren.

## Import pandas library
import pandas as pd

## Load the Titanic dataset
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Auswahl einer einzelnen Spalte

Um eine einzelne Spalte auszuwählen, verwenden Sie eckige Klammern [] mit dem Namen der interessierenden Spalte.

## Select the 'Age' column
ages = titanic["Age"]

## Display the first 5 rows
ages.head()

Auswahl mehrerer Spalten

Um mehrere Spalten auszuwählen, verwenden Sie eine Liste von Spaltennamen innerhalb der Auswahlklammern [].

## Select the 'Age' and 'Sex' columns
age_sex = titanic[["Age", "Sex"]]

## Display the first 5 rows
age_sex.head()

Filtern von bestimmten Zeilen

Um Zeilen basierend auf einem bedingten Ausdruck auszuwählen, verwenden Sie die Bedingung innerhalb der Auswahlklammern [].

## Filter rows where 'Age' is greater than 35
above_35 = titanic[titanic["Age"] > 35]

## Display the first 5 rows
above_35.head()

Auswählen bestimmter Zeilen und Spalten

Um sowohl Zeilen als auch Spalten auf einmal auszuwählen, verwenden wir die loc- oder iloc-Operatoren.

## Select 'Name' of passengers older than 35
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## Display the first 5 rows
adult_names.head()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man Daten aus einem DataFrame in Pandas auswählt und filtert. Wir haben gelernt, wie man einzelne oder mehrere Spalten auswählt, Zeilen basierend auf bestimmten Bedingungen filtert und bestimmte Zeilen und Spalten auswählt. Diese Operationen sind grundlegend bei der Datenanalyse und -manipulation mit Pandas.