Einführung
Pandas ist ein leistungsstarkes Datenmanipulationswerkzeug, das von Python entwickelt wurde. Es wird häufig bei der Datenanalyse und -bereinigung verwendet, da es flexibel und einfach zu bedienen ist. In diesem Lab werden wir lernen, wie man Pandas verwendet, um grundlegende Operationen durchzuführen, wie das Laden von Daten, das Erstellen von DataFrames, das Zugreifen auf Daten und das Durchführen einfacher Statistiken.
Tipps für die VM
Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Operationen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importieren des Pandas-Pakets
Bevor Sie Pandas verwenden können, müssen Sie es importieren. Es ist eine übliche Praxis, Pandas mit dem Alias pd zu importieren.
## Importing pandas package
import pandas as pd
Erstellen eines DataFrames
Die Daten in pandas werden in einem DataFrame gespeichert, das eine zweidimensionale gelabelte Datenstruktur ist, deren Spalten möglicherweise unterschiedlicher Typen sind.
## Creating a DataFrame
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
Auswahl einer Spalte
Wenn Sie mit den Daten in einer bestimmten Spalte arbeiten möchten, können Sie sie mithilfe des Spaltenlabels auswählen. Das Ergebnis ist eine pandas Series.
## Selecting the 'Age' column
df["Age"]
Durchführen von Grundlegenden Statistiken
Pandas bietet viele Funktionen zur Durchführung von Statistiken. Beispielsweise können Sie den maximalen Wert in einer Spalte mit max() finden.
## Finding the maximum age
df["Age"].max()
Sie können auch einen schnellen Überblick über die numerischen Daten in einem DataFrame mit describe() erhalten.
## Describing the numerical data
df.describe()
Zusammenfassung
In diesem Lab haben wir gelernt, wie man das Pandas-Paket importiert, einen DataFrame erstellt, eine Spalte auswählt und grundlegende Statistiken durchführt. Pandas ist ein vielseitiges Tool, das Daten unterschiedlicher Typen verarbeiten kann, was es zu einer großartigen Wahl für die Datenanalyse und -manipulation macht.