Meister der Datenanalyse mit Pandas

Einführung

Pandas ist ein leistungsstarkes Datenmanipulationswerkzeug, das von Python entwickelt wurde. Es wird häufig bei der Datenanalyse und -bereinigung verwendet, da es flexibel und einfach zu bedienen ist. In diesem Lab werden wir lernen, wie man Pandas verwendet, um grundlegende Operationen durchzuführen, wie das Laden von Daten, das Erstellen von DataFrames, das Zugreifen auf Daten und das Durchführen einfacher Statistiken.

Tipps für die VM

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Operationen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Dies ist ein Guided Lab, das schrittweise Anweisungen bietet, um Ihnen beim Lernen und Üben zu helfen. Befolgen Sie die Anweisungen sorgfältig, um jeden Schritt abzuschließen und praktische Erfahrungen zu sammeln. Historische Daten zeigen, dass dies ein Labor der Stufe Anfänger mit einer Abschlussquote von 86% ist. Es hat eine positive Bewertungsrate von 100% von den Lernenden erhalten.

Importieren des Pandas-Pakets

Bevor Sie Pandas verwenden können, müssen Sie es importieren. Es ist eine übliche Praxis, Pandas mit dem Alias pd zu importieren.

## Importing pandas package
import pandas as pd

Erstellen eines DataFrames

Die Daten in pandas werden in einem DataFrame gespeichert, das eine zweidimensionale gelabelte Datenstruktur ist, deren Spalten möglicherweise unterschiedlicher Typen sind.

## Creating a DataFrame
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

Auswahl einer Spalte

Wenn Sie mit den Daten in einer bestimmten Spalte arbeiten möchten, können Sie sie mithilfe des Spaltenlabels auswählen. Das Ergebnis ist eine pandas Series.

## Selecting the 'Age' column
df["Age"]

Durchführen von Grundlegenden Statistiken

Pandas bietet viele Funktionen zur Durchführung von Statistiken. Beispielsweise können Sie den maximalen Wert in einer Spalte mit max() finden.

## Finding the maximum age
df["Age"].max()

Sie können auch einen schnellen Überblick über die numerischen Daten in einem DataFrame mit describe() erhalten.

## Describing the numerical data
df.describe()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man das Pandas-Paket importiert, einen DataFrame erstellt, eine Spalte auswählt und grundlegende Statistiken durchführt. Pandas ist ein vielseitiges Tool, das Daten unterschiedlicher Typen verarbeiten kann, was es zu einer großartigen Wahl für die Datenanalyse und -manipulation macht.

Arbeiten mit Pandas