Einführung in Pandas

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir Ihnen die Grundlagen von pandas, einer leistungsstarken Datenmanipulationsbibliothek in Python, vorstellen. Wir werden Sie durch verschiedene Aufgaben wie das Importieren von pandas, das Erstellen und Anzeigen von Daten, die Datenauswahl, Operationen und vieles mehr führen.

VM-Tipps

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Operationen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Pandas und Numpy importieren

Zunächst müssen wir die Pandas- und Numpy-Pakete importieren. Pandas ist eine leistungsstarke Datenmanipulationsbibliothek, und Numpy wird für mathematische Operationen verwendet.

## Importing necessary libraries
import numpy as np
import pandas as pd

Objekte erstellen

Wir werden eine Series erstellen, indem wir eine Liste von Werten übergeben, und pandas wird einen standardmäßigen ganzzahligen Index erstellen.

## Creating a pandas series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Dataframes erstellen

Wir können einen DataFrame erstellen, indem wir ein Numpy-Array übergeben, mit einem Zeitstempel-Index und markierten Spalten.

## Creating a pandas dataframe
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Daten anzeigen

Wir können die obersten und untersten Zeilen des Dataframes mit den Methoden head() und tail() anzeigen.

## Viewing top rows
df.head()

## Viewing bottom rows
df.tail(3)

Datenauswahl

Wir können Daten mithilfe von Labels oder nach Position auswählen.

## Selecting a single column
df["A"]

## Selecting via position
df.iloc[3]

Datenoperationen

Wir können Operationen auf Dataframes durchführen, wie z.B. Sortieren, Anwenden von Funktionen usw.

## Sorting by an axis
df.sort_index(axis=1, ascending=False)

## Applying a function to the data
df.apply(np.cumsum)

Umgang mit fehlenden Daten

Pandas bietet Methoden, um fehlende Daten im Dataframe zu behandeln.

## Filling missing data
df.fillna(value=5)

## Getting the boolean mask where values are nan
pd.isna(df)

Darstellung von Daten

Pandas verwendet matplotlib zur Darstellung von Daten.

## Plotting data
df.plot()

Speichern und Laden von Daten

Pandas bietet Methoden zum Speichern und Laden von Daten in verschiedenen Formaten wie csv, excel, hdf5, etc.

## Saving data to a csv file
df.to_csv("foo.csv")

## Loading data from a csv file
pd.read_csv("foo.csv")

Zusammenfassung

In diesem Lab haben wir die Grundlagen von Pandas behandelt, einschließlich der Erstellung und des Anzeigens von Daten, der Auswahl und Manipulation von Daten sowie des Speichernd und Ladens von Daten. Wir haben auch gelernt, wie man fehlende Daten behandelt und wie man Daten darstellt. Dies sollte eine solide Grundlage für die weitere Erforschung von Pandas für die Datenanalyse bilden.