Grundlagen der Datenmanipulation mit Pandas

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Dieses Python Pandas Lab hat zum Ziel, Ihnen die grundlegenden Operationen der pandas-Bibliothek vorzustellen, die ein leistungsstarkes Datenmanipulationswerkzeug in Python ist. Während dieses Labs werden Sie mit zahlreichen Beispielen und Codeausschnitten arbeiten, um Ihr Verständnis von pandas zu vertiefen.

VM-Tipps

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Operationen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Pandas importieren

Zunächst müssen wir die pandas-Bibliothek importieren. Dies kann mit dem folgenden Befehl erreicht werden:

## Importing pandas library
import pandas as pd
import numpy as np

Erstellen eines DataFrames

Als nächstes werden wir ein DataFrame erstellen, das eine zweidimensionale gelabelte Datenstruktur mit Spalten von möglicherweise unterschiedlichen Typen ist. Es ist im Allgemeinen das am häufigsten verwendete pandas-Objekt.

## Creating a DataFrame with a dictionary
df = pd.DataFrame({'A': [1, 2, 3]})

DataFrames verstehen

Lassen Sie uns nun versuchen, mehr über das gerade erstellte DataFrame zu verstehen.

## Displaying the DataFrame
print(df)

## Info about the DataFrame
df.info()

Arbeiten mit fehlenden Daten

Pandas bietet verschiedene Methoden zum Bereinigen von Daten und zum Auffüllen von fehlenden Werten.

## Creating a DataFrame with missing values
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})

## Filling missing values
df.fillna(value=0, inplace=True)

Datenvisualisierung

Pandas ermöglicht die Datenvisualisierung durch die Integration mit der Matplotlib-Bibliothek.

## Importing matplotlib library
import matplotlib.pyplot as plt

## Plotting a graph
df['A'].plot()
plt.show()

Zusammenfassung

In diesem Lab haben wir einige Grundlagen der pandas-Bibliothek in Python behandelt, einschließlich des Importierens der Bibliothek, des Erstellens und Manipulierens eines DataFrames, des Umgangs mit fehlenden Daten und der Visualisierung der Daten. Diese Fähigkeiten sind grundlegend für jede Datenanalyseaufgabe in Python, und das Erlernen von pandas wird es Ihnen ermöglichen, Daten effektiv zu verarbeiten und zu analysieren.