Arbeiten mit Datenstrukturen in Pandas

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Pandas ist eine leistungsstarke Python-Bibliothek zur Datenmanipulation und -analyse. Seine grundlegenden Datenstrukturen, Series und DataFrame, ermöglichen es Ihnen, strukturierte Daten zu speichern und zu manipulieren. In diesem Lab erhalten Sie einen Schritt-für-Schritt-Leitfaden darüber, wie Sie mit diesen Datenstrukturen arbeiten, von der Erstellung bis zur Manipulation und Ausrichtung.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren der erforderlichen Bibliotheken

Bevor wir beginnen, importieren wir die erforderlichen Bibliotheken. Für dieses Lab benötigen wir NumPy und pandas.

## Import necessary libraries
import numpy as np
import pandas as pd

Erstellen einer Series

Die erste Datenstruktur, mit der wir uns befassen werden, ist eine Series, die ein eindimensionales markiertes Array ist. Es kann beliebige Datentypen aufnehmen, einschließlich Ganzzahlen, Zeichenketten, Gleitkommazahlen und Python-Objekten.

## Create a Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

Erstellen eines DataFrames

Die andere grundlegende Datenstruktur ist der DataFrame. Es ist eine zweidimensionale markierte Datenstruktur mit Spalten, die möglicherweise unterschiedliche Typen aufweisen.

## Create a DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))

Manipulieren von DataFrame-Spalten

Sie können verschiedene Operationen auf DataFrame-Spalten ausführen. Beispielsweise können Sie eine Spalte auswählen, eine neue Spalte hinzufügen oder eine Spalte löschen.

## Select column A
df['A']

## Add a new column E
df['E'] = pd.Series(np.random.randn(6), index=df.index)

## Delete column B
del df['B']

Datenalignment und Arithmetik

Datenalignment ist ein wichtiges Merkmal von pandas. Wenn Sie Operationen auf zwei Objekten ausführen, ordnet pandas sie anhand ihrer zugeordneten Labels an.

## Create two DataFrames
df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])

## Perform addition operation
result = df1 + df2

Arbeiten mit NumPy-Funktionen

Die meisten NumPy-Funktionen können direkt auf Series- und DataFrame-Objekte aufgerufen werden, was eine große Flexibilität bei der Datenmanipulation und -analyse bietet.

## Apply the exponential function to a DataFrame
np.exp(df)

Zusammenfassung

In diesem Lab haben wir uns mit den zwei grundlegenden Datenstrukturen in pandas: Series und DataFrame, beschäftigt. Wir haben gelernt, wie man diese Strukturen erstellt und manipuliert, und wie man NumPy-Funktionen direkt auf ihnen anwendet. Wir haben auch das Konzept des Datenalignments untersucht, das ein leistungsstarkes Merkmal von pandas ist und für eine intuitive Datenmanipulation und -analyse ermöglicht.