Pandas Einführung und Einrichtung

PandasBeginner
Jetzt üben

Einführung

Willkommen in der Welt der Datenanalyse mit Python! In diesem Lab werden Sie in Pandas eingeführt, die beliebteste und leistungsstärkste Open-Source-Bibliothek für Datenmanipulation und -analyse in Python.

Bevor Sie mit diesem Kurs beginnen, sollten Sie über grundlegende Python-Programmierkenntnisse verfügen und sicherstellen, dass Python korrekt in Ihrem System-PATH konfiguriert ist. Wenn Sie Python noch nicht gelernt haben, können Sie mit unserem Python Learning Path beginnen. Zusätzlich sollten Sie NumPy installiert haben, da es eine wesentliche Voraussetzung für Pandas-Operationen ist. Wenn Sie NumPy lernen müssen, können Sie unseren NumPy Learning Path erkunden.

Pandas bietet leistungsstarke, einfach zu bedienende Datenstrukturen und Datenanalysetools. Die beiden primären Datenstrukturen von Pandas sind Series (1-dimensional) und DataFrame (2-dimensional).

In diesem Lab lernen Sie die absoluten Grundlagen, um Ihnen den Einstieg zu erleichtern. Sie werden:

  • Überprüfen, ob Pandas in Ihrer Umgebung installiert ist.
  • Die Pandas-Bibliothek in ein Python-Skript importieren.
  • Ihr erstes Pandas Series-Objekt erstellen.
  • Auf Daten innerhalb der Series zugreifen.
  • Grundlegende Eigenschaften der Series inspizieren.

Dieses Lab ist für Anfänger konzipiert, und es sind keine Vorkenntnisse in Pandas erforderlich. Lassen Sie uns beginnen!

Pandas mit pip installieren

In diesem Schritt überprüfen wir, ob pandas korrekt in der Umgebung installiert ist. Die LabEx-Umgebung wird mit vorinstalliertem Python und Pandas geliefert, um Ihnen Zeit zu sparen. Sie können dies bestätigen und die Version überprüfen.

Um die Details eines installierten Python-Pakets zu überprüfen, können Sie den Befehl pip show verwenden. pip ist der Paket-Installer für Python.

Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um Informationen über das installierte pandas-Paket anzuzeigen:

pip show pandas
Terminalausgabe mit Details zur pandas-Installation

Sie sollten eine Ausgabe sehen, die den Namen, die Version, eine Zusammenfassung und den Speicherort des Pakets detailliert beschreibt. Die Version sollte 2.2.2 oder ähnlich sein.

Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:

Dies bestätigt, dass pandas in Ihren Python-Skripten verwendet werden kann.

Pandas als pd importieren

In diesem Schritt schreiben Sie Ihre erste Zeile Python-Code, um die Pandas-Bibliothek zu importieren. Gemäß Konvention wird Pandas mit dem Alias pd importiert. Dies macht den Code kürzer und besser lesbar.

Im linken Dateiexplorer der WebIDE sehen Sie eine Datei namens main.py. Diese Datei wurde für Sie erstellt. Klicken Sie darauf, um sie im Editor zu öffnen.

Fügen Sie nun den folgenden Code zu main.py hinzu, um Pandas zu importieren und eine Bestätigungsnachricht auszugeben:

import pandas as pd

print("Pandas imported successfully!")
  • import pandas as pd: Diese Zeile weist Python an, die Pandas-Bibliothek zu laden und ihr den Alias pd zu geben. Von nun an können Sie auf Pandas-Funktionen und -Objekte über pd. zugreifen.
  • print(...): Dies ist eine Standard-Python-Funktion zur Ausgabe von Text im Terminal.
Python-Code zum Importieren von Pandas und zur Ausgabe einer Bestätigung

Um Ihr Skript auszuführen, gehen Sie zum Terminal und geben Sie den folgenden Befehl ein:

python main.py

Sie sollten die Bestätigungsnachricht im Terminal sehen:

Pandas imported successfully!

Dies bestätigt, dass Ihr Python-Skript die Pandas-Bibliothek erfolgreich importieren und verwenden kann.

Eine einfache Series aus einer Liste erstellen

In diesem Schritt erstellen Sie Ihre erste Pandas Series. Eine Series ist ein eindimensionales, array-ähnliches Objekt, das jeden Datentyp wie Ganzzahlen, Zeichenketten oder Gleitkommazahlen enthalten kann. Sie ist der grundlegende Baustein für Daten in Pandas.

Sie können eine Series erstellen, indem Sie eine Python-Liste an den pd.Series()-Konstruktor übergeben.

Ändern Sie Ihre Datei main.py. Ersetzen Sie die vorherige print-Anweisung durch den folgenden Code, um eine Series zu erstellen und auszugeben:

import pandas as pd

## Eine Python-Liste von Zahlen
data = [10, 20, 30, 40, 50]

## Eine Pandas Series aus der Liste erstellen
s = pd.Series(data)

## Die Series ausgeben
print(s)

Vorschlag: Sie können den obigen Code in Ihren Code-Editor kopieren und dann jede Codezeile sorgfältig lesen, um ihre Funktion zu verstehen. Wenn Sie weitere Erklärungen benötigen, können Sie auf die Schaltfläche "Code erklären" 👆 klicken. Sie können mit Labby für personalisierte Hilfe interagieren.

  • data = [...]: Zuerst definieren wir eine einfache Python-Liste von Ganzzahlen.
  • s = pd.Series(data): Wir rufen den Series-Konstruktor aus der pd (Pandas)-Bibliothek auf und übergeben unsere Liste daran. Dies erstellt das Series-Objekt.

Führen Sie das Skript nun erneut im Terminal aus:

python main.py

Die Ausgabe zeigt Ihre Series. Beachten Sie, dass sie zwei Spalten hat: den Index auf der linken Seite (0-4) und die Werte auf der rechten Seite (10-50). Pandas erstellt automatisch einen Standard-Integer-Index, wenn keiner angegeben ist.

0    10
1    20
2    30
3    40
4    50
dtype: int64

Auf Elemente in der Series per Index zugreifen

In diesem Schritt lernen Sie, wie Sie auf einzelne Elemente oder eine Teilmenge von Elementen aus der von Ihnen erstellten Series zugreifen können. Der Zugriff auf Daten ist eine grundlegende Operation in der Datenanalyse. Sie können auf Elemente in einer Series über ihren Index zugreifen, ähnlich wie bei einer Python-Liste.

Lassen Sie uns main.py ändern, um spezifische Elemente abzurufen und auszugeben. Wir greifen auf das erste Element (an Index 0) und einen Ausschnitt von Elementen zu.

Aktualisieren Sie Ihre main.py-Datei mit dem folgenden Code. Fügen Sie die neuen print-Anweisungen nach der Zeile hinzu, die die gesamte Series ausgibt.

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

print("The full Series:")
print(s)

## Auf das erste Element zugreifen (an Index 0)
print("\nFirst element:", s[0])

## Auf einen Ausschnitt von Elementen zugreifen (von Index 1 bis, aber nicht einschließlich, 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
  • s[0]: Dies ruft den Wert an Index 0 ab, der 10 ist.
  • s[1:3]: Dies wird als Slicing bezeichnet. Es ruft die Elemente ab, die bei Index 1 beginnen und bis (aber nicht einschließlich) Index 3 reichen. Dies gibt Ihnen die Elemente an Index 1 und 2.

Führen Sie das Skript aus, um das Ergebnis zu sehen:

python main.py

Ihre Ausgabe sollte nun die vollständige Series anzeigen, gefolgt von den spezifischen Elementen, auf die Sie zugegriffen haben.

The full Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64

First element: 10

Elements from index 1 to 2:
1    20
2    30
dtype: int64

Datentyp und Shape der Series ausgeben

In diesem Schritt lernen Sie, wie Sie zwei wichtige Eigenschaften einer Series untersuchen können: ihren Datentyp (dtype) und ihre Form (shape). Das Verständnis dieser Attribute ist entscheidend für die Fehlersuche und die Datenvalidierung.

  • dtype: Dieses Attribut gibt den Datentyp der in der Series gespeicherten Werte an (z. B. int64 für Ganzzahlen, float64 für Gleitkommazahlen, object für Zeichenketten).
  • shape: Dieses Attribut gibt ein Tupel zurück, das die Dimensionen der Series darstellt. Für eine Series, die eindimensional ist, ist dies ein Tupel mit einem einzigen Wert, (n,), wobei n die Anzahl der Elemente ist.

Lassen Sie uns main.py aktualisieren, um diese beiden Attribute auszugeben. Fügen Sie die folgenden Zeilen am Ende Ihres Skripts hinzu:

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

## ... (vorherige print-Anweisungen können entfernt oder beibehalten werden)

## Datentyp der Series ausgeben
print("\nData type:", s.dtype)

## Form der Series ausgeben
print("Shape:", s.shape)

Führen Sie das Skript nun ein letztes Mal aus:

python main.py

Die Ausgabe enthält nun den Datentyp und die Form Ihrer Series.

Data type: int64
Shape: (5,)

Dies zeigt Ihnen, dass Ihre Series 64-Bit-Ganzzahlen enthält und 5 Elemente hat.

Zusammenfassung

Herzlichen Glückwunsch! Sie haben dieses Einführungslabor zu Pandas erfolgreich abgeschlossen.

In diesem Labor haben Sie die grundlegenden ersten Schritte bei der Arbeit mit dieser leistungsstarken Bibliothek gelernt. Sie haben:

  • Die pandas-Installation in Ihrer Umgebung überprüft.
  • Die pandas-Bibliothek mit dem Standardalias pd in ein Python-Skript importiert.
  • Eine grundlegende eindimensionale Series aus einer Python-Liste erstellt.
  • Mit Hilfe von Indizierung und Slicing auf Elemente der Series zugegriffen.
  • Die Attribute dtype und shape inspiziert, um die Struktur und den Datentyp der Series zu verstehen.

Dies sind die wesentlichen Bausteine, die Sie benötigen werden, wenn Sie zu komplexeren Datenstrukturen wie DataFrame übergehen und fortgeschrittenere Datenanalyseaufgaben durchführen. Üben Sie weiter!