Einführung
Willkommen in der Welt der Datenanalyse mit Python! In diesem Lab werden Sie in Pandas eingeführt, die beliebteste und leistungsstärkste Open-Source-Bibliothek für Datenmanipulation und -analyse in Python.
Bevor Sie mit diesem Kurs beginnen, sollten Sie über grundlegende Python-Programmierkenntnisse verfügen und sicherstellen, dass Python korrekt in Ihrem System-PATH konfiguriert ist. Wenn Sie Python noch nicht gelernt haben, können Sie mit unserem Python Learning Path beginnen. Zusätzlich sollten Sie NumPy installiert haben, da es eine wesentliche Voraussetzung für Pandas-Operationen ist. Wenn Sie NumPy lernen müssen, können Sie unseren NumPy Learning Path erkunden.
Pandas bietet leistungsstarke, einfach zu bedienende Datenstrukturen und Datenanalysetools. Die beiden primären Datenstrukturen von Pandas sind Series (1-dimensional) und DataFrame (2-dimensional).
In diesem Lab lernen Sie die absoluten Grundlagen, um Ihnen den Einstieg zu erleichtern. Sie werden:
- Überprüfen, ob Pandas in Ihrer Umgebung installiert ist.
- Die Pandas-Bibliothek in ein Python-Skript importieren.
- Ihr erstes Pandas
Series-Objekt erstellen. - Auf Daten innerhalb der
Serieszugreifen. - Grundlegende Eigenschaften der
Seriesinspizieren.
Dieses Lab ist für Anfänger konzipiert, und es sind keine Vorkenntnisse in Pandas erforderlich. Lassen Sie uns beginnen!
Pandas mit pip installieren
In diesem Schritt überprüfen wir, ob pandas korrekt in der Umgebung installiert ist. Die LabEx-Umgebung wird mit vorinstalliertem Python und Pandas geliefert, um Ihnen Zeit zu sparen. Sie können dies bestätigen und die Version überprüfen.
Um die Details eines installierten Python-Pakets zu überprüfen, können Sie den Befehl pip show verwenden. pip ist der Paket-Installer für Python.
Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um Informationen über das installierte pandas-Paket anzuzeigen:
pip show pandas

Sie sollten eine Ausgabe sehen, die den Namen, die Version, eine Zusammenfassung und den Speicherort des Pakets detailliert beschreibt. Die Version sollte 2.2.2 oder ähnlich sein.
Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:
Dies bestätigt, dass pandas in Ihren Python-Skripten verwendet werden kann.
Pandas als pd importieren
In diesem Schritt schreiben Sie Ihre erste Zeile Python-Code, um die Pandas-Bibliothek zu importieren. Gemäß Konvention wird Pandas mit dem Alias pd importiert. Dies macht den Code kürzer und besser lesbar.
Im linken Dateiexplorer der WebIDE sehen Sie eine Datei namens main.py. Diese Datei wurde für Sie erstellt. Klicken Sie darauf, um sie im Editor zu öffnen.
Fügen Sie nun den folgenden Code zu main.py hinzu, um Pandas zu importieren und eine Bestätigungsnachricht auszugeben:
import pandas as pd
print("Pandas imported successfully!")
import pandas as pd: Diese Zeile weist Python an, die Pandas-Bibliothek zu laden und ihr den Aliaspdzu geben. Von nun an können Sie auf Pandas-Funktionen und -Objekte überpd.zugreifen.print(...): Dies ist eine Standard-Python-Funktion zur Ausgabe von Text im Terminal.

Um Ihr Skript auszuführen, gehen Sie zum Terminal und geben Sie den folgenden Befehl ein:
python main.py
Sie sollten die Bestätigungsnachricht im Terminal sehen:
Pandas imported successfully!
Dies bestätigt, dass Ihr Python-Skript die Pandas-Bibliothek erfolgreich importieren und verwenden kann.
Eine einfache Series aus einer Liste erstellen
In diesem Schritt erstellen Sie Ihre erste Pandas Series. Eine Series ist ein eindimensionales, array-ähnliches Objekt, das jeden Datentyp wie Ganzzahlen, Zeichenketten oder Gleitkommazahlen enthalten kann. Sie ist der grundlegende Baustein für Daten in Pandas.
Sie können eine Series erstellen, indem Sie eine Python-Liste an den pd.Series()-Konstruktor übergeben.
Ändern Sie Ihre Datei main.py. Ersetzen Sie die vorherige print-Anweisung durch den folgenden Code, um eine Series zu erstellen und auszugeben:
import pandas as pd
## Eine Python-Liste von Zahlen
data = [10, 20, 30, 40, 50]
## Eine Pandas Series aus der Liste erstellen
s = pd.Series(data)
## Die Series ausgeben
print(s)
Vorschlag: Sie können den obigen Code in Ihren Code-Editor kopieren und dann jede Codezeile sorgfältig lesen, um ihre Funktion zu verstehen. Wenn Sie weitere Erklärungen benötigen, können Sie auf die Schaltfläche "Code erklären" 👆 klicken. Sie können mit Labby für personalisierte Hilfe interagieren.
data = [...]: Zuerst definieren wir eine einfache Python-Liste von Ganzzahlen.s = pd.Series(data): Wir rufen denSeries-Konstruktor aus derpd(Pandas)-Bibliothek auf und übergeben unsere Liste daran. Dies erstellt dasSeries-Objekt.
Führen Sie das Skript nun erneut im Terminal aus:
python main.py
Die Ausgabe zeigt Ihre Series. Beachten Sie, dass sie zwei Spalten hat: den Index auf der linken Seite (0-4) und die Werte auf der rechten Seite (10-50). Pandas erstellt automatisch einen Standard-Integer-Index, wenn keiner angegeben ist.
0 10
1 20
2 30
3 40
4 50
dtype: int64
Auf Elemente in der Series per Index zugreifen
In diesem Schritt lernen Sie, wie Sie auf einzelne Elemente oder eine Teilmenge von Elementen aus der von Ihnen erstellten Series zugreifen können. Der Zugriff auf Daten ist eine grundlegende Operation in der Datenanalyse. Sie können auf Elemente in einer Series über ihren Index zugreifen, ähnlich wie bei einer Python-Liste.
Lassen Sie uns main.py ändern, um spezifische Elemente abzurufen und auszugeben. Wir greifen auf das erste Element (an Index 0) und einen Ausschnitt von Elementen zu.
Aktualisieren Sie Ihre main.py-Datei mit dem folgenden Code. Fügen Sie die neuen print-Anweisungen nach der Zeile hinzu, die die gesamte Series ausgibt.
import pandas as pd
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print("The full Series:")
print(s)
## Auf das erste Element zugreifen (an Index 0)
print("\nFirst element:", s[0])
## Auf einen Ausschnitt von Elementen zugreifen (von Index 1 bis, aber nicht einschließlich, 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
s[0]: Dies ruft den Wert an Index0ab, der10ist.s[1:3]: Dies wird als Slicing bezeichnet. Es ruft die Elemente ab, die bei Index1beginnen und bis (aber nicht einschließlich) Index3reichen. Dies gibt Ihnen die Elemente an Index1und2.
Führen Sie das Skript aus, um das Ergebnis zu sehen:
python main.py
Ihre Ausgabe sollte nun die vollständige Series anzeigen, gefolgt von den spezifischen Elementen, auf die Sie zugegriffen haben.
The full Series:
0 10
1 20
2 30
3 40
4 50
dtype: int64
First element: 10
Elements from index 1 to 2:
1 20
2 30
dtype: int64
Datentyp und Shape der Series ausgeben
In diesem Schritt lernen Sie, wie Sie zwei wichtige Eigenschaften einer Series untersuchen können: ihren Datentyp (dtype) und ihre Form (shape). Das Verständnis dieser Attribute ist entscheidend für die Fehlersuche und die Datenvalidierung.
dtype: Dieses Attribut gibt den Datentyp der in derSeriesgespeicherten Werte an (z. B.int64für Ganzzahlen,float64für Gleitkommazahlen,objectfür Zeichenketten).shape: Dieses Attribut gibt ein Tupel zurück, das die Dimensionen derSeriesdarstellt. Für eineSeries, die eindimensional ist, ist dies ein Tupel mit einem einzigen Wert,(n,), wobeindie Anzahl der Elemente ist.
Lassen Sie uns main.py aktualisieren, um diese beiden Attribute auszugeben. Fügen Sie die folgenden Zeilen am Ende Ihres Skripts hinzu:
import pandas as pd
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
## ... (vorherige print-Anweisungen können entfernt oder beibehalten werden)
## Datentyp der Series ausgeben
print("\nData type:", s.dtype)
## Form der Series ausgeben
print("Shape:", s.shape)
Führen Sie das Skript nun ein letztes Mal aus:
python main.py
Die Ausgabe enthält nun den Datentyp und die Form Ihrer Series.
Data type: int64
Shape: (5,)
Dies zeigt Ihnen, dass Ihre Series 64-Bit-Ganzzahlen enthält und 5 Elemente hat.
Zusammenfassung
Herzlichen Glückwunsch! Sie haben dieses Einführungslabor zu Pandas erfolgreich abgeschlossen.
In diesem Labor haben Sie die grundlegenden ersten Schritte bei der Arbeit mit dieser leistungsstarken Bibliothek gelernt. Sie haben:
- Die
pandas-Installation in Ihrer Umgebung überprüft. - Die
pandas-Bibliothek mit dem Standardaliaspdin ein Python-Skript importiert. - Eine grundlegende eindimensionale
Seriesaus einer Python-Liste erstellt. - Mit Hilfe von Indizierung und Slicing auf Elemente der
Serieszugegriffen. - Die Attribute
dtypeundshapeinspiziert, um die Struktur und den Datentyp derSerieszu verstehen.
Dies sind die wesentlichen Bausteine, die Sie benötigen werden, wenn Sie zu komplexeren Datenstrukturen wie DataFrame übergehen und fortgeschrittenere Datenanalyseaufgaben durchführen. Üben Sie weiter!



