Einführung
In diesem Lab werden wir Ihnen die Grundlagen von pandas, einer leistungsstarken Datenmanipulationsbibliothek in Python, vorstellen. Wir werden Sie durch verschiedene Aufgaben wie das Importieren von pandas, das Erstellen und Anzeigen von Daten, die Datenauswahl, Operationen und vieles mehr führen.
VM-Tipps
Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Operationen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Pandas und Numpy importieren
Zunächst müssen wir die Pandas- und Numpy-Pakete importieren. Pandas ist eine leistungsstarke Datenmanipulationsbibliothek, und Numpy wird für mathematische Operationen verwendet.
## Importing necessary libraries
import numpy as np
import pandas as pd
Objekte erstellen
Wir werden eine Series erstellen, indem wir eine Liste von Werten übergeben, und pandas wird einen standardmäßigen ganzzahligen Index erstellen.
## Creating a pandas series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
Dataframes erstellen
Wir können einen DataFrame erstellen, indem wir ein Numpy-Array übergeben, mit einem Zeitstempel-Index und markierten Spalten.
## Creating a pandas dataframe
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
Daten anzeigen
Wir können die obersten und untersten Zeilen des Dataframes mit den Methoden head() und tail() anzeigen.
## Viewing top rows
df.head()
## Viewing bottom rows
df.tail(3)
Datenauswahl
Wir können Daten mithilfe von Labels oder nach Position auswählen.
## Selecting a single column
df["A"]
## Selecting via position
df.iloc[3]
Datenoperationen
Wir können Operationen auf Dataframes durchführen, wie z.B. Sortieren, Anwenden von Funktionen usw.
## Sorting by an axis
df.sort_index(axis=1, ascending=False)
## Applying a function to the data
df.apply(np.cumsum)
Umgang mit fehlenden Daten
Pandas bietet Methoden, um fehlende Daten im Dataframe zu behandeln.
## Filling missing data
df.fillna(value=5)
## Getting the boolean mask where values are nan
pd.isna(df)
Darstellung von Daten
Pandas verwendet matplotlib zur Darstellung von Daten.
## Plotting data
df.plot()
Speichern und Laden von Daten
Pandas bietet Methoden zum Speichern und Laden von Daten in verschiedenen Formaten wie csv, excel, hdf5, etc.
## Saving data to a csv file
df.to_csv("foo.csv")
## Loading data from a csv file
pd.read_csv("foo.csv")
Zusammenfassung
In diesem Lab haben wir die Grundlagen von Pandas behandelt, einschließlich der Erstellung und des Anzeigens von Daten, der Auswahl und Manipulation von Daten sowie des Speichernd und Ladens von Daten. Wir haben auch gelernt, wie man fehlende Daten behandelt und wie man Daten darstellt. Dies sollte eine solide Grundlage für die weitere Erforschung von Pandas für die Datenanalyse bilden.