PyArrow | Pandas Data Science | Verbesserte Leistung

Einführung

In diesem Lab werden Sie durch den Prozess geführt, wie Sie PyArrow in pandas verwenden, um die Funktionalität zu erweitern und die Leistung verschiedener APIs zu verbessern. PyArrow erweitert pandas um umfangreichere Datentypen, die Unterstützung für fehlende Daten für alle Datentypen, die Integration von IO-Readern und die Interoperabilität mit anderen Data Frame-Bibliotheken.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback ab, und wir werden das Problem für Sie prompt beheben.

Installation von PyArrow

Bevor Sie beginnen, stellen Sie sicher, dass Sie die minimale unterstützte PyArrow-Version installiert haben. Sie können dies tun, indem Sie den folgenden Befehl in Ihrer Python-Umgebung ausführen:

## Dies ist ein Kommentar
## Verwenden Sie pip, um PyArrow zu installieren
pip install pyarrow

Integration von Datenstrukturen

PyArrow ermöglicht es, dass pandas-Datenstrukturen direkt von einem PyArrow-ChunkedArray unterstützt werden, ähnlich wie einem NumPy-Array. Hier ist, wie man dies macht:

## Importiere pandas
import pandas as pd

## Erstelle eine pandas-Serie, -Index und -DataFrame mit PyArrow-Datentyp
ser = pd.Series([-1.5, 0.2, None], dtype="float32[pyarrow]")
idx = pd.Index([True, None], dtype="bool[pyarrow]")
df = pd.DataFrame([[1, 2], [3, 4]], dtype="uint64[pyarrow]")

Verwenden von PyArrow-Typen mit Parametern

Für PyArrow-Typen, die Parameter akzeptieren, können Sie einen PyArrow-Typ mit diesen Parametern in ArrowDtype übergeben, um ihn im dtype-Parameter zu verwenden.

## Importiere PyArrow
import pyarrow as pa

## Erstelle eine pandas-Serie mit PyArrow-Liste-Typ
list_str_type = pa.list_(pa.string())
ser = pd.Series([["hello"], ["there"]], dtype=pd.ArrowDtype(list_str_type))

Konvertieren eines PyArrow-Arrays in pandas-Datenstrukturen

Wenn Sie ein PyArrow-Array oder -ChunkedArray haben, können Sie es in pandas-Datenstrukturen wie Series, Index oder DataFrame umwandeln.

## Erstelle ein PyArrow-Array
pa_array = pa.array([{"1": "2"}, {"10": "20"}, None], type=pa.map_(pa.string(), pa.string()))

## Konvertiere das PyArrow-Array in eine pandas-Serie
ser = pd.Series(pd.arrays.ArrowExtensionArray(pa_array))

PyArrow-Operationen

Die Integration von PyArrow-Datenstrukturen erfolgt über die ExtensionArray-Schnittstelle von pandas. Unterstützte Funktionalität besteht dort, wo diese Schnittstelle innerhalb der pandas-API integriert ist.

## Erstelle eine pandas-Serie mit PyArrow-Datentyp
ser = pd.Series([-1.545, 0.2, None], dtype="float32[pyarrow]")

## Führe verschiedene Operationen durch
ser.mean()
ser + ser
ser > (ser + 1)
ser.dropna()
ser.isna()
ser.fillna(0)

Lesen von Daten mit PyArrow

PyArrow bietet die Funktionalität zum Lesen von Eingabe-/Ausgabedaten (IO), die in mehrere pandas-IO-Leser integriert wurde.

## Importiere das IO-Modul
import io

## Erstelle ein StringIO-Objekt
data = io.StringIO("""a,b,c\n1,2.5,True\n3,4.5,False""")

## Lese die Daten in ein pandas-DataFrame ein, wobei PyArrow als Engine verwendet wird
df = pd.read_csv(data, engine="pyarrow")

Zusammenfassung

In diesem Lab haben wir untersucht, wie PyArrow mit pandas verwendet werden kann, um dessen Funktionalität zu erweitern und die Leistung zu verbessern. Wir haben gelernt, wie pandas-Datenstrukturen in PyArrow-Datentypen umgewandelt werden können und wie verschiedene Operationen durchgeführt werden. Wir haben auch gesehen, wie Daten mit der IO-Lese-Funktionalität von PyArrow gelesen werden können.

Verstärken von Pandas mit PyArrow