Pandas-Datenmanipulation

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab erfahren Sie, wie Sie mit Pandas, einer leistungsstarken Bibliothek zur Datenanalyse und -manipulation für Python, Daten lesen, schreiben und manipulieren. Wir werden für diese Übung einen Datensatz aus dem Titanic-Schiffbruch verwenden.

Tipps für die VM

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren der erforderlichen Bibliotheken

Zunächst müssen wir die erforderlichen Bibliotheken für unsere Aufgabe importieren. Für dieses Lab benötigen wir nur pandas.

## Importing pandas library
import pandas as pd

Einlesen von Daten aus einer CSV-Datei

Der nächste Schritt besteht darin, die Daten aus einer CSV-Datei einzulesen. Dazu verwenden wir die read_csv-Funktion aus pandas.

## Reading data from CSV file
titanic = pd.read_csv("data/titanic.csv")

Überprüfen der Daten

Nachdem die Daten eingelesen wurden, ist es immer eine gute Idee, zu überprüfen, wie sie aussehen. Wir werden die ersten paar Zeilen des DataFrames anzeigen.

## Displaying the first few rows of the DataFrame
titanic.head()

Überprüfen der Datentypen

Wir können die Datentypen jeder Spalte mithilfe des dtypes-Attributs des DataFrames überprüfen.

## Checking the data types of each column
titanic.dtypes

Schreiben von Daten in eine Excel-Datei

Sie können auch die Daten in eine Excel-Datei schreiben, indem Sie die to_excel-Methode verwenden. Speichern wir unseren DataFrame in einer Excel-Datei.

## Saving DataFrame to an Excel file
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

Einlesen von Daten aus einer Excel-Datei

Das Einlesen von Daten aus einer Excel-Datei ist genauso einfach wie das Einlesen von Daten aus einer CSV-Datei. Wir werden die read_excel-Funktion aus pandas verwenden.

## Reading data from an Excel file
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

Überprüfen von DataFrame-Informationen

Die info-Methode liefert einen technischen Überblick über einen DataFrame. Dies kann hilfreich sein, um die Datentypen, die Anzahl der nicht-leeren Werte und den Speicherbedarf zu überprüfen.

## Checking DataFrame information
titanic.info()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man Daten mit pandas einliest und schreibt, und wie man die Informationen eines DataFrames überprüft. Pandas bietet eine Vielzahl von Funktionalitäten für die Verarbeitung und Manipulation von Daten, was es zu einem leistungsstarken Tool für die Datenanalyse macht.