Einführung
In diesem Lab erfahren Sie, wie Sie mit Pandas, einer leistungsstarken Bibliothek zur Datenanalyse und -manipulation für Python, Daten lesen, schreiben und manipulieren. Wir werden für diese Übung einen Datensatz aus dem Titanic-Schiffbruch verwenden.
Tipps für die VM
Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importieren der erforderlichen Bibliotheken
Zunächst müssen wir die erforderlichen Bibliotheken für unsere Aufgabe importieren. Für dieses Lab benötigen wir nur pandas.
## Importing pandas library
import pandas as pd
Einlesen von Daten aus einer CSV-Datei
Der nächste Schritt besteht darin, die Daten aus einer CSV-Datei einzulesen. Dazu verwenden wir die read_csv-Funktion aus pandas.
## Reading data from CSV file
titanic = pd.read_csv("data/titanic.csv")
Überprüfen der Daten
Nachdem die Daten eingelesen wurden, ist es immer eine gute Idee, zu überprüfen, wie sie aussehen. Wir werden die ersten paar Zeilen des DataFrames anzeigen.
## Displaying the first few rows of the DataFrame
titanic.head()
Überprüfen der Datentypen
Wir können die Datentypen jeder Spalte mithilfe des dtypes-Attributs des DataFrames überprüfen.
## Checking the data types of each column
titanic.dtypes
Schreiben von Daten in eine Excel-Datei
Sie können auch die Daten in eine Excel-Datei schreiben, indem Sie die to_excel-Methode verwenden. Speichern wir unseren DataFrame in einer Excel-Datei.
## Saving DataFrame to an Excel file
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)
Einlesen von Daten aus einer Excel-Datei
Das Einlesen von Daten aus einer Excel-Datei ist genauso einfach wie das Einlesen von Daten aus einer CSV-Datei. Wir werden die read_excel-Funktion aus pandas verwenden.
## Reading data from an Excel file
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")
Überprüfen von DataFrame-Informationen
Die info-Methode liefert einen technischen Überblick über einen DataFrame. Dies kann hilfreich sein, um die Datentypen, die Anzahl der nicht-leeren Werte und den Speicherbedarf zu überprüfen.
## Checking DataFrame information
titanic.info()
Zusammenfassung
In diesem Lab haben wir gelernt, wie man Daten mit pandas einliest und schreibt, und wie man die Informationen eines DataFrames überprüft. Pandas bietet eine Vielzahl von Funktionalitäten für die Verarbeitung und Manipulation von Daten, was es zu einem leistungsstarken Tool für die Datenanalyse macht.