Titanic-Passagierdatenanalyse mit Pandas

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir lernen, wie man mit der Pandas-Bibliothek in Python Summenstatistiken für Daten berechnet. Wir werden den Titanic-Datensatz verwenden, der Daten zu den Passagieren des Titanic-Schiffsunglücks enthält. Wir werden lernen, wie man Summenstatistiken, aggregierte Statistiken berechnet und die Anzahl der Datensätze nach Kategorie zählt.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Dies ist ein Guided Lab, das schrittweise Anweisungen bietet, um Ihnen beim Lernen und Üben zu helfen. Befolgen Sie die Anweisungen sorgfältig, um jeden Schritt abzuschließen und praktische Erfahrungen zu sammeln. Historische Daten zeigen, dass dies ein Labor der Stufe Anfänger mit einer Abschlussquote von 96% ist. Es hat eine positive Bewertungsrate von 100% von den Lernenden erhalten.

Das Dataset importieren

Der erste Schritt besteht darin, das Dataset zu importieren, das wir verwenden werden.

## Importing pandas library
import pandas as pd

## Reading the dataset
titanic = pd.read_csv("data/titanic.csv")

## Displaying the first five rows of the dataset
titanic.head()

Summenstatistiken berechnen

In diesem Schritt werden wir Summenstatistiken für den Titanic-Datensatz berechnen.

## Computing the average age of the Titanic passengers
average_age = titanic["Age"].mean()
## Printing the result
print(f"The average age of the Titanic passengers is {average_age}")

## Computing the median age and ticket fare price of the Titanic passengers
median_age_fare = titanic[["Age", "Fare"]].median()
## Printing the result
print(f"The median age and ticket fare price of the Titanic passengers are {median_age_fare}")

Statistiken aggregieren, gruppiert nach Kategorie

Als nächstes werden wir lernen, wie man Statistiken aggregiert, die nach Kategorie gruppiert sind.

## Computing the average age for male versus female Titanic passengers
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## Printing the result
print(f"The average age for male versus female Titanic passengers is {average_age_sex}")

## Computing the mean ticket fare price for each of the sex and cabin class combinations
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## Printing the result
print(f"The mean ticket fare price for each of the sex and cabin class combinations is {mean_fare_sex_class}")

Anzahl der Datensätze nach Kategorie zählen

Schließlich werden wir die Anzahl der Datensätze nach Kategorie zählen.

## Counting the number of passengers in each of the cabin classes
passengers_per_class = titanic["Pclass"].value_counts()
## Printing the result
print(f"The number of passengers in each of the cabin classes is {passengers_per_class}")

Zusammenfassung

In diesem Lab haben wir gelernt, wie man Summenstatistiken berechnet, Statistiken aggregiert und die Anzahl der Datensätze nach Kategorie zählt, indem man die Pandas-Bibliothek von Python verwendet. Wir haben den Titanic-Datensatz genutzt, um diese Operationen durchzuführen. Diese Techniken sind grundlegend für die Datenanalyse und können auf jeden Datensatz angewendet werden.