Análise de Dados de Passageiros do Titanic com Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, aprenderemos como usar a biblioteca Pandas do Python para calcular estatísticas sumárias de dados. Usaremos o conjunto de dados do Titanic, que contém dados sobre passageiros do naufrágio do Titanic. Aprenderemos como calcular estatísticas sumárias, agregar estatísticas e contar o número de registros por categoria.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Este é um Lab Guiado, que fornece instruções passo a passo para ajudá-lo a aprender e praticar. Siga as instruções cuidadosamente para completar cada etapa e ganhar experiência prática. Dados históricos mostram que este é um laboratório de nível iniciante com uma taxa de conclusão de 96%. Recebeu uma taxa de avaliações positivas de 100% dos estudantes.

Importando o Conjunto de Dados

O primeiro passo é importar o conjunto de dados que usaremos.

## Importing pandas library
import pandas as pd

## Reading the dataset
titanic = pd.read_csv("data/titanic.csv")

## Displaying the first five rows of the dataset
titanic.head()

Calculando Estatísticas Sumárias

Nesta etapa, calcularemos as estatísticas sumárias para o conjunto de dados do Titanic.

## Computing the average age of the Titanic passengers
average_age = titanic["Age"].mean()
## Printing the result
print(f"The average age of the Titanic passengers is {average_age}")

## Computing the median age and ticket fare price of the Titanic passengers
median_age_fare = titanic[["Age", "Fare"]].median()
## Printing the result
print(f"The median age and ticket fare price of the Titanic passengers are {median_age_fare}")

Agregando Estatísticas Agrupadas por Categoria

Em seguida, aprenderemos como agregar estatísticas agrupadas por categoria.

## Computing the average age for male versus female Titanic passengers
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## Printing the result
print(f"The average age for male versus female Titanic passengers is {average_age_sex}")

## Computing the mean ticket fare price for each of the sex and cabin class combinations
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## Printing the result
print(f"The mean ticket fare price for each of the sex and cabin class combinations is {mean_fare_sex_class}")

Contando o Número de Registros por Categoria

Finalmente, contaremos o número de registros por categoria.

## Counting the number of passengers in each of the cabin classes
passengers_per_class = titanic["Pclass"].value_counts()
## Printing the result
print(f"The number of passengers in each of the cabin classes is {passengers_per_class}")

Resumo

Neste laboratório, aprendemos como calcular estatísticas de resumo, agregar estatísticas e contar o número de registros por categoria usando a biblioteca Pandas do Python. Usamos o conjunto de dados do Titanic para realizar essas operações. Essas técnicas são fundamentais para a análise de dados e podem ser aplicadas a qualquer conjunto de dados.