Introdução
Neste laboratório, aprenderemos como usar a biblioteca Pandas do Python para calcular estatísticas sumárias de dados. Usaremos o conjunto de dados do Titanic, que contém dados sobre passageiros do naufrágio do Titanic. Aprenderemos como calcular estatísticas sumárias, agregar estatísticas e contar o número de registros por categoria.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importando o Conjunto de Dados
O primeiro passo é importar o conjunto de dados que usaremos.
## Importing pandas library
import pandas as pd
## Reading the dataset
titanic = pd.read_csv("data/titanic.csv")
## Displaying the first five rows of the dataset
titanic.head()
Calculando Estatísticas Sumárias
Nesta etapa, calcularemos as estatísticas sumárias para o conjunto de dados do Titanic.
## Computing the average age of the Titanic passengers
average_age = titanic["Age"].mean()
## Printing the result
print(f"The average age of the Titanic passengers is {average_age}")
## Computing the median age and ticket fare price of the Titanic passengers
median_age_fare = titanic[["Age", "Fare"]].median()
## Printing the result
print(f"The median age and ticket fare price of the Titanic passengers are {median_age_fare}")
Agregando Estatísticas Agrupadas por Categoria
Em seguida, aprenderemos como agregar estatísticas agrupadas por categoria.
## Computing the average age for male versus female Titanic passengers
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## Printing the result
print(f"The average age for male versus female Titanic passengers is {average_age_sex}")
## Computing the mean ticket fare price for each of the sex and cabin class combinations
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## Printing the result
print(f"The mean ticket fare price for each of the sex and cabin class combinations is {mean_fare_sex_class}")
Contando o Número de Registros por Categoria
Finalmente, contaremos o número de registros por categoria.
## Counting the number of passengers in each of the cabin classes
passengers_per_class = titanic["Pclass"].value_counts()
## Printing the result
print(f"The number of passengers in each of the cabin classes is {passengers_per_class}")
Resumo
Neste laboratório, aprendemos como calcular estatísticas de resumo, agregar estatísticas e contar o número de registros por categoria usando a biblioteca Pandas do Python. Usamos o conjunto de dados do Titanic para realizar essas operações. Essas técnicas são fundamentais para a análise de dados e podem ser aplicadas a qualquer conjunto de dados.