Introdução
Bem-vindo ao laboratório sobre Estatísticas Descritivas com Pandas. As estatísticas descritivas são fundamentais para a análise de dados, fornecendo resumos simples sobre a amostra e as medidas. Com o Pandas, uma poderosa biblioteca de manipulação de dados em Python, o cálculo dessas estatísticas é direto e eficiente.
Neste laboratório, você aprenderá a:
- Calcular a média (average) de um conjunto de dados.
- Encontrar a mediana (valor do meio).
- Determinar os valores mínimo e máximo.
- Gerar um resumo completo de estatísticas com um único comando.
- Contar valores únicos em uma coluna categórica.
Você realizará essas operações em um DataFrame de amostra, escrevendo e executando código Python no WebIDE. Vamos começar!
Calcular a média usando o método mean
Nesta etapa, você aprenderá a calcular a média (average) de uma coluna numérica em um DataFrame Pandas. A média é a soma dos valores dividida pelo número de valores, e é uma das medidas de tendência central mais comuns.
O Pandas fornece o método .mean(), que pode ser chamado em uma Series (uma coluna de um DataFrame) para calcular sua média.
Primeiro, abra o arquivo main.py no explorador de arquivos no lado esquerdo do WebIDE. Você verá o código inicial que cria nosso DataFrame de amostra.
Adicione o seguinte código ao final do arquivo main.py para calcular a média da coluna score e imprimi-la.
## Calculate the mean of the 'score' column
score_mean = df['score'].mean()
print(f"Mean Score: {score_mean}")
Agora, vamos executar o script. Abra um terminal no WebIDE (Terminal -> New Terminal) e execute o seguinte comando:
python3 main.py
Você deverá ver o DataFrame original, um separador e a média calculada.
Original DataFrame:
name age score grade
0 Alice 24 85 B
1 Bob 27 90 A
2 Charlie 22 78 C
3 David 32 95 A
4 Eve 29 88 B
==============================
Mean Score: 87.2
Calcular a mediana com o método median
Nesta etapa, você calculará a mediana de uma coluna numérica. A mediana é o valor do meio de um conjunto de dados que foi ordenado em ordem crescente. Frequentemente, é uma medida de tendência central melhor do que a média quando os dados contêm valores discrepantes (outliers).
O Pandas facilita isso com o método .median().
Continue editando o arquivo main.py. Adicione as seguintes linhas ao final do script para calcular e imprimir a mediana da coluna score.
## Calculate the median of the 'score' column
score_median = df['score'].median()
print(f"Median Score: {score_median}")
Salve o arquivo e execute o script novamente no terminal:
python3 main.py
A saída agora incluirá tanto a média quanto a mediana.
Original DataFrame:
name age score grade
0 Alice 24 85 B
1 Bob 27 90 A
2 Charlie 22 78 C
3 David 32 95 A
4 Eve 29 88 B
==============================
Mean Score: 87.2
Median Score: 88.0
Encontrar valores mínimo e máximo
Nesta etapa, você encontrará os valores mínimo e máximo em uma coluna. Essas estatísticas são úteis para entender o intervalo (range) e a distribuição dos seus dados. O Pandas fornece os métodos .min() e .max() para este propósito.
Vamos encontrar as pontuações mais baixas e mais altas em nosso conjunto de dados. Adicione o seguinte código ao final do seu script main.py.
## Find the minimum and maximum scores
score_min = df['score'].min()
score_max = df['score'].max()
print(f"Minimum Score: {score_min}")
print(f"Maximum Score: {score_max}")
Salve o arquivo e execute-o a partir do terminal:
python3 main.py
Sua saída agora mostrará a média, mediana, mínimo e máximo das pontuações.
Original DataFrame:
name age score grade
0 Alice 24 85 B
1 Bob 27 90 A
2 Charlie 22 78 C
3 David 32 95 A
4 Eve 29 88 B
==============================
Mean Score: 87.2
Median Score: 88.0
Minimum Score: 78
Maximum Score: 95
Gerar estatísticas resumidas com describe
Nesta etapa, você usará o poderoso método .describe(). Este único método gera um resumo abrangente de estatísticas descritivas para todas as colunas numéricas em seu DataFrame, incluindo contagem (count), média (mean), desvio padrão (standard deviation), mínimo (min), máximo (max) e valores de quartil.
Isso economiza muito tempo para obter uma visão geral rápida dos seus dados. Adicione o seguinte código ao final de main.py.
## Generate a summary of descriptive statistics
summary_stats = df.describe()
print("Descriptive Statistics Summary:")
print(summary_stats)
Salve o arquivo e execute o script:
python3 main.py
Você verá uma tabela bem formatada contendo as estatísticas resumidas para as colunas age e score.
... (previous output) ...
Descriptive Statistics Summary:
age score
count 5.000000 5.000000
mean 26.800000 87.200000
std 4.024922 6.379655
min 22.000000 78.000000
25% 24.000000 85.000000
50% 27.000000 88.000000
75% 29.000000 90.000000
max 32.000000 95.000000
Contar valores únicos com value_counts
Nesta etapa, você aprenderá como contar as ocorrências de valores únicos em uma coluna, o que é particularmente útil para dados categóricos. O método .value_counts() retorna uma Series contendo as contagens de valores únicos.
Vamos contar quantos alunos receberam cada nota (grade). Adicione o seguinte código ao final de main.py.
## Count the occurrences of each grade
grade_counts = df['grade'].value_counts()
print("Grade Counts:")
print(grade_counts)
Salve o arquivo e execute o script pela última vez.
python3 main.py
A saída final incluirá as contagens para cada nota (grade) única.
... (previous output) ...
Grade Counts:
grade
B 2
A 2
C 1
Name: count, dtype: int64
Isso mostra que as notas 'A' e 'B' aparecem duas vezes cada, e a nota 'C' aparece uma vez.
Resumo
Parabéns por completar o laboratório! Você aprendeu com sucesso a realizar análises estatísticas descritivas fundamentais usando a biblioteca Pandas.
Neste laboratório, você praticou o uso de vários métodos chave do Pandas:
.mean()para calcular a média..median()para encontrar o valor central..min()e.max()para determinar o intervalo dos dados..describe()para obter um resumo estatístico rápido e abrangente..value_counts()para contar valores únicos em uma coluna categórica.
Essas funções são ferramentas essenciais para qualquer analista ou cientista de dados e formam a base da análise exploratória de dados (EDA). Continue praticando essas habilidades para se tornar mais proficiente em sua jornada de análise de dados.



