Estatísticas Descritivas Pandas: Guia para Iniciantes

Introdução

Bem-vindo ao laboratório sobre Estatísticas Descritivas com Pandas. As estatísticas descritivas são fundamentais para a análise de dados, fornecendo resumos simples sobre a amostra e as medidas. Com o Pandas, uma poderosa biblioteca de manipulação de dados em Python, o cálculo dessas estatísticas é direto e eficiente.

Neste laboratório, você aprenderá a:

Calcular a média (average) de um conjunto de dados.
Encontrar a mediana (valor do meio).
Determinar os valores mínimo e máximo.
Gerar um resumo completo de estatísticas com um único comando.
Contar valores únicos em uma coluna categórica.

Você realizará essas operações em um DataFrame de amostra, escrevendo e executando código Python no WebIDE. Vamos começar!

Calcular a média usando o método mean

Nesta etapa, você aprenderá a calcular a média (average) de uma coluna numérica em um DataFrame Pandas. A média é a soma dos valores dividida pelo número de valores, e é uma das medidas de tendência central mais comuns.

O Pandas fornece o método .mean(), que pode ser chamado em uma Series (uma coluna de um DataFrame) para calcular sua média.

Primeiro, abra o arquivo main.py no explorador de arquivos no lado esquerdo do WebIDE. Você verá o código inicial que cria nosso DataFrame de amostra.

Adicione o seguinte código ao final do arquivo main.py para calcular a média da coluna score e imprimi-la.

## Calculate the mean of the 'score' column
score_mean = df['score'].mean()
print(f"Mean Score: {score_mean}")

Agora, vamos executar o script. Abra um terminal no WebIDE (Terminal -> New Terminal) e execute o seguinte comando:

python3 main.py

Você deverá ver o DataFrame original, um separador e a média calculada.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2

Calcular a mediana com o método median

Nesta etapa, você calculará a mediana de uma coluna numérica. A mediana é o valor do meio de um conjunto de dados que foi ordenado em ordem crescente. Frequentemente, é uma medida de tendência central melhor do que a média quando os dados contêm valores discrepantes (outliers).

O Pandas facilita isso com o método .median().

Continue editando o arquivo main.py. Adicione as seguintes linhas ao final do script para calcular e imprimir a mediana da coluna score.

## Calculate the median of the 'score' column
score_median = df['score'].median()
print(f"Median Score: {score_median}")

Salve o arquivo e execute o script novamente no terminal:

python3 main.py

A saída agora incluirá tanto a média quanto a mediana.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0

Encontrar valores mínimo e máximo

Nesta etapa, você encontrará os valores mínimo e máximo em uma coluna. Essas estatísticas são úteis para entender o intervalo (range) e a distribuição dos seus dados. O Pandas fornece os métodos .min() e .max() para este propósito.

Vamos encontrar as pontuações mais baixas e mais altas em nosso conjunto de dados. Adicione o seguinte código ao final do seu script main.py.

## Find the minimum and maximum scores
score_min = df['score'].min()
score_max = df['score'].max()
print(f"Minimum Score: {score_min}")
print(f"Maximum Score: {score_max}")

Salve o arquivo e execute-o a partir do terminal:

python3 main.py

Sua saída agora mostrará a média, mediana, mínimo e máximo das pontuações.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0
Minimum Score: 78
Maximum Score: 95

Gerar estatísticas resumidas com describe

Nesta etapa, você usará o poderoso método .describe(). Este único método gera um resumo abrangente de estatísticas descritivas para todas as colunas numéricas em seu DataFrame, incluindo contagem (count), média (mean), desvio padrão (standard deviation), mínimo (min), máximo (max) e valores de quartil.

Isso economiza muito tempo para obter uma visão geral rápida dos seus dados. Adicione o seguinte código ao final de main.py.

## Generate a summary of descriptive statistics
summary_stats = df.describe()
print("Descriptive Statistics Summary:")
print(summary_stats)

Salve o arquivo e execute o script:

python3 main.py

Você verá uma tabela bem formatada contendo as estatísticas resumidas para as colunas age e score.

... (previous output) ...

Descriptive Statistics Summary:
             age      score
count   5.000000   5.000000
mean   26.800000  87.200000
std     4.024922   6.379655
min    22.000000  78.000000
25%    24.000000  85.000000
50%    27.000000  88.000000
75%    29.000000  90.000000
max    32.000000  95.000000

Contar valores únicos com value_counts

Nesta etapa, você aprenderá como contar as ocorrências de valores únicos em uma coluna, o que é particularmente útil para dados categóricos. O método .value_counts() retorna uma Series contendo as contagens de valores únicos.

Vamos contar quantos alunos receberam cada nota (grade). Adicione o seguinte código ao final de main.py.

## Count the occurrences of each grade
grade_counts = df['grade'].value_counts()
print("Grade Counts:")
print(grade_counts)

Salve o arquivo e execute o script pela última vez.

python3 main.py

A saída final incluirá as contagens para cada nota (grade) única.

... (previous output) ...

Grade Counts:
grade
B    2
A    2
C    1
Name: count, dtype: int64

Isso mostra que as notas 'A' e 'B' aparecem duas vezes cada, e a nota 'C' aparece uma vez.

Resumo

Parabéns por completar o laboratório! Você aprendeu com sucesso a realizar análises estatísticas descritivas fundamentais usando a biblioteca Pandas.

Neste laboratório, você praticou o uso de vários métodos chave do Pandas:

.mean() para calcular a média.
.median() para encontrar o valor central.
.min() e .max() para determinar o intervalo dos dados.
.describe() para obter um resumo estatístico rápido e abrangente.
.value_counts() para contar valores únicos em uma coluna categórica.

Essas funções são ferramentas essenciais para qualquer analista ou cientista de dados e formam a base da análise exploratória de dados (EDA). Continue praticando essas habilidades para se tornar mais proficiente em sua jornada de análise de dados.