Método Boxplot em DataFrame Pandas

Beginner

Introdução

Neste laboratório, você aprenderá como usar o método boxplot() na biblioteca Pandas para criar boxplots a partir de colunas de um DataFrame. Um boxplot, também conhecido como gráfico de caixa e bigodes (box-and-whisker plot), é uma representação gráfica que exibe o resumo de cinco números de um conjunto de dados: mínimo, primeiro quartil, mediana, terceiro quartil e máximo.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importar as bibliotecas necessárias

Para começar, você precisa importar as bibliotecas necessárias. Neste caso, você usará a biblioteca Pandas.

import pandas as pd

Criar um DataFrame

Em seguida, você criará um DataFrame para trabalhar. Isso pode ser feito passando um dicionário ou uma lista de listas para a função pd.DataFrame(). Para este exemplo, vamos criar um DataFrame com as notas dos alunos em diferentes disciplinas.

df = pd.DataFrame([
    ['Abhishek', 75, 80, 90],
    ['Anurag', 80, 90, 95],
    ['Bavya', 80, 82, 85],
    ['Bavana', 95, 92, 92],
    ['Chetan', 85, 90, 89]
], columns=['Name', 'Maths', 'Science', 'Social'])

Gerar um boxplot

Agora, você pode usar o método boxplot() para gerar um boxplot a partir das colunas do DataFrame. Isso pode ser feito passando os nomes das colunas como uma lista para o parâmetro column. Por exemplo, para criar um boxplot para a coluna 'Social':

boxplot = df.boxplot(column=['Social'])

O método boxplot() retorna um objeto Axes, que pode ser usado para personalizar ainda mais o gráfico, se desejado.

Personalizar o boxplot

Você pode personalizar a aparência do boxplot usando vários parâmetros disponíveis no método boxplot(). Por exemplo, você pode ajustar o tamanho da fonte dos rótulos dos ticks usando o parâmetro fontsize, rotacionar os rótulos usando o parâmetro rot e exibir ou ocultar a grade usando o parâmetro grid.

boxplot = df.boxplot(column=['Social'], fontsize=12, rot=45, grid=True)

Agrupar dados e criar múltiplos boxplots

Se você deseja comparar os dados em diferentes grupos, pode usar o parâmetro by para agrupar os dados com base em uma coluna específica. Por exemplo, para criar um boxplot para a coluna 'Social' agrupada pela coluna 'DOB':

boxplot = df.boxplot(column=['Social'], by='DOB')

Isso gerará um boxplot separado para cada valor na coluna 'DOB'.

Resumo

Neste laboratório, você aprendeu como usar o método boxplot() na biblioteca Pandas para criar boxplots a partir de colunas de DataFrame. Você aprendeu como personalizar a aparência do boxplot e como agrupar dados para criar múltiplos boxplots. Boxplots são uma ferramenta de visualização útil para entender a distribuição e a variabilidade dos dados. Eles fornecem um resumo visual que inclui informações como a mediana, quartis e quaisquer outliers presentes no conjunto de dados. Isso pode ajudar a identificar tendências, padrões e anomalias nos dados.