Introdução
Neste laboratório, você aprenderá como usar o método boxplot() na biblioteca Pandas para criar boxplots a partir de colunas de um DataFrame. Um boxplot, também conhecido como gráfico de caixa e bigodes (box-and-whisker plot), é uma representação gráfica que exibe o resumo de cinco números de um conjunto de dados: mínimo, primeiro quartil, mediana, terceiro quartil e máximo.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as bibliotecas necessárias
Para começar, você precisa importar as bibliotecas necessárias. Neste caso, você usará a biblioteca Pandas.
import pandas as pd
Criar um DataFrame
Em seguida, você criará um DataFrame para trabalhar. Isso pode ser feito passando um dicionário ou uma lista de listas para a função pd.DataFrame(). Para este exemplo, vamos criar um DataFrame com as notas dos alunos em diferentes disciplinas.
df = pd.DataFrame([
['Abhishek', 75, 80, 90],
['Anurag', 80, 90, 95],
['Bavya', 80, 82, 85],
['Bavana', 95, 92, 92],
['Chetan', 85, 90, 89]
], columns=['Name', 'Maths', 'Science', 'Social'])
Gerar um boxplot
Agora, você pode usar o método boxplot() para gerar um boxplot a partir das colunas do DataFrame. Isso pode ser feito passando os nomes das colunas como uma lista para o parâmetro column. Por exemplo, para criar um boxplot para a coluna 'Social':
boxplot = df.boxplot(column=['Social'])
O método boxplot() retorna um objeto Axes, que pode ser usado para personalizar ainda mais o gráfico, se desejado.
Personalizar o boxplot
Você pode personalizar a aparência do boxplot usando vários parâmetros disponíveis no método boxplot(). Por exemplo, você pode ajustar o tamanho da fonte dos rótulos dos ticks usando o parâmetro fontsize, rotacionar os rótulos usando o parâmetro rot e exibir ou ocultar a grade usando o parâmetro grid.
boxplot = df.boxplot(column=['Social'], fontsize=12, rot=45, grid=True)
Agrupar dados e criar múltiplos boxplots
Se você deseja comparar os dados em diferentes grupos, pode usar o parâmetro by para agrupar os dados com base em uma coluna específica. Por exemplo, para criar um boxplot para a coluna 'Social' agrupada pela coluna 'DOB':
boxplot = df.boxplot(column=['Social'], by='DOB')
Isso gerará um boxplot separado para cada valor na coluna 'DOB'.
Resumo
Neste laboratório, você aprendeu como usar o método boxplot() na biblioteca Pandas para criar boxplots a partir de colunas de DataFrame. Você aprendeu como personalizar a aparência do boxplot e como agrupar dados para criar múltiplos boxplots. Boxplots são uma ferramenta de visualização útil para entender a distribuição e a variabilidade dos dados. Eles fornecem um resumo visual que inclui informações como a mediana, quartis e quaisquer outliers presentes no conjunto de dados. Isso pode ajudar a identificar tendências, padrões e anomalias nos dados.