Criar Boxplots Personalizados em Python

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Boxplots (diagramas de caixa) são um tipo de gráfico usado para exibir a distribuição de dados com base em um resumo de cinco números ("mínimo", primeiro quartil (Q1), mediana, terceiro quartil (Q3) e "máximo"). Eles são comumente usados em análise de dados para identificar e visualizar outliers (valores discrepantes), bem como para comparar a distribuição de diferentes grupos de dados. Neste laboratório, você aprenderá como criar e personalizar boxplots em Python usando a biblioteca Matplotlib.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importar as bibliotecas necessárias

Antes de começarmos a criar boxplots, precisamos importar as bibliotecas necessárias, incluindo NumPy e Matplotlib:

import matplotlib.pyplot as plt
import numpy as np

Gerar os dados

Em seguida, geraremos alguns dados de amostra para usar em nossos boxplots. Para este tutorial, usaremos os seguintes dados:

spread = np.random.rand(50) * 100
center = np.ones(25) * 50
flier_high = np.random.rand(10) * 100 + 100
flier_low = np.random.rand(10) * -100
data = np.concatenate((spread, center, flier_high, flier_low))

Criar um boxplot básico

Podemos criar um boxplot básico usando a função boxplot() do Matplotlib. A função boxplot() recebe os dados como o primeiro argumento e outros parâmetros opcionais para personalizar o gráfico. Aqui está o código para criar um boxplot básico:

plt.boxplot(data)
plt.show()

Personalizar o boxplot

Podemos personalizar o boxplot alterando a aparência da caixa, dos whiskers (arestas) e dos outliers (valores discrepantes). Também podemos criar múltiplos boxplots no mesmo gráfico para comparar diferentes grupos de dados. Aqui estão alguns exemplos de como personalizar o boxplot:

## Criar um boxplot entalhado (notched)
plt.boxplot(data, notch=True)
plt.show()

## Mudar os símbolos dos pontos outliers para diamantes verdes
plt.boxplot(data, flierprops=dict(marker='D', markerfacecolor='g', markersize=8))
plt.show()

## Criar boxplots horizontais
plt.boxplot(data, vert=False)
plt.show()

## Criar múltiplos boxplots em um gráfico
data1 = np.random.normal(0, 1, 50)
data2 = np.random.normal(1, 1, 50)
data3 = np.random.normal(2, 1, 50)

plt.boxplot([data1, data2, data3])
plt.show()

Adicionar rótulos e títulos

Finalmente, podemos adicionar rótulos e títulos ao nosso boxplot para torná-lo mais informativo. Podemos adicionar rótulos aos eixos x e y, bem como um título ao gráfico. Também podemos alterar o tamanho e o estilo da fonte dos rótulos e do título. Aqui está um exemplo de como adicionar rótulos e títulos:

plt.boxplot([data1, data2, data3])
plt.xlabel('Grupo')
plt.ylabel('Valor')
plt.title('Comparação de Três Grupos')
plt.xticks([1, 2, 3], ['Grupo 1', 'Grupo 2', 'Grupo 3'])
plt.show()

Resumo

Neste laboratório, você aprendeu como criar e personalizar boxplots em Python usando a biblioteca Matplotlib. Você aprendeu como gerar dados de amostra, criar um boxplot básico, personalizar a aparência do boxplot e adicionar rótulos e títulos ao gráfico. Boxplots são uma ferramenta poderosa para visualizar e comparar a distribuição de dados, e saber como criá-los e personalizá-los é uma habilidade importante para analistas e cientistas de dados.