Criando Gráficos de Dispersão com Legendas

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Gráficos de dispersão (scatter plots) são usados para visualizar a relação entre duas variáveis. Um gráfico de dispersão com legenda é útil quando há múltiplos grupos nos dados, e queremos distingui-los no gráfico. Neste laboratório, aprenderemos como criar gráficos de dispersão com legendas em Python usando a biblioteca Matplotlib.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importando as Bibliotecas Necessárias

Começamos importando as bibliotecas necessárias, incluindo NumPy e Matplotlib.

import matplotlib.pyplot as plt
import numpy as np

Criando um Gráfico de Dispersão com Múltiplos Grupos

Podemos criar um gráfico de dispersão com múltiplos grupos iterando sobre cada grupo e criando um gráfico de dispersão para aquele grupo. Especificamos a cor, o tamanho e a transparência dos marcadores para cada grupo usando os parâmetros c, s e alpha, respectivamente. Também definimos o parâmetro label para o nome do grupo, que será usado na legenda.

fig, ax = plt.subplots()
for color in ['tab:blue', 'tab:orange', 'tab:green']:
    n = 750
    x, y = np.random.rand(2, n)
    scale = 200.0 * np.random.rand(n)
    ax.scatter(x, y, c=color, s=scale, label=color,
               alpha=0.3, edgecolors='none')

ax.legend()
ax.grid(True)

plt.show()

Criação Automática de Legenda

Também podemos usar o método PathCollection.legend_elements para criar automaticamente uma legenda para um gráfico de dispersão. Este método tentará determinar um número útil de entradas de legenda a serem exibidas e retornará uma tupla de identificadores (handles) e rótulos (labels).

N = 45
x, y = np.random.rand(2, N)
c = np.random.randint(1, 5, size=N)
s = np.random.randint(10, 220, size=N)

fig, ax = plt.subplots()

scatter = ax.scatter(x, y, c=c, s=s)

## produce a legend with the unique colors from the scatter
legend1 = ax.legend(*scatter.legend_elements(),
                    loc="lower left", title="Classes")
ax.add_artist(legend1)

## produce a legend with a cross-section of sizes from the scatter
handles, labels = scatter.legend_elements(prop="sizes", alpha=0.6)
legend2 = ax.legend(handles, labels, loc="upper right", title="Sizes")

plt.show()

Personalizando Elementos da Legenda

Podemos personalizar ainda mais os elementos da legenda usando argumentos adicionais no método PathCollection.legend_elements. Por exemplo, podemos especificar o número de entradas de legenda a serem criadas e como elas devem ser rotuladas.

volume = np.random.rayleigh(27, size=40)
amount = np.random.poisson(10, size=40)
ranking = np.random.normal(size=40)
price = np.random.uniform(1, 10, size=40)

fig, ax = plt.subplots()

## Because the price is much too small when being provided as size for ``s``,
## we normalize it to some useful point sizes, s=0.3*(price*3)**2
scatter = ax.scatter(volume, amount, c=ranking, s=0.3*(price*3)**2,
                     vmin=-3, vmax=3, cmap="Spectral")

## Produce a legend for the ranking (colors). Even though there are 40 different
## rankings, we only want to show 5 of them in the legend.
legend1 = ax.legend(*scatter.legend_elements(num=5),
                    loc="upper left", title="Ranking")
ax.add_artist(legend1)

## Produce a legend for the price (sizes). Because we want to show the prices
## in dollars, we use the *func* argument to supply the inverse of the function
## used to calculate the sizes from above. The *fmt* ensures to show the price
## in dollars. Note how we target at 5 elements here, but obtain only 4 in the
## created legend due to the automatic round prices that are chosen for us.
kw = dict(prop="sizes", num=5, color=scatter.cmap(0.7), fmt="$ {x:.2f}",
          func=lambda s: np.sqrt(s/.3)/3)
legend2 = ax.legend(*scatter.legend_elements(**kw),
                    loc="lower right", title="Price")

plt.show()

Resumo

Neste laboratório, aprendemos como criar gráficos de dispersão (scatter plots) com legendas em Python usando a biblioteca Matplotlib. Criamos gráficos de dispersão com múltiplos grupos e criamos legendas automaticamente. Também personalizamos os elementos da legenda usando o método PathCollection.legend_elements. Gráficos de dispersão com legendas são úteis para visualizar a relação entre duas variáveis com múltiplos grupos.