Análise de Componentes Principais no Conjunto de Dados Iris

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, iremos realizar a Análise de Componentes Principais (PCA) no conjunto de dados Iris utilizando a biblioteca Python scikit-learn. PCA é uma técnica usada para reduzir a dimensionalidade de um conjunto de dados, mantendo a maior variação possível. Em termos mais simples, ajuda a identificar as características mais importantes de um conjunto de dados e descartar as menos importantes. O conjunto de dados Iris é um conjunto de dados famoso no campo do aprendizado de máquina e contém informações sobre os atributos físicos de três tipos diferentes de flores Iris.

Dicas da Máquina Virtual

Após o arranque da VM, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante o aprendizado, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.

Importar bibliotecas necessárias

Começaremos importando as bibliotecas necessárias - numpy, matplotlib.pyplot, os módulos decomposition e datasets do scikit-learn.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import decomposition
from sklearn import datasets

Carregar o conjunto de dados

Em seguida, carregaremos o conjunto de dados Iris usando a função load_iris() do scikit-learn. Separaremos então as variáveis de características (X) e alvo (y).

iris = datasets.load_iris()
X = iris.data
y = iris.target

Visualizar o conjunto de dados

Antes de executar a PCA, vamos primeiro visualizar o conjunto de dados em 3D usando matplotlib. Isto dará uma ideia de como os diferentes tipos de flores Iris estão distribuídas no conjunto de dados.

fig = plt.figure(1, figsize=(4, 3))
plt.clf()
ax = fig.add_subplot(111, projection="3d", elev=48, azim=134)
ax.set_position([0, 0, 0.95, 1])
plt.cla()
for name, label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:
    ax.text3D(
        X[y == label, 0].mean(),
        X[y == label, 1].mean() + 1.5,
        X[y == label, 2].mean(),
        name,
        horizontalalignment="center",
        bbox=dict(alpha=0.5, edgecolor="w", facecolor="w"),
    )
y = np.choose(y, [1, 2, 0]).astype(float)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral, edgecolor="k")
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
plt.show()

Executar PCA

Agora que visualizamos o conjunto de dados, vamos executar a PCA nele. Usaremos a função PCA() do scikit-learn para isso. Definiremos o número de componentes para 3, pois queremos reduzir o conjunto de dados de 4 dimensões (4 características) para 3 dimensões.

pca = decomposition.PCA(n_components=3)
pca.fit(X)
X = pca.transform(X)

Visualizar o conjunto de dados reduzido

Finalmente, vamos visualizar o conjunto de dados reduzido em 3D usando matplotlib. Usaremos o mesmo código do Passo 3, mas desta vez plotaremos o conjunto de dados reduzido (X) em vez do conjunto de dados original.

fig = plt.figure(1, figsize=(4, 3))
plt.clf()
ax = fig.add_subplot(111, projection="3d", elev=48, azim=134)
ax.set_position([0, 0, 0.95, 1])
plt.cla()
for name, label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:
    ax.text3D(
        X[y == label, 0].mean(),
        X[y == label, 1].mean() + 1.5,
        X[y == label, 2].mean(),
        name,
        horizontalalignment="center",
        bbox=dict(alpha=0.5, edgecolor="w", facecolor="w"),
    )
y = np.choose(y, [1, 2, 0]).astype(float)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral, edgecolor="k")
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
plt.show()

Resumo

Neste laboratório, aprendemos como realizar a Análise de Componentes Principais (PCA) no conjunto de dados Iris usando Python scikit-learn. Carregamos o conjunto de dados, visualizamos-o em 3D, aplicamos PCA para reduzir sua dimensionalidade e, finalmente, visualizamos o conjunto de dados reduzido novamente em 3D. A PCA é uma técnica poderosa que pode ser usada em muitas aplicações para reduzir a dimensionalidade de um conjunto de dados e identificar as características mais importantes.