Classificação com Árvores de Decisão | Tutorial Scikit-learn

Introdução

Neste laboratório, aprenderemos a utilizar Árvores de Decisão para classificação utilizando o scikit-learn. Árvores de Decisão são um método de aprendizagem supervisionada não paramétrico utilizado para classificação e regressão. São fáceis de compreender e interpretar, e podem lidar com dados numéricos e categóricos.

Dicas da Máquina Virtual

Após o arranque da VM, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar o carregamento. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante o aprendizado, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos o problema rapidamente para si.

Importar as bibliotecas necessárias

Primeiro, precisamos importar as bibliotecas necessárias. Usaremos o scikit-learn para construir e treinar o classificador de Árvore de Decisão.

from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Carregar o Conjunto de Dados

Em seguida, carregaremos o conjunto de dados Iris. Este conjunto de dados contém informações sobre quatro características de três espécies diferentes de flores Iris. Usaremos este conjunto de dados para treinar nosso classificador de Árvore de Decisão.

## Carregar o conjunto de dados Iris
iris = load_iris()
X = iris.data
y = iris.target

Dividir o Conjunto de Dados

Antes de treinar o classificador de Árvore de Decisão, precisamos dividir o conjunto de dados em conjuntos de treinamento e teste. Usaremos 70% dos dados para treinamento e 30% para teste.

## Dividir o conjunto de dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Criar e Treinar o Classificador de Árvore de Decisão

Agora, podemos criar e treinar o classificador de Árvore de Decisão usando os dados de treinamento.

## Criar um classificador de Árvore de Decisão
clf = tree.DecisionTreeClassifier()

## Treinar o classificador
clf.fit(X_train, y_train)

Fazer Previsões

Depois de treinado o classificador, podemos usá-lo para fazer previsões nos dados de teste.

## Fazer previsões nos dados de teste
y_pred = clf.predict(X_test)

## Imprimir os valores previstos
print("Valores previstos:", y_pred)

Avaliar o Modelo

Finalmente, podemos avaliar a precisão do nosso modelo comparando os valores previstos com os valores reais.

## Calcular a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)

## Imprimir a precisão
print("Precisão:", accuracy)

Resumo

Neste laboratório, aprendemos a utilizar Árvores de Decisão para classificação usando o scikit-learn. Carregámos o conjunto de dados Iris, dividimos os dados em conjuntos de treino e teste, criámos e treinámos o classificador de Árvores de Decisão, fizemos previsões nos dados de teste e avaliámos a precisão do modelo. As Árvores de Decisão são um método poderoso e interpretável para tarefas de classificação.

Classificação com Árvores de Decisão usando Scikit-learn