Clasificación de Árboles de Decisión con Scikit-Learn

Beginner

This tutorial is from open-source community. Access the source code

Introducción

En este laboratorio, aprenderemos a usar los Árboles de Decisión para la clasificación con scikit-learn. Los Árboles de Decisión son un método de aprendizaje supervisado no paramétrico utilizado para la clasificación y la regresión. Son fáciles de entender e interpretar, y pueden manejar tanto datos numéricos como categóricos.

Consejos sobre la VM

Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar las bibliotecas necesarias

Primero, necesitamos importar las bibliotecas necesarias. Vamos a usar scikit-learn para construir y entrenar el clasificador de Árboles de Decisión.

from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Cargar el conjunto de datos

A continuación, cargaremos el conjunto de datos Iris. Este conjunto de datos contiene información sobre cuatro características de tres diferentes especies de flores Iris. Usaremos este conjunto de datos para entrenar nuestro clasificador de Árboles de Decisión.

## Cargar el conjunto de datos Iris
iris = load_iris()
X = iris.data
y = iris.target

Dividir el conjunto de datos

Antes de entrenar el clasificador de Árboles de Decisión, necesitamos dividir el conjunto de datos en conjuntos de entrenamiento y prueba. Usaremos el 70% de los datos para el entrenamiento y el 30% para la prueba.

## Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Crear y entrenar el clasificador de Árboles de Decisión

Ahora, podemos crear y entrenar el clasificador de Árboles de Decisión usando los datos de entrenamiento.

## Crear un clasificador de Árboles de Decisión
clf = tree.DecisionTreeClassifier()

## Entrenar el clasificador
clf.fit(X_train, y_train)

Hacer predicciones

Una vez que el clasificador está entrenado, podemos usarlo para hacer predicciones sobre los datos de prueba.

## Hacer predicciones sobre los datos de prueba
y_pred = clf.predict(X_test)

## Imprimir los valores predichos
print("Valores predichos:", y_pred)

Evaluar el modelo

Finalmente, podemos evaluar la precisión de nuestro modelo comparando los valores predichos con los valores reales.

## Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)

## Imprimir la precisión
print("Precisión:", accuracy)

Resumen

En este laboratorio, aprendimos cómo usar Árboles de Decisión para la clasificación con scikit-learn. Cargamos el conjunto de datos Iris, dividimos los datos en conjuntos de entrenamiento y prueba, creamos y entrenamos el clasificador de Árboles de Decisión, hicimos predicciones sobre los datos de prueba y evaluamos la precisión del modelo. Los Árboles de Decisión son un método poderoso e interpretable para tareas de clasificación.