Importar las bibliotecas necesarias y cargar el conjunto de datos
En este paso, aprenderás a importar las bibliotecas necesarias y cargar el conjunto de datos de iris. Siga los pasos siguientes para completar este paso:
En iris_classification_svm.py
, importe las bibliotecas necesarias, incluyendo las para cargar el conjunto de datos, dividir los datos, crear el modelo SVM y evaluar su rendimiento.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
Cargue los datos de iris de sklearn.datasets
y divida el conjunto de datos en conjuntos de entrenamiento y prueba. El conjunto de datos se divide utilizando una proporción de 80-20 para el entrenamiento y la prueba, con una semilla aleatoria de 42 para la reproducibilidad.
## Continúe en el mismo archivo
def load_and_split_data() -> tuple:
"""
Devuelve:
tuple: [X_train, X_test, y_train, y_test]
"""
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
return X_train, X_test, y_train, y_test
Este código carga el conjunto de datos de Iris y lo divide en conjuntos de entrenamiento y prueba con fines de aprendizaje automático. Aquí hay una descripción detallada de cada parte:
- Importar bibliotecas necesarias:
sklearn.datasets
se utiliza para cargar conjuntos de datos, incluyendo el conjunto de datos de Iris.
sklearn.model_selection
proporciona utilidades para dividir conjuntos de datos en conjuntos de entrenamiento y prueba.
sklearn.svm
contiene clases para Máquinas de Vectores de Soporte (SVM), un tipo de algoritmo de aprendizaje automático.
sklearn.metrics
incluye herramientas para evaluar el rendimiento de los modelos, como la precisión y los informes de clasificación.
- Definición de función: Se define una función llamada
load_and_split_data
. Esta función realiza las siguientes tareas:
- Cargar el conjunto de datos de Iris:
load_iris()
es una función proporcionada por sklearn.datasets
que carga el conjunto de datos de flores de Iris, que es un conjunto de datos popular para tareas de clasificación. Contiene mediciones de 150 flores de iris de tres especies diferentes.
- Separación de datos: El conjunto de datos se separa en características (
X
) y etiquetas de destino (y
). En este caso, X
sería las mediciones de 4 dimensiones de las flores de iris, y y
sería las etiquetas de especies correspondientes (0, 1 o 2).
- Dividir los datos:
train_test_split
de sklearn.model_selection
se utiliza para dividir los datos en subconjuntos de entrenamiento y prueba. El parámetro test_size = 0.2
significa que el 20% de los datos se utilizará para la prueba, mientras que el 80% restante se utilizará para el entrenamiento. random_state = 42
asegura la reproducibilidad de la división; utilizar la misma semilla (42 aquí) producirá la misma división cada vez que se ejecute el código.
- Valores de retorno: La función devuelve una tupla que contiene
X_train
, X_test
, y_train
y y_test
, que son los conjuntos de características y destino para los datos de entrenamiento y prueba.