Aprendizaje automático | Evaluación de modelos con Scikit-Learn

Introducción

En el aprendizaje automático, es importante evaluar la calidad de las predicciones hechas por un modelo. Esto nos ayuda a entender cómo está funcionando el modelo y si se puede confiar en él para hacer predicciones precisas. La biblioteca scikit-learn proporciona varias métricas y métodos de puntuación para cuantificar la calidad de las predicciones.

En este laboratorio, exploraremos tres APIs diferentes proporcionadas por scikit-learn para la evaluación de modelos: el método de puntuación del Estimador, el parámetro de puntuación y las funciones métricas.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje su retroalimentación después de la sesión y resolveremos rápidamente el problema para usted.

Método de puntuación del Estimador

El método de puntuación del Estimador es un criterio de evaluación predeterminado proporcionado por scikit-learn para cada estimador. Calcula una puntuación que representa la calidad de las predicciones del modelo. Puede encontrar más información al respecto en la documentación de cada estimador.

A continuación, se muestra un ejemplo de uso del método score para un estimador:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)
clf = LogisticRegression()
clf.fit(X, y)

score = clf.score(X, y)
print("Score:", score)

Parámetro de puntuación

Scikit-learn proporciona un parámetro scoring en varias herramientas de evaluación de modelos, como la validación cruzada y la búsqueda en cuadrícula. El parámetro scoring controla la métrica aplicada a los estimadores durante la evaluación.

A continuación, se muestra un ejemplo de uso del parámetro scoring con la validación cruzada:

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)
clf = LogisticRegression()

scores = cross_val_score(clf, X, y, cv=5, scoring='accuracy')
print("Scores:", scores)

Funciones métricas

El módulo metrics de scikit-learn implementa varias funciones para evaluar el error de predicción con fines específicos. Estas funciones se pueden utilizar para calcular la calidad de las predicciones hechas por un modelo.

A continuación, se muestra un ejemplo de uso de la función accuracy_score del módulo metrics:

from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

clf = LogisticRegression()
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Resumen

En este laboratorio, aprendimos sobre tres APIs diferentes proporcionadas por scikit-learn para la evaluación de modelos: el método de puntuación del Estimador, el parámetro de puntuación y las funciones métricas. Estas APIs nos permiten evaluar la calidad de las predicciones hechas por un modelo y entender cómo está funcionando el modelo.

Evaluando la calidad del modelo de aprendizaje automático