Apprentissage automatique | Évaluation de modèles avec Scikit-Learn

Introduction

En apprentissage automatique, il est important d'évaluer la qualité des prédictions faites par un modèle. Cela nous aide à comprendre comment le modèle se comporte et s'il peut être confié pour faire des prédictions précises. La bibliothèque scikit-learn fournit plusieurs métriques et méthodes de notation pour quantifier la qualité des prédictions.

Dans ce laboratoire, nous explorerons trois API différentes fournies par scikit-learn pour l'évaluation des modèles : la méthode de notation d'Estimateur, le paramètre de notation et les fonctions de métrique.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous réglerons rapidement le problème pour vous.

Méthode de notation d'Estimateur

La méthode de notation d'Estimateur est un critère d'évaluation par défaut fourni par scikit-learn pour chaque estimateur. Elle calcule une note qui représente la qualité des prédictions du modèle. Vous pouvez trouver plus d'informations à ce sujet dans la documentation de chaque estimateur.

Voici un exemple d'utilisation de la méthode score pour un estimateur :

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)
clf = LogisticRegression()
clf.fit(X, y)

score = clf.score(X, y)
print("Score:", score)

Paramètre de notation

Scikit-learn fournit un paramètre scoring dans plusieurs outils d'évaluation de modèles, tels que la validation croisée et la recherche en grille. Le paramètre scoring contrôle la métrique appliquée aux estimateurs lors de l'évaluation.

Voici un exemple d'utilisation du paramètre scoring avec la validation croisée :

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)
clf = LogisticRegression()

scores = cross_val_score(clf, X, y, cv=5, scoring='accuracy')
print("Scores:", scores)

Fonctions de métrique

Le module metrics de scikit-learn implémente plusieurs fonctions pour évaluer l'erreur de prédiction dans des buts spécifiques. Ces fonctions peuvent être utilisées pour calculer la qualité des prédictions faites par un modèle.

Voici un exemple d'utilisation de la fonction accuracy_score du module metrics :

from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

clf = LogisticRegression()
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Sommaire

Dans ce laboratoire, nous avons appris à connaître trois API différentes fournies par scikit-learn pour l'évaluation des modèles : la méthode de notation d'Estimateur, le paramètre de notation et les fonctions de métrique. Ces API nous permettent d'évaluer la qualité des prédictions faites par un modèle et de comprendre comment le modèle se comporte.

Évaluation de la qualité des modèles d'apprentissage automatique