Régression logistique sur l'ensemble de données Iris

Introduction

Dans ce laboratoire, nous utiliserons le classifieur de régression logistique pour classifier les deux premières caractéristiques de l'ensemble de données Iris en fonction de leurs étiquettes. Nous utiliserons la bibliothèque scikit-learn pour charger et prétraiter l'ensemble de données, créer une instance du classifieur de régression logistique et ajuster les données. Enfin, nous afficherons les limites de décision sur le graphique de dispersion.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez des commentaires après la session et nous réglerons rapidement le problème pour vous.

Charger l'ensemble de données et le prétraiter

Nous utiliserons la bibliothèque scikit-learn pour charger l'ensemble de données Iris. L'ensemble de données contient 3 classes de 50 instances chacune, où chaque classe fait référence à un type de plante d'iris. Chaque instance a 4 caractéristiques : longueur du sépale, largeur du sépale, longueur des pétales et largeur des pétales.

import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.inspection import DecisionBoundaryDisplay

## charger l'ensemble de données Iris
iris = datasets.load_iris()
X = iris.data[:, :2]  ## nous ne prenons que les deux premières caractéristiques.
Y = iris.target

Créer une instance du classifieur de régression logistique et ajuster les données

Nous allons créer une instance du classifieur de régression logistique et ajuster les données.

## Créer une instance du classifieur de régression logistique et ajuster les données.
logreg = LogisticRegression(C=1e5)
logreg.fit(X, Y)

Afficher les limites de décision sur le graphique de dispersion

Nous allons afficher les limites de décision sur le graphique de dispersion en utilisant DecisionBoundaryDisplay de la bibliothèque scikit-learn.

_, ax = plt.subplots(figsize=(4, 3))
DecisionBoundaryDisplay.from_estimator(
    logreg,
    X,
    cmap=plt.cm.Paired,
    ax=ax,
    response_method="predict",
    plot_method="pcolormesh",
    shading="auto",
    xlabel="Longueur du sépale",
    ylabel="Largeur du sépale",
    eps=0.5,
)

## Tracer également les points d'entraînement
plt.scatter(X[:, 0], X[:, 1], c=Y, edgecolors="k", cmap=plt.cm.Paired)

plt.xticks(())
plt.yticks(())

plt.show()

Sommaire

Dans ce laboratoire, nous avons utilisé le classifieur de régression logistique pour classifier les deux premières caractéristiques de l'ensemble de données Iris en fonction de leurs étiquettes. Nous avons chargé et prétraité l'ensemble de données à l'aide de la bibliothèque scikit-learn, créé une instance du classifieur de régression logistique et ajusté les données. Enfin, nous avons affiché les limites de décision sur le graphique de dispersion.