Classification par arbre de décision | Tutoriel Scikit-learn

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser les Arbres de décision pour la classification à l'aide de scikit-learn. Les Arbres de décision sont une méthode d'apprentissage supervisé non paramétrique utilisée pour la classification et la régression. Ils sont faciles à comprendre et à interpréter, et peuvent gérer à la fois les données numériques et catégorielles.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/model_selection -.-> lab-71107{{"Classification par arbre de décision avec Scikit-Learn"}} sklearn/metrics -.-> lab-71107{{"Classification par arbre de décision avec Scikit-Learn"}} sklearn/datasets -.-> lab-71107{{"Classification par arbre de décision avec Scikit-Learn"}} ml/sklearn -.-> lab-71107{{"Classification par arbre de décision avec Scikit-Learn"}} end

Importez les bibliothèques nécessaires

Tout d'abord, nous devons importer les bibliothèques nécessaires. Nous allons utiliser scikit-learn pour construire et entraîner le classifieur d'arbres de décision.

from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Chargez l'ensemble de données

Ensuite, nous allons charger l'ensemble de données Iris. Cet ensemble de données contient des informations sur quatre caractéristiques de trois espèces différentes de fleurs Iris. Nous allons utiliser cet ensemble de données pour entraîner notre classifieur d'arbres de décision.

## Chargez l'ensemble de données Iris
iris = load_iris()
X = iris.data
y = iris.target

Divisez l'ensemble de données

Avant d'entraîner le classifieur d'arbres de décision, nous devons diviser l'ensemble de données en ensembles d'entraînement et de test. Nous utiliserons 70 % des données pour l'entraînement et 30 % pour les tests.

## Divisez l'ensemble de données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Créez et entraînez le classifieur d'arbres de décision

Maintenant, nous pouvons créer et entraîner le classifieur d'arbres de décision à l'aide des données d'entraînement.

## Créez un classifieur d'arbres de décision
clf = tree.DecisionTreeClassifier()

## Entraînez le classifieur
clf.fit(X_train, y_train)

Effectuez des prédictions

Une fois que le classifieur est entraîné, nous pouvons l'utiliser pour effectuer des prédictions sur les données de test.

## Effectuez des prédictions sur les données de test
y_pred = clf.predict(X_test)

## Affichez les valeurs prédites
print("Valeurs prédites :", y_pred)

Évaluez le modèle

Enfin, nous pouvons évaluer la précision de notre modèle en comparant les valeurs prédites avec les valeurs réelles.

## Calculez la précision du modèle
accuracy = accuracy_score(y_test, y_pred)

## Affichez la précision
print("Précision :", accuracy)

Sommaire

Dans ce laboratoire, nous avons appris à utiliser les arbres de décision pour la classification à l'aide de scikit - learn. Nous avons chargé l'ensemble de données Iris, divisé les données en ensembles d'entraînement et de test, créé et entraîné le classifieur d'arbres de décision, effectué des prédictions sur les données de test et évalué la précision du modèle. Les arbres de décision sont une méthode puissante et interprétable pour les tâches de classification.