Installation et configuration de Scikit-learn

scikit-learnBeginner
Pratiquer maintenant

Introduction

Bienvenue dans votre premier laboratoire sur scikit-learn ! Scikit-learn est l'une des bibliothèques d'apprentissage automatique open-source les plus populaires et les plus puissantes pour Python. Elle fournit une large gamme d'outils pour l'exploration de données (data mining) et l'analyse de données, construite sur NumPy, SciPy et matplotlib.

Avant de commencer ce cours, vous devez posséder des compétences de base en programmation Python et vous assurer que Python est correctement configuré dans le PATH de votre système. Si vous n'avez pas encore appris Python, vous pouvez commencer par notre Parcours d'apprentissage Python. De plus, vous devez avoir NumPy et Pandas installés, car ils sont des prérequis essentiels pour les opérations de scikit-learn. Si vous avez besoin d'apprendre ces bibliothèques, vous pouvez explorer notre Parcours d'apprentissage NumPy et notre Parcours d'apprentissage Pandas.

Dans ce laboratoire, vous apprendrez les étapes fondamentales pour débuter avec scikit-learn dans l'environnement LabEx. Nous allons passer en revue la vérification de l'installation, l'importation de modules et le chargement de l'un des jeux de données intégrés de scikit-learn. Cela confirmera que votre environnement est correctement configuré pour les futures expériences d'apprentissage automatique.

Installer scikit-learn avec pip install scikit-learn

Dans cette étape, nous allons discuter de la manière d'installer la bibliothèque scikit-learn. Dans un environnement Python typique sur votre machine locale, vous utiliseriez pip, le gestionnaire de paquets pour Python, pour installer de nouvelles bibliothèques. La commande pour installer scikit-learn est :

pip install scikit-learn
Command to install scikit-learn

Cependant, pour rendre votre expérience d'apprentissage plus fluide, l'environnement LabEx est livré avec scikit-learn et ses dépendances pré-installés. Par conséquent, vous n'avez pas besoin d'exécuter la commande d'installation ici. Nous la montrons à titre de référence, afin que vous sachiez comment configurer scikit-learn sur votre propre ordinateur.

Passons à l'étape suivante pour commencer à utiliser la bibliothèque.

Importer scikit-learn avec from sklearn import datasets

Dans cette étape, vous allez écrire votre première ligne de code Python pour interagir avec la bibliothèque scikit-learn. Avant de pouvoir utiliser des fonctions ou des objets d'une bibliothèque en Python, vous devez d'abord l'importer dans votre script.

Scikit-learn inclut un module appelé datasets qui contient des utilitaires pour charger et récupérer des jeux de données de référence populaires. Nous allons importer ce module pour l'utiliser dans une étape ultérieure.

Tout d'abord, localisez le fichier main.py dans l'explorateur de fichiers sur le côté gauche de votre WebIDE. Cliquez dessus pour l'ouvrir dans l'éditeur. Ajoutez maintenant la ligne de code suivante au fichier main.py :

from sklearn import datasets
Python code to import scikit-learn datasets

Cette ligne indique à Python de trouver la bibliothèque sklearn et d'en importer le module datasets, rendant ainsi ses fonctions disponibles pour notre utilisation. Après avoir ajouté le code, enregistrez le fichier. Nous ajouterons plus de code et exécuterons le script dans les étapes à venir.

Vérifier l'installation avec sklearn.version

Dans cette étape, nous allons vérifier que scikit-learn est correctement installé et accessible en consultant son numéro de version. C'est une pratique courante pour s'assurer qu'une bibliothèque est correctement configurée dans votre environnement. Chaque installation de scikit-learn possède un attribut spécial __version__ qui contient cette information.

Ajoutons du code à notre fichier main.py pour afficher la version. Nous devons également importer le package sklearn de plus haut niveau lui-même. Modifiez votre fichier main.py pour qu'il ressemble à ceci :

import sklearn
from sklearn import datasets

print(sklearn.__version__)

Maintenant, exécutons ce script. Ouvrez un terminal dans votre WebIDE (vous trouverez généralement une icône + ou un menu "Terminal"). Dans le terminal, qui devrait s'ouvrir dans le répertoire /home/labex/project, exécutez la commande suivante :

python3 main.py
Scikit-learn version output in terminal

Vous devriez voir la version installée de scikit-learn s'afficher dans la console. La sortie ressemblera à ceci (le numéro de version exact peut varier) :

1.x.x

Cela confirme que Python peut importer et utiliser avec succès la bibliothèque scikit-learn.

Charger un jeu de données d'exemple avec datasets.load_iris()

Dans cette étape, nous allons utiliser le module datasets que nous avons importé précédemment pour charger un jeu de données d'exemple. Scikit-learn est livré avec plusieurs petits jeux de données standards qui ne nécessitent pas de téléchargement depuis un site externe. Ceux-ci sont utiles pour débuter et tester des algorithmes.

Nous allons charger le jeu de données Iris, un jeu de données classique et très célèbre dans le domaine de l'apprentissage automatique (machine learning). Il contient des mesures pour 150 fleurs d'iris de trois espèces différentes.

Pour le charger, nous utilisons la fonction datasets.load_iris(). Modifions le fichier main.py pour charger le jeu de données et le stocker dans une variable nommée iris. Nous ajouterons également une instruction print pour confirmer que le jeu de données a été chargé.

Mettez à jour votre fichier main.py avec le contenu suivant :

import sklearn
from sklearn import datasets

## Charger le jeu de données iris
iris = datasets.load_iris()

print("Jeu de données Iris chargé avec succès.")

Suggestion: Vous pouvez copier le code ci-dessus dans votre éditeur de code, puis lire attentivement chaque ligne de code pour comprendre sa fonction. Si vous avez besoin d'explications supplémentaires, vous pouvez cliquer sur le bouton "Explain Code" 👆. Vous pouvez interagir avec Labby pour obtenir une aide personnalisée.

Enregistrez le fichier et exécutez-le à nouveau depuis le terminal :

python3 main.py

La sortie devrait maintenant être :

Jeu de données Iris chargé avec succès.

Cela indique que la fonction load_iris() s'est exécutée sans erreur et que le jeu de données est maintenant disponible dans la variable iris de notre script.

Afficher les clés du jeu de données avec print(iris.keys())

Dans cette étape, nous allons inspecter la structure du jeu de données Iris que nous venons de charger. L'objet retourné par load_iris() est un objet Bunch, qui est similaire à un dictionnaire Python. Il contient des clés et des valeurs qui décrivent le jeu de données.

Pour voir quelles informations sont disponibles, nous pouvons afficher ses clés en utilisant la méthode .keys(). Cela nous montrera toutes les composantes du jeu de données, telles que les données elles-mêmes, les étiquettes cibles (target labels) et les noms descriptifs.

Modifiez votre fichier main.py pour afficher les clés de l'objet iris. Votre script final devrait ressembler à ceci :

import sklearn
from sklearn import datasets

## Charger le jeu de données iris
iris = datasets.load_iris()

## Afficher les clés du jeu de données
print(iris.keys())

Enregistrez le fichier et exécutez-le une dernière fois depuis le terminal :

python3 main.py

La sortie affichera les différentes parties de l'objet du jeu de données :

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

Voici une brève description des clés les plus importantes :

  • data : Le tableau contenant les données des caractéristiques (les mesures des fleurs).
  • target : Le tableau contenant les étiquettes (les espèces de chaque fleur).
  • feature_names : Les noms des caractéristiques (par exemple, 'sepal length (cm)').
  • target_names : Les noms des espèces cibles (par exemple, 'setosa').
  • DESCR : Une description complète du jeu de données.

En affichant ces clés, vous avez réussi à charger et à inspecter un jeu de données, complétant ainsi le processus de configuration de base.

Résumé

Félicitations ! Vous avez terminé avec succès ce laboratoire d'introduction à la configuration et à la vérification de votre environnement scikit-learn.

Dans ce laboratoire, vous avez appris à :

  • Comprendre le processus d'installation de scikit-learn.
  • Vérifier la version de la bibliothèque pour confirmer une installation réussie.
  • Importer des modules de la bibliothèque scikit-learn.
  • Charger un jeu de données d'exemple intégré, le jeu de données Iris.
  • Inspecter la structure de base d'un objet de jeu de données scikit-learn.

Vous êtes maintenant prêt à passer à des laboratoires plus passionnants où vous explorerez le prétraitement des données, l'entraînement de modèles et l'évaluation à l'aide des puissants outils fournis par scikit-learn.