Explorer les jeux de données et les estimateurs de Scikit-Learn

Beginner

This tutorial is from open-source community. Access the source code

Introduction

Dans ce laboratoire, nous allons explorer la configuration et l'objet estimateur dans scikit-learn, une bibliothèque populaire de machine learning en Python. Nous allons apprendre à connaître les ensembles de données, qui sont représentés sous forme de tableaux 2D, et à les prétraiter pour scikit-learn. Nous allons également explorer le concept d'objets estimateurs, qui sont utilisés pour apprendre à partir de données et faire des prédictions.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet d'adresses pour accéder au carnet Jupyter pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Ceci est un Guided Lab, qui fournit des instructions étape par étape pour vous aider à apprendre et à pratiquer. Suivez attentivement les instructions pour compléter chaque étape et acquérir une expérience pratique. Les données historiques montrent que c'est un laboratoire de niveau débutant avec un taux de réussite de 83%. Il a reçu un taux d'avis positifs de 94% de la part des apprenants.

Comprendre les ensembles de données

Scikit-learn représente les ensembles de données sous forme de tableaux 2D, où le premier axe représente les échantillons et le second axe représente les caractéristiques. Jetons un coup d'œil à un exemple en utilisant l'ensemble de données iris :

from sklearn import datasets

iris = datasets.load_iris()
data = iris.data
print(data.shape)

Sortie :

(150, 4)

L'ensemble de données iris est composé de 150 observations d'iris, chaque observation étant décrite par 4 caractéristiques. La forme du tableau de données est (150, 4).

Redimensionnement des données

Parfois, les données ne sont peut-être pas initialement dans la forme requise par scikit-learn. Dans de tels cas, nous devons prétraiter les données pour les transformer en forme (n_samples, n_features). Un exemple de redimensionnement de données est l'ensemble de données digits, qui est composé de 1797 images 8x8 d'écritures manuscrites de chiffres :

digits = datasets.load_digits()
print(digits.images.shape)

Sortie :

(1797, 8, 8)

Pour utiliser cet ensemble de données avec scikit-learn, nous devons redimensionner chaque image 8x8 en un vecteur de caractéristiques de longueur 64 :

data = digits.images.reshape((digits.images.shape[0], -1))

Objets estimateurs

Les objets estimateurs dans scikit-learn sont utilisés pour apprendre à partir de données et faire des prédictions. Ils peuvent être des algorithmes de classification, de régression ou de regroupement, ou des transformateurs qui extraient des caractéristiques utiles à partir de données brutes. Créons un exemple simple d'un objet estimateur :

from sklearn.base import BaseEstimator

class Estimator(BaseEstimator):
    def __init__(self, param1=0, param2=0):
        self.param1 = param1
        self.param2 = param2

    def fit(self, data):
        ## Implémentation de la méthode fit
        pass

estimator = Estimator()

Ajustement des données

L'API principale mise en œuvre par scikit-learn est la méthode fit d'un objet estimateur. Elle prend un ensemble de données (généralement un tableau 2D) en entrée. Pour ajuster des données avec un estimateur, on peut appeler la méthode fit :

estimator.fit(data)

Paramètres des estimateurs

Les objets estimateurs peuvent avoir des paramètres qui influencent leur comportement. Ces paramètres peuvent être définis lors de l'instanciation de l'estimateur ou en modifiant l'attribut correspondant. Définissons quelques paramètres pour notre estimateur d'exemple :

estimator = Estimator(param1=1, param2=2)
print(estimator.param1)

Sortie :

1

Paramètres estimés

Lorsque des données sont ajustées avec un estimateur, les paramètres sont estimés à partir des données. Tous les paramètres estimés sont des attributs de l'objet estimateur, se terminant par un underscore. Par exemple :

print(estimator.estimated_param_)

Sommaire

Dans ce laboratoire, nous avons appris à connaître les jeux de données dans scikit-learn, comment redimensionner des données et le concept d'objets estimateurs. Nous avons exploré le fait d'ajuster des données avec un estimateur, de définir des paramètres et d'accéder aux paramètres estimés. Cette compréhension du cadre et de l'objet estimateur sera essentielle lors de l'utilisation de scikit-learn pour des tâches d'apprentissage statistique.