Introduction
Dans ce laboratoire, nous allons explorer la configuration et l'objet estimateur dans scikit-learn, une bibliothèque populaire de machine learning en Python. Nous allons apprendre à connaître les ensembles de données, qui sont représentés sous forme de tableaux 2D, et à les prétraiter pour scikit-learn. Nous allons également explorer le concept d'objets estimateurs, qui sont utilisés pour apprendre à partir de données et faire des prédictions.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet d'adresses pour accéder au carnet Jupyter pour pratiquer.
Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Comprendre les ensembles de données
Scikit-learn représente les ensembles de données sous forme de tableaux 2D, où le premier axe représente les échantillons et le second axe représente les caractéristiques. Jetons un coup d'œil à un exemple en utilisant l'ensemble de données iris :
from sklearn import datasets
iris = datasets.load_iris()
data = iris.data
print(data.shape)
Sortie :
(150, 4)
L'ensemble de données iris est composé de 150 observations d'iris, chaque observation étant décrite par 4 caractéristiques. La forme du tableau de données est (150, 4).
Redimensionnement des données
Parfois, les données ne sont peut-être pas initialement dans la forme requise par scikit-learn. Dans de tels cas, nous devons prétraiter les données pour les transformer en forme (n_samples, n_features). Un exemple de redimensionnement de données est l'ensemble de données digits, qui est composé de 1797 images 8x8 d'écritures manuscrites de chiffres :
digits = datasets.load_digits()
print(digits.images.shape)
Sortie :
(1797, 8, 8)
Pour utiliser cet ensemble de données avec scikit-learn, nous devons redimensionner chaque image 8x8 en un vecteur de caractéristiques de longueur 64 :
data = digits.images.reshape((digits.images.shape[0], -1))
Objets estimateurs
Les objets estimateurs dans scikit-learn sont utilisés pour apprendre à partir de données et faire des prédictions. Ils peuvent être des algorithmes de classification, de régression ou de regroupement, ou des transformateurs qui extraient des caractéristiques utiles à partir de données brutes. Créons un exemple simple d'un objet estimateur :
from sklearn.base import BaseEstimator
class Estimator(BaseEstimator):
def __init__(self, param1=0, param2=0):
self.param1 = param1
self.param2 = param2
def fit(self, data):
## Implémentation de la méthode fit
pass
estimator = Estimator()
Ajustement des données
L'API principale mise en œuvre par scikit-learn est la méthode fit d'un objet estimateur. Elle prend un ensemble de données (généralement un tableau 2D) en entrée. Pour ajuster des données avec un estimateur, on peut appeler la méthode fit :
estimator.fit(data)
Paramètres des estimateurs
Les objets estimateurs peuvent avoir des paramètres qui influencent leur comportement. Ces paramètres peuvent être définis lors de l'instanciation de l'estimateur ou en modifiant l'attribut correspondant. Définissons quelques paramètres pour notre estimateur d'exemple :
estimator = Estimator(param1=1, param2=2)
print(estimator.param1)
Sortie :
1
Paramètres estimés
Lorsque des données sont ajustées avec un estimateur, les paramètres sont estimés à partir des données. Tous les paramètres estimés sont des attributs de l'objet estimateur, se terminant par un underscore. Par exemple :
print(estimator.estimated_param_)
Sommaire
Dans ce laboratoire, nous avons appris à connaître les jeux de données dans scikit-learn, comment redimensionner des données et le concept d'objets estimateurs. Nous avons exploré le fait d'ajuster des données avec un estimateur, de définir des paramètres et d'accéder aux paramètres estimés. Cette compréhension du cadre et de l'objet estimateur sera essentielle lors de l'utilisation de scikit-learn pour des tâches d'apprentissage statistique.