Transformer la cible de prédiction

Machine LearningMachine LearningBeginner
Pratiquer maintenant

This tutorial is from open-source community. Access the source code

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

En apprentissage automatique, il est souvent nécessaire de transformer la cible de prédiction avant d'entraîner un modèle. Cela peut inclure des tâches telles que la conversion des étiquettes multiclasse en une matrice d'indicateurs binaires ou le codage des étiquettes non numériques en étiquettes numériques.

Dans ce laboratoire, nous allons explorer les diverses techniques fournies par le module sklearn.preprocessing dans scikit-learn pour transformer la cible de prédiction.

Conseils sur la VM

Une fois le démarrage de la VM terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez des commentaires après la session, et nous résoudrons rapidement le problème pour vous.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/preprocessing("Preprocessing and Normalization") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/preprocessing -.-> lab-71136{{"Transformer la cible de prédiction"}} ml/sklearn -.-> lab-71136{{"Transformer la cible de prédiction"}} end

Binarisation des étiquettes

La binarisation des étiquettes est le processus de conversion d'étiquettes multiclasse en une matrice d'indicateurs binaires. Cela peut être réalisé à l'aide de la classe LabelBinarizer.

from sklearn import preprocessing

## Crée une instance de LabelBinarizer
lb = preprocessing.LabelBinarizer()

## Ajuste le LabelBinarizer sur une liste d'étiquettes multiclasse
lb.fit([1, 2, 6, 4, 2])

## Obtenir les classes apprises par le LabelBinarizer
lb.classes_

## Transforme une liste d'étiquettes multiclasse en une matrice d'indicateurs binaires
lb.transform([1, 6])

Binarisation des multi-étiquettes

La binarisation des multi-étiquettes est le processus de conversion d'une collection de collections d'étiquettes en un format indicateur. Cela peut être réalisé à l'aide de la classe MultiLabelBinarizer.

from sklearn.preprocessing import MultiLabelBinarizer

## Définir une liste de collections d'étiquettes
y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]

## Créer une instance de MultiLabelBinarizer et effectuer une transformation d'ajustement sur la liste de collections
MultiLabelBinarizer().fit_transform(y)

Encodage des étiquettes

L'encodage des étiquettes est le processus de conversion d'étiquettes non numériques en étiquettes numériques. Cela peut être réalisé à l'aide de la classe LabelEncoder.

from sklearn import preprocessing

## Crée une instance de LabelEncoder
le = preprocessing.LabelEncoder()

## Ajuste le LabelEncoder sur une liste d'étiquettes non numériques
le.fit(["paris", "paris", "tokyo", "amsterdam"])

## Obtenir les classes apprises par le LabelEncoder
list(le.classes_)

## Transforme une liste d'étiquettes non numériques en étiquettes numériques
le.transform(["tokyo", "tokyo", "paris"])

## Inverse la transformation des étiquettes numériques pour les ramener à des étiquettes non numériques
list(le.inverse_transform([2, 2, 1]))

Sommaire

Dans ce laboratoire, nous avons appris à transformer la cible de prédiction à l'aide de diverses techniques fournies par le module sklearn.preprocessing dans scikit-learn. Ces techniques comprenaient la binarisation des étiquettes, la binarisation des multi-étiquettes et l'encodage des étiquettes.