Visualiser des ensembles de données de classification aléatoires

Introduction

Ce laboratoire montre comment tracer plusieurs jeux de données de classification générés aléatoirement à l'aide de la bibliothèque scikit-learn de Python. Il visualise tous les jeux de données en utilisant deux caractéristiques, représentées sur l'axe x et y. La couleur de chaque point représente son étiquette de classe.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importation des bibliothèques

Nous devons tout d'abord importer les bibliothèques requises. Nous utiliserons matplotlib et scikit-learn.

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs
from sklearn.datasets import make_gaussian_quantiles

Régler la taille de la figure et ajuster les sous-graphiques

Nous régulons la taille de la figure et ajustons les sous-graphiques pour les rendre plus lisibles.

plt.figure(figsize=(8, 8))
plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95)

Une caractéristique informative, un groupe par classe

Nous créons un ensemble de données avec une caractéristique informative et un groupe par classe, puis le traçons.

plt.subplot(321)
plt.title("One informative feature, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=1, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Deux caractéristiques informatives, un groupe par classe

Nous créons un ensemble de données avec deux caractéristiques informatives et un groupe par classe, puis le traçons.

plt.subplot(322)
plt.title("Two informative features, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Deux caractéristiques informatives, deux groupes par classe

Nous créons un ensemble de données avec deux caractéristiques informatives et deux groupes par classe, puis le traçons.

plt.subplot(323)
plt.title("Two informative features, two clusters per class", fontsize="small")
X2, Y2 = make_classification(n_features=2, n_redundant=0, n_informative=2)
plt.scatter(X2[:, 0], X2[:, 1], marker="o", c=Y2, s=25, edgecolor="k")

Multi-classe, deux caractéristiques informatives, un groupe

Nous créons un ensemble de données avec plusieurs classes, deux caractéristiques informatives et un groupe, puis le traçons.

plt.subplot(324)
plt.title("Multi-class, two informative features, one cluster", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Trois amas

Nous créons un ensemble de données avec trois amas, puis le traçons.

plt.subplot(325)
plt.title("Three blobs", fontsize="small")
X1, Y1 = make_blobs(n_features=2, centers=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Gaussienne divisée en trois quantiles

Nous créons un ensemble de données avec une Gaussienne divisée en trois quantiles, puis le traçons.

plt.subplot(326)
plt.title("Gaussian divided into three quantiles", fontsize="small")
X1, Y1 = make_gaussian_quantiles(n_features=2, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Afficher le tracé

Nous affichons le tracé final.

plt.show()

Sommaire

Ce laboratoire a démontré comment tracer plusieurs ensembles de données de classification générés aléatoirement à l'aide de la bibliothèque scikit - learn de Python. Il visualise tous les ensembles de données en utilisant deux caractéristiques, représentées sur l'axe x et l'axe y. La couleur de chaque point représente son étiquette de classe.

Tracé d'ensembles de données de classification aléatoires