Introduction
Ce laboratoire montre comment tracer plusieurs jeux de données de classification générés aléatoirement à l'aide de la bibliothèque scikit-learn de Python. Il visualise tous les jeux de données en utilisant deux caractéristiques, représentées sur l'axe x et y. La couleur de chaque point représente son étiquette de classe.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter pour pratiquer.
Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importation des bibliothèques
Nous devons tout d'abord importer les bibliothèques requises. Nous utiliserons matplotlib et scikit-learn.
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs
from sklearn.datasets import make_gaussian_quantiles
Régler la taille de la figure et ajuster les sous-graphiques
Nous régulons la taille de la figure et ajustons les sous-graphiques pour les rendre plus lisibles.
plt.figure(figsize=(8, 8))
plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95)
Une caractéristique informative, un groupe par classe
Nous créons un ensemble de données avec une caractéristique informative et un groupe par classe, puis le traçons.
plt.subplot(321)
plt.title("One informative feature, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=1, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Deux caractéristiques informatives, un groupe par classe
Nous créons un ensemble de données avec deux caractéristiques informatives et un groupe par classe, puis le traçons.
plt.subplot(322)
plt.title("Two informative features, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Deux caractéristiques informatives, deux groupes par classe
Nous créons un ensemble de données avec deux caractéristiques informatives et deux groupes par classe, puis le traçons.
plt.subplot(323)
plt.title("Two informative features, two clusters per class", fontsize="small")
X2, Y2 = make_classification(n_features=2, n_redundant=0, n_informative=2)
plt.scatter(X2[:, 0], X2[:, 1], marker="o", c=Y2, s=25, edgecolor="k")
Multi-classe, deux caractéristiques informatives, un groupe
Nous créons un ensemble de données avec plusieurs classes, deux caractéristiques informatives et un groupe, puis le traçons.
plt.subplot(324)
plt.title("Multi-class, two informative features, one cluster", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Trois amas
Nous créons un ensemble de données avec trois amas, puis le traçons.
plt.subplot(325)
plt.title("Three blobs", fontsize="small")
X1, Y1 = make_blobs(n_features=2, centers=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Gaussienne divisée en trois quantiles
Nous créons un ensemble de données avec une Gaussienne divisée en trois quantiles, puis le traçons.
plt.subplot(326)
plt.title("Gaussian divided into three quantiles", fontsize="small")
X1, Y1 = make_gaussian_quantiles(n_features=2, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Afficher le tracé
Nous affichons le tracé final.
plt.show()
Sommaire
Ce laboratoire a démontré comment tracer plusieurs ensembles de données de classification générés aléatoirement à l'aide de la bibliothèque scikit - learn de Python. Il visualise tous les ensembles de données en utilisant deux caractéristiques, représentées sur l'axe x et l'axe y. La couleur de chaque point représente son étiquette de classe.