Visualizar conjuntos de datos de clasificación aleatorios

Introducción

Esta práctica demuestra cómo trazar varios conjuntos de datos de clasificación generados aleatoriamente utilizando la biblioteca scikit-learn de Python. Visualiza todos los conjuntos de datos utilizando dos características, trazadas en los ejes x e y. El color de cada punto representa su etiqueta de clase.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar bibliotecas

En primer lugar, necesitamos importar las bibliotecas necesarias. Vamos a utilizar matplotlib y scikit-learn.

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs
from sklearn.datasets import make_gaussian_quantiles

Establecer el tamaño de la figura y ajustar los subgráficos

Establecemos el tamaño de la figura y ajustamos los subgráficos para que sean más legibles.

plt.figure(figsize=(8, 8))
plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95)

Una característica informativa, un clúster por clase

Creamos un conjunto de datos con una característica informativa y un clúster por clase, y lo representamos gráficamente.

plt.subplot(321)
plt.title("One informative feature, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=1, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Dos características informativas, un clúster por clase

Creamos un conjunto de datos con dos características informativas y un clúster por clase, y lo representamos gráficamente.

plt.subplot(322)
plt.title("Two informative features, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Dos características informativas, dos clústers por clase

Creamos un conjunto de datos con dos características informativas y dos clústers por clase, y lo representamos gráficamente.

plt.subplot(323)
plt.title("Two informative features, two clusters per class", fontsize="small")
X2, Y2 = make_classification(n_features=2, n_redundant=0, n_informative=2)
plt.scatter(X2[:, 0], X2[:, 1], marker="o", c=Y2, s=25, edgecolor="k")

Multiclase, dos características informativas, un clúster

Creamos un conjunto de datos con múltiples clases, dos características informativas y un clúster, y lo representamos gráficamente.

plt.subplot(324)
plt.title("Multi-class, two informative features, one cluster", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Tres manchas

Creamos un conjunto de datos con tres manchas, y lo representamos gráficamente.

plt.subplot(325)
plt.title("Three blobs", fontsize="small")
X1, Y1 = make_blobs(n_features=2, centers=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Gaussiana dividida en tres cuantiles

Creamos un conjunto de datos con una Gaussiana dividida en tres cuantiles, y lo representamos gráficamente.

plt.subplot(326)
plt.title("Gaussian divided into three quantiles", fontsize="small")
X1, Y1 = make_gaussian_quantiles(n_features=2, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")

Muestra el gráfico

Mostramos el gráfico final.

plt.show()

Resumen

Esta práctica demostró cómo representar varios conjuntos de datos de clasificación generados aleatoriamente utilizando la librería scikit - learn de Python. Visualiza todos los conjuntos de datos utilizando dos características, representadas en el eje x y el eje y. El color de cada punto representa su etiqueta de clase.

Gráficos de conjuntos de datos de clasificación aleatorios