Introducción
Esta práctica demuestra cómo trazar varios conjuntos de datos de clasificación generados aleatoriamente utilizando la biblioteca scikit-learn de Python. Visualiza todos los conjuntos de datos utilizando dos características, trazadas en los ejes x e y. El color de cada punto representa su etiqueta de clase.
Consejos sobre la VM
Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.
A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.
Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.
Importar bibliotecas
En primer lugar, necesitamos importar las bibliotecas necesarias. Vamos a utilizar matplotlib y scikit-learn.
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs
from sklearn.datasets import make_gaussian_quantiles
Establecer el tamaño de la figura y ajustar los subgráficos
Establecemos el tamaño de la figura y ajustamos los subgráficos para que sean más legibles.
plt.figure(figsize=(8, 8))
plt.subplots_adjust(bottom=0.05, top=0.9, left=0.05, right=0.95)
Una característica informativa, un clúster por clase
Creamos un conjunto de datos con una característica informativa y un clúster por clase, y lo representamos gráficamente.
plt.subplot(321)
plt.title("One informative feature, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=1, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Dos características informativas, un clúster por clase
Creamos un conjunto de datos con dos características informativas y un clúster por clase, y lo representamos gráficamente.
plt.subplot(322)
plt.title("Two informative features, one cluster per class", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Dos características informativas, dos clústers por clase
Creamos un conjunto de datos con dos características informativas y dos clústers por clase, y lo representamos gráficamente.
plt.subplot(323)
plt.title("Two informative features, two clusters per class", fontsize="small")
X2, Y2 = make_classification(n_features=2, n_redundant=0, n_informative=2)
plt.scatter(X2[:, 0], X2[:, 1], marker="o", c=Y2, s=25, edgecolor="k")
Multiclase, dos características informativas, un clúster
Creamos un conjunto de datos con múltiples clases, dos características informativas y un clúster, y lo representamos gráficamente.
plt.subplot(324)
plt.title("Multi-class, two informative features, one cluster", fontsize="small")
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Tres manchas
Creamos un conjunto de datos con tres manchas, y lo representamos gráficamente.
plt.subplot(325)
plt.title("Three blobs", fontsize="small")
X1, Y1 = make_blobs(n_features=2, centers=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Gaussiana dividida en tres cuantiles
Creamos un conjunto de datos con una Gaussiana dividida en tres cuantiles, y lo representamos gráficamente.
plt.subplot(326)
plt.title("Gaussian divided into three quantiles", fontsize="small")
X1, Y1 = make_gaussian_quantiles(n_features=2, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker="o", c=Y1, s=25, edgecolor="k")
Muestra el gráfico
Mostramos el gráfico final.
plt.show()
Resumen
Esta práctica demostró cómo representar varios conjuntos de datos de clasificación generados aleatoriamente utilizando la librería scikit - learn de Python. Visualiza todos los conjuntos de datos utilizando dos características, representadas en el eje x y el eje y. El color de cada punto representa su etiqueta de clase.