Estimadores y tuberías de Scikit-Learn | Aprendizaje automático

Introducción

En este laboratorio, aprenderemos sobre diferentes maneras de mostrar estimadores y tuberías utilizando scikit-learn. Los estimadores y las tuberías son una parte esencial del paquete scikit-learn, lo que nos permite construir y evaluar modelos de aprendizaje automático.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje su retroalimentación después de la sesión y lo resolveremos rápidamente para usted.

Representación de texto compacta

La primera forma en que podemos mostrar estimadores es a través de la representación de texto compacta. Los estimadores solo mostrarán los parámetros que se han establecido en valores no predeterminados cuando se muestran como una cadena. Esto reduce el ruido visual y facilita la detección de diferencias al comparar instancias.

from sklearn.linear_model import LogisticRegression

## Crea una instancia de Regresión Logística con penalización l1
lr = LogisticRegression(penalty="l1")

## Muestra el estimador
print(lr)

Representación HTML detallada

La segunda forma en que podemos mostrar estimadores es a través de una representación HTML detallada. En los cuadernos, los estimadores y las tuberías utilizarán una representación HTML detallada. Esto es particularmente útil para resumir la estructura de las tuberías y otros estimadores compuestos, con interactividad para proporcionar detalles.

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer
from sklearn.linear_model import LogisticRegression

## Crea tuberías para datos numéricos y categóricos
num_proc = make_pipeline(SimpleImputer(strategy="median"), StandardScaler())
cat_proc = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    OneHotEncoder(handle_unknown="ignore"),
)

## Crea un preprocesador que aplica las tuberías numéricas y categóricas a columnas específicas
preprocessor = make_column_transformer(
    (num_proc, ("feat1", "feat3")), (cat_proc, ("feat0", "feat2"))
)

## Crea una tubería que aplica el preprocesador y la regresión logística
clf = make_pipeline(preprocessor, LogisticRegression())

## Muestra la tubería
clf

Resumen

En este laboratorio, aprendimos sobre dos maneras de mostrar estimadores y tuberías utilizando scikit-learn: la representación de texto compacta y la representación HTML detallada. Estas representaciones pueden ser útiles para resumir la estructura de las tuberías y otros estimadores compuestos y para comparar diferentes instancias. Al utilizar estas técnicas, podemos mejorar nuestra comprensión de los modelos de aprendizaje automático y su rendimiento.