Construyendo tuberías en Scikit-Learn | Tutorial de Aprendizaje Automático

Introducción

Esta práctica es una guía paso a paso sobre cómo construir y mostrar tuberías en Scikit-Learn.

Consejos sobre la VM

Una vez finalizada la arranque de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargar. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje su retroalimentación después de la sesión y resolveremos rápidamente el problema para usted.

Construyendo una tubería simple con un paso de preprocesamiento y un clasificador

En este paso, construiremos una tubería simple con un paso de preprocesamiento y un clasificador, y mostraremos su representación visual.

Primero, importamos los módulos necesarios:

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn import set_config

Luego, definimos los pasos de la tubería:

steps = [
    ("preprocessing", StandardScaler()),
    ("classifier", LogisticRegression()),
]

Después, creamos la tubería:

pipe = Pipeline(steps)

Finalmente, mostramos la representación visual de la tubería:

set_config(display="diagram")
pipe

Construyendo una tubería con encadenamiento de múltiples pasos de preprocesamiento y un clasificador

En este paso, construiremos una tubería con múltiples pasos de preprocesamiento y un clasificador, y mostraremos su representación visual.

Primero, importamos los módulos necesarios:

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import LogisticRegression

Luego, definimos los pasos de la tubería:

steps = [
    ("standard_scaler", StandardScaler()),
    ("polynomial", PolynomialFeatures(degree=3)),
    ("classifier", LogisticRegression(C=2.0)),
]

Después, creamos la tubería:

pipe = Pipeline(steps)

Finalmente, mostramos la representación visual de la tubería:

pipe

Construyendo una tubería con reducción de dimensionalidad y clasificador

En este paso, construiremos una tubería con un paso de reducción de dimensionalidad y un clasificador, y mostraremos su representación visual.

Primero, importamos los módulos necesarios:

from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.decomposition import PCA

Luego, definimos los pasos de la tubería:

steps = [("reduce_dim", PCA(n_components=4)), ("classifier", SVC(kernel="linear"))]

Después, creamos la tubería:

pipe = Pipeline(steps)

Finalmente, mostramos la representación visual de la tubería:

pipe

Construyendo una tubería compleja con un transformador de columnas en cadena

En este paso, construiremos una tubería compleja con un transformador de columnas y un clasificador, y mostraremos su representación visual.

Primero, importamos los módulos necesarios:

import numpy as np
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LogisticRegression

Luego, definimos los pasos de preprocesamiento para las características numéricas y categóricas:

numeric_preprocessor = Pipeline(
    steps=[
        ("imputation_mean", SimpleImputer(missing_values=np.nan, strategy="mean")),
        ("scaler", StandardScaler()),
    ]
)

categorical_preprocessor = Pipeline(
    steps=[
        (
            "imputation_constant",
            SimpleImputer(fill_value="missing", strategy="constant"),
        ),
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

Después, creamos el transformador de columnas:

preprocessor = ColumnTransformer(
    [
        ("categorical", categorical_preprocessor, ["state", "gender"]),
        ("numerical", numeric_preprocessor, ["age", "weight"]),
    ]
)

Luego, creamos la tubería:

pipe = make_pipeline(preprocessor, LogisticRegression(max_iter=500))

Finalmente, mostramos la representación visual de la tubería:

pipe

Construyendo una búsqueda en cuadrícula sobre una tubería con un clasificador

En este paso, construiremos una búsqueda en cuadrícula sobre una tubería con un clasificador, y mostraremos su representación visual.

Primero, importamos los módulos necesarios:

import numpy as np
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

Luego, definimos los pasos de preprocesamiento para las características numéricas y categóricas:

numeric_preprocessor = Pipeline(
    steps=[
        ("imputation_mean", SimpleImputer(missing_values=np.nan, strategy="mean")),
        ("scaler", StandardScaler()),
    ]
)

categorical_preprocessor = Pipeline(
    steps=[
        (
            "imputation_constant",
            SimpleImputer(fill_value="missing", strategy="constant"),
        ),
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

Después, creamos el transformador de columnas:

preprocessor = ColumnTransformer(
    [
        ("categorical", categorical_preprocessor, ["state", "gender"]),
        ("numerical", numeric_preprocessor, ["age", "weight"]),
    ]
)

Luego, creamos la tubería:

pipe = Pipeline(
    steps=[("preprocessor", preprocessor), ("classifier", RandomForestClassifier())]
)

Después, definimos la cuadrícula de parámetros para la búsqueda en cuadrícula:

param_grid = {
    "classifier__n_estimators": [200, 500],
    "classifier__max_features": ["auto", "sqrt", "log2"],
    "classifier__max_depth": [4, 5, 6, 7, 8],
    "classifier__criterion": ["gini", "entropy"],
}

Finalmente, creamos la búsqueda en cuadrícula:

grid_search = GridSearchCV(pipe, param_grid=param_grid, n_jobs=1)

Y mostramos la representación visual de la búsqueda en cuadrícula:

grid_search

Resumen

Esta práctica brindó una guía paso a paso sobre cómo construir y mostrar tuberías en Scikit-Learn. Cubrimos tuberías simples con un paso de preprocesamiento y un clasificador, tuberías con encadenamiento de múltiples pasos de preprocesamiento y un clasificador, tuberías con reducción de dimensionalidad y un clasificador, tuberías complejas con encadenamiento de un transformador de columnas y un clasificador, y búsquedas en cuadrícula sobre tuberías con un clasificador.