Построение конвейеров в Scikit-Learn

Machine LearningMachine LearningBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

Этот лаба представляет собой пошаговое руководство по построению и отображению конвейеров в Scikit-Learn.

Советы по ВМ

После завершения запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Ноутбук, чтобы получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений в Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Построение простого конвейера с этапом предварительной обработки и классификатором

В этом шаге мы построим простой конвейер с этапом предварительной обработки и классификатором, и покажем его визуальное представление.

Во - первых, импортируем необходимые модули:

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn import set_config

Далее определяем шаги конвейера:

steps = [
    ("preprocessing", StandardScaler()),
    ("classifier", LogisticRegression()),
]

Затем создаем конвейер:

pipe = Pipeline(steps)

Наконец, показываем визуальное представление конвейера:

set_config(display="diagram")
pipe

Построение конвейера, объединяющего несколько этапов предварительной обработки и классификатор

В этом шаге мы построим конвейер с несколькими этапами предварительной обработки и классификатором, и покажем его визуальное представление.

Во - первых, импортируем необходимые модули:

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import LogisticRegression

Далее определяем шаги конвейера:

steps = [
    ("standard_scaler", StandardScaler()),
    ("polynomial", PolynomialFeatures(degree=3)),
    ("classifier", LogisticRegression(C=2.0)),
]

Затем создаем конвейер:

pipe = Pipeline(steps)

Наконец, показываем визуальное представление конвейера:

pipe

Построение конвейера с уменьшением размерности и классификатором

В этом шаге мы построим конвейер с этапом уменьшения размерности и классификатором, и покажем его визуальное представление.

Во - первых, импортируем необходимые модули:

from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.decomposition import PCA

Далее определяем шаги конвейера:

steps = [("reduce_dim", PCA(n_components=4)), ("classifier", SVC(kernel="linear"))]

Затем создаем конвейер:

pipe = Pipeline(steps)

Наконец, показываем визуальное представление конвейера:

pipe

Построение сложного конвейера, объединяющего трансформер столбцов

В этом шаге мы построим сложный конвейер с трансформером столбцов и классификатором, и покажем его визуальное представление.

Во - первых, импортируем необходимые модули:

import numpy as np
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LogisticRegression

Далее определяем этапы предварительной обработки для числовых и категориальных признаков:

numeric_preprocessor = Pipeline(
    steps=[
        ("imputation_mean", SimpleImputer(missing_values=np.nan, strategy="mean")),
        ("scaler", StandardScaler()),
    ]
)

categorical_preprocessor = Pipeline(
    steps=[
        (
            "imputation_constant",
            SimpleImputer(fill_value="missing", strategy="constant"),
        ),
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

Затем создаем трансформер столбцов:

preprocessor = ColumnTransformer(
    [
        ("categorical", categorical_preprocessor, ["state", "gender"]),
        ("numerical", numeric_preprocessor, ["age", "weight"]),
    ]
)

Далее создаем конвейер:

pipe = make_pipeline(preprocessor, LogisticRegression(max_iter=500))

Наконец, показываем визуальное представление конвейера:

pipe

Построение сеточного поиска для конвейера с классификатором

В этом шаге мы построим сеточный поиск для конвейера с классификатором и покажем его визуальное представление.

Во - первых, импортируем необходимые модули:

import numpy as np
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

Далее определяем этапы предварительной обработки для числовых и категориальных признаков:

numeric_preprocessor = Pipeline(
    steps=[
        ("imputation_mean", SimpleImputer(missing_values=np.nan, strategy="mean")),
        ("scaler", StandardScaler()),
    ]
)

categorical_preprocessor = Pipeline(
    steps=[
        (
            "imputation_constant",
            SimpleImputer(fill_value="missing", strategy="constant"),
        ),
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

Затем создаем трансформер столбцов:

preprocessor = ColumnTransformer(
    [
        ("categorical", categorical_preprocessor, ["state", "gender"]),
        ("numerical", numeric_preprocessor, ["age", "weight"]),
    ]
)

Далее создаем конвейер:

pipe = Pipeline(
    steps=[("preprocessor", preprocessor), ("classifier", RandomForestClassifier())]
)

Затем определяем сетку параметров для сеточного поиска:

param_grid = {
    "classifier__n_estimators": [200, 500],
    "classifier__max_features": ["auto", "sqrt", "log2"],
    "classifier__max_depth": [4, 5, 6, 7, 8],
    "classifier__criterion": ["gini", "entropy"],
}

Наконец, создаем сеточный поиск:

grid_search = GridSearchCV(pipe, param_grid=param_grid, n_jobs=1)

И показываем визуальное представление сеточного поиска:

grid_search

Резюме

В этом практическом занятии был представлен пошаговый гайд по построению и отображению конвейеров в Scikit-Learn. Мы рассмотрели простые конвейеры с этапом предварительной обработки и классификатором, конвейеры, объединяющие несколько этапов предварительной обработки и классификатор, конвейеры с уменьшением размерности и классификатором, сложные конвейеры, объединяющие трансформер столбцов и классификатор, а также сеточные поиски для конвейеров с классификатором.