Введение
Библиотека scikit-learn предоставляет инструменты для извлечения и оценки текстовых признаков. В этом лабораторном занятии мы будем использовать набор данных 20newsgroups, чтобы показать, как извлекать признаки из текстовых данных, создавать конвейер (pipeline) и оценивать производительность модели с использованием настройки гиперпараметров.
Советы по виртуальной машине
После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если у вас возникнут проблемы во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Загрузка данных
Мы загрузим набор данных 20newsgroups, который представляет собой коллекцию примерно 20 000 новостных документов, разделенных на 20 различных категорий. В этом лабораторном занятии мы сосредоточимся на двух категориях: alt.atheism и talk.religion.misc.
from sklearn.datasets import fetch_20newsgroups
categories = [
"alt.atheism",
"talk.religion.misc",
]
data_train = fetch_20newsgroups(
subset="train",
categories=categories,
shuffle=True,
random_state=42,
remove=("headers", "footers", "quotes"),
)
data_test = fetch_20newsgroups(
subset="test",
categories=categories,
shuffle=True,
random_state=42,
remove=("headers", "footers", "quotes"),
)
print(f"Loading 20 newsgroups dataset for {len(data_train.target_names)} categories:")
print(data_train.target_names)
print(f"{len(data_train.data)} documents")
Определение конвейера (pipeline) с настройкой гиперпараметров
Мы определяем конвейер (pipeline), который объединяет векторизатор текстовых признаков с простым классификатором для классификации текстов. Мы будем использовать Complement Naive Bayes в качестве классификатора и TfidfVectorizer для извлечения признаков.
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import ComplementNB
from sklearn.pipeline import Pipeline
import numpy as np
pipeline = Pipeline(
[
("vect", TfidfVectorizer()),
("clf", ComplementNB()),
]
)
parameter_grid = {
"vect__max_df": (0.2, 0.4, 0.6, 0.8, 1.0),
"vect__min_df": (1, 3, 5, 10),
"vect__ngram_range": ((1, 1), (1, 2)), ## unigrams or bigrams
"vect__norm": ("l1", "l2"),
"clf__alpha": np.logspace(-6, 6, 13),
}
Настройка гиперпараметров
Мы используем RandomizedSearchCV для исследования сетки гиперпараметров и нахождения наилучшей комбинации гиперпараметров для конвейера (pipeline). В данном случае мы устанавливаем n_iter=40, чтобы ограничить пространство поиска. Мы можем увеличить значение n_iter, чтобы получить более информативный анализ, но это увеличит время вычислений.
from pprint import pprint
from sklearn.model_selection import RandomizedSearchCV
random_search = RandomizedSearchCV(
estimator=pipeline,
param_distributions=parameter_grid,
n_iter=40,
random_state=0,
n_jobs=2,
verbose=1,
)
print("Performing grid search...")
print("Hyperparameters to be evaluated:")
pprint(parameter_grid)
random_search.fit(data_train.data, data_train.target)
test_accuracy = random_search.score(data_test.data, data_test.target)
Визуализация результатов
Мы можем визуализировать результаты настройки гиперпараметров с помощью библиотеки plotly.express. Мы используем точечную диаграмму (scatter plot), чтобы визуализировать компромисс между временем оценки и средним значением тестовой оценки. Также мы можем использовать параллельные координаты для дальнейшей визуализации среднего значения тестовой оценки в зависимости от настроенных гиперпараметров.
import pandas as pd
import plotly.express as px
import math
def shorten_param(param_name):
"""Remove components' prefixes in param_name."""
if "__" in param_name:
return param_name.rsplit("__", 1)[1]
return param_name
cv_results = pd.DataFrame(random_search.cv_results_)
cv_results = cv_results.rename(shorten_param, axis=1)
param_names = [shorten_param(name) for name in parameter_grid.keys()]
labels = {
"mean_score_time": "CV Score time (s)",
"mean_test_score": "CV score (accuracy)",
}
fig = px.scatter(
cv_results,
x="mean_score_time",
y="mean_test_score",
error_x="std_score_time",
error_y="std_test_score",
hover_data=param_names,
labels=labels,
)
fig.update_layout(
title={
"text": "trade-off between scoring time and mean test score",
"y": 0.95,
"x": 0.5,
"xanchor": "center",
"yanchor": "top",
}
)
column_results = param_names + ["mean_test_score", "mean_score_time"]
transform_funcs = dict.fromkeys(column_results, lambda x: x)
## Using a logarithmic scale for alpha
transform_funcs["alpha"] = math.log10
## L1 norms are mapped to index 1, and L2 norms to index 2
transform_funcs["norm"] = lambda x: 2 if x == "l2" else 1
## Unigrams are mapped to index 1 and bigrams to index 2
transform_funcs["ngram_range"] = lambda x: x[1]
fig = px.parallel_coordinates(
cv_results[column_results].apply(transform_funcs),
color="mean_test_score",
color_continuous_scale=px.colors.sequential.Viridis_r,
labels=labels,
)
fig.update_layout(
title={
"text": "Parallel coordinates plot of text classifier pipeline",
"y": 0.99,
"x": 0.5,
"xanchor": "center",
"yanchor": "top",
}
)
Резюме
В этом лабораторном занятии мы показали, как извлекать признаки из текстовых данных, создавать конвейер (pipeline) и оценивать производительность модели с использованием настройки гиперпараметров. Мы использовали набор данных 20newsgroups, чтобы показать, как использовать RandomizedSearchCV для нахождения наилучшей комбинации гиперпараметров для конвейера и визуализировать результаты с помощью библиотеки plotly.express.