Совместный подбор признаков с использованием Lasso для многозадачности

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом лабораторном занятии мы исследуем, как выполнять совместный подбор признаков с использованием алгоритма Lasso для многозадачности. Мы будем использовать scikit-learn, популярную библиотеку машинного обучения на Python, для генерации некоторых образцов данных и подгонки моделей к ним. Затем мы построим графики результатов моделей, чтобы увидеть, как они сравниваются.

Советы по работе с ВМ

После завершения запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Генерация данных

Во - первых, нам нужно сгенерировать некоторые образцы данных, которые мы сможем использовать для подгонки наших моделей. Мы будем использовать numpy для генерации 100 образцов, каждый из которых имеет 30 признаков и 40 задач. Также мы случайным образом выберем 5 значимых признаков и создадим для них коэффициенты с использованием синусоид с случайной частотой и фазой. Наконец, мы добавим некоторый случайный шум к данным.

import numpy as np

rng = np.random.RandomState(42)

## Generate some 2D coefficients with sine waves with random frequency and phase
n_samples, n_features, n_tasks = 100, 30, 40
n_relevant_features = 5
coef = np.zeros((n_tasks, n_features))
times = np.linspace(0, 2 * np.pi, n_tasks)
for k in range(n_relevant_features):
    coef[:, k] = np.sin((1.0 + rng.randn(1)) * times + 3 * rng.randn(1))

X = rng.randn(n_samples, n_features)
Y = np.dot(X, coef.T) + rng.randn(n_samples, n_tasks)

Подгонка моделей

Теперь, когда у нас есть наши данные, мы можем подгонять модели к ним с использованием алгоритмов Lasso и Lasso для многозадачности. Мы подгоним модель Lasso для каждой задачи, а затем сразу подгоним модель Lasso для многозадачности ко всем задачам.

from sklearn.linear_model import MultiTaskLasso, Lasso

coef_lasso_ = np.array([Lasso(alpha=0.5).fit(X, y).coef_ for y in Y.T])
coef_multi_task_lasso_ = MultiTaskLasso(alpha=1.0).fit(X, Y).coef_

Построение графиков результатов

Наконец, мы можем построить графики результатов наших моделей, чтобы увидеть, как они сравниваются. Мы построим поддержку (то есть расположение ненулевых коэффициентов) для каждой модели, а также временной ряд для одного из признаков.

import matplotlib.pyplot as plt

fig = plt.figure(figsize=(8, 5))
plt.subplot(1, 2, 1)
plt.spy(coef_lasso_)
plt.xlabel("Feature")
plt.ylabel("Time (or Task)")
plt.text(10, 5, "Lasso")
plt.subplot(1, 2, 2)
plt.spy(coef_multi_task_lasso_)
plt.xlabel("Feature")
plt.ylabel("Time (or Task)")
plt.text(10, 5, "MultiTaskLasso")
fig.suptitle("Coefficient non-zero location")

feature_to_plot = 0
plt.figure()
lw = 2
plt.plot(coef[:, feature_to_plot], color="seagreen", linewidth=lw, label="Ground truth")
plt.plot(
    coef_lasso_[:, feature_to_plot], color="cornflowerblue", linewidth=lw, label="Lasso"
)
plt.plot(
    coef_multi_task_lasso_[:, feature_to_plot],
    color="gold",
    linewidth=lw,
    label="MultiTaskLasso",
)
plt.legend(loc="upper center")
plt.axis("tight")
plt.ylim([-1.1, 1.1])
plt.show()

Резюме

В этом лабораторном занятии мы научились выполнять совместный подбор признаков с использованием алгоритма Lasso для многозадачности. Мы сгенерировали некоторые образцы данных, подготовили к ним модели с использованием Lasso и Lasso для многозадачности и построили графики результатов. Мы можем увидеть, что алгоритм Lasso для многозадачности лучше способен выбирать значимые признаки по всем задачам по сравнению с алгоритмом Lasso.