Seleção Conjunta de Características com Lasso Multitarefa

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, exploraremos como realizar a seleção conjunta de características utilizando o algoritmo Lasso multitarefa. Usaremos o scikit-learn, uma popular biblioteca de aprendizado de máquina Python, para gerar alguns dados de amostra e ajustar modelos a eles. Em seguida, plotaremos os resultados dos modelos para comparar suas diferenças.

Dicas da Máquina Virtual

Após o término da inicialização da máquina virtual, clique no canto superior esquerdo para mudar para a aba Notebook para acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você encontrar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos o problema rapidamente para você.

Gerar Dados

Primeiro, precisamos gerar alguns dados de amostra que podemos usar para ajustar nossos modelos. Usaremos o numpy para gerar 100 amostras, cada uma com 30 características e 40 tarefas. Também selecionaremos aleatoriamente 5 características relevantes e criaremos coeficientes para elas usando ondas senoidais com frequência e fase aleatórias. Finalmente, adicionaremos algum ruído aleatório aos dados.

import numpy as np

rng = np.random.RandomState(42)

## Gere alguns coeficientes 2D com ondas senoidais com frequência e fase aleatórias
n_samples, n_features, n_tasks = 100, 30, 40
n_relevant_features = 5
coef = np.zeros((n_tasks, n_features))
times = np.linspace(0, 2 * np.pi, n_tasks)
for k in range(n_relevant_features):
    coef[:, k] = np.sin((1.0 + rng.randn(1)) * times + 3 * rng.randn(1))

X = rng.randn(n_samples, n_features)
Y = np.dot(X, coef.T) + rng.randn(n_samples, n_tasks)

Ajustar Modelos

Agora que temos nossos dados, podemos ajustar modelos a eles usando os algoritmos Lasso e Lasso multitarefa. Ajustaremos um modelo Lasso para cada tarefa e, em seguida, ajustaremos um modelo Lasso multitarefa a todas as tarefas de uma vez.

from sklearn.linear_model import MultiTaskLasso, Lasso

coef_lasso_ = np.array([Lasso(alpha=0.5).fit(X, y).coef_ for y in Y.T])
coef_multi_task_lasso_ = MultiTaskLasso(alpha=1.0).fit(X, Y).coef_

Plotar Resultados

Finalmente, podemos plotar os resultados de nossos modelos para comparar como eles se comportam. Plotaremos o suporte (ou seja, a localização dos coeficientes não nulos) para cada modelo, bem como a série temporal para uma das características.

import matplotlib.pyplot as plt

fig = plt.figure(figsize=(8, 5))
plt.subplot(1, 2, 1)
plt.spy(coef_lasso_)
plt.xlabel("Característica")
plt.ylabel("Tempo (ou Tarefa)")
plt.text(10, 5, "Lasso")
plt.subplot(1, 2, 2)
plt.spy(coef_multi_task_lasso_)
plt.xlabel("Característica")
plt.ylabel("Tempo (ou Tarefa)")
plt.text(10, 5, "MultiTaskLasso")
fig.suptitle("Localização de coeficientes não nulos")

feature_to_plot = 0
plt.figure()
lw = 2
plt.plot(coef[:, feature_to_plot], color="seagreen", linewidth=lw, label="Verdade fundamental")
plt.plot(
    coef_lasso_[:, feature_to_plot], color="cornflowerblue", linewidth=lw, label="Lasso"
)
plt.plot(
    coef_multi_task_lasso_[:, feature_to_plot],
    color="gold",
    linewidth=lw,
    label="MultiTaskLasso",
)
plt.legend(loc="upper center")
plt.axis("tight")
plt.ylim([-1.1, 1.1])
plt.show()

Resumo

Neste laboratório, aprendemos como realizar a seleção conjunta de características usando o algoritmo Lasso multitarefa. Geramos alguns dados de amostra, ajustamos modelos a eles usando Lasso e Lasso multitarefa e plotamos os resultados. Podemos observar que o algoritmo Lasso multitarefa é mais capaz de selecionar características relevantes em todas as tarefas em comparação com o algoritmo Lasso.