Comparando Estratégias de Redução de Dimensionalidade

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Este laboratório compara duas estratégias de redução de dimensionalidade, agregação de características e seleção de características univariadas com Anova, num problema de regressão utilizando um estimador supervisionado BayesianRidge.

Dicas da Máquina Virtual

Após o arranque da VM, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para praticar.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante a aprendizagem, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.

Definir Parâmetros

n_samples = 200
size = 40  ## tamanho da imagem
roi_size = 15
snr = 5.0
np.random.seed(0)

Gerar Dados

coef = np.zeros((size, size))
coef[0:roi_size, 0:roi_size] = -1.0
coef[-roi_size:, -roi_size:] = 1.0

X = np.random.randn(n_samples, size**2)
for x in X:  ## suavizar dados
    x[:] = ndimage.gaussian_filter(x.reshape(size, size), sigma=1.0).ravel()
X -= X.mean(axis=0)
X /= X.std(axis=0)

y = np.dot(X, coef.ravel())

Adicionar Ruído

noise = np.random.randn(y.shape[0])
noise_coef = (linalg.norm(y, 2) / np.exp(snr / 20.0)) / linalg.norm(noise, 2)
y += noise_coef * noise

Calcular os Coeficientes de uma Regressão Bayesiana com GridSearch

cv = KFold(2)  ## gerador de validação cruzada para seleção de modelo
ridge = BayesianRidge()
cachedir = tempfile.mkdtemp()
mem = Memory(location=cachedir, verbose=1)

Agregação Ward seguida de BayesianRidge

connectivity = grid_to_graph(n_x=size, n_y=size)
ward = FeatureAgglomeration(n_clusters=10, connectivity=connectivity, memory=mem)
clf = Pipeline([("ward", ward), ("ridge", ridge)])
## Selecionar o número ideal de parcelas com busca em grade
clf = GridSearchCV(clf, {"ward__n_clusters": [10, 20, 30]}, n_jobs=1, cv=cv)
clf.fit(X, y)  ## definir os melhores parâmetros
coef_ = clf.best_estimator_.steps[-1][1].coef_
coef_ = clf.best_estimator_.steps[0][1].inverse_transform(coef_)
coef_agglomeration_ = coef_.reshape(size, size)

Seleção de Recursos Univariada ANOVA seguida de BayesianRidge

f_regression = mem.cache(feature_selection.f_regression)  ## armazenando a função
anova = feature_selection.SelectPercentile(f_regression)
clf = Pipeline([("anova", anova), ("ridge", ridge)])
## Selecionar a porcentagem ideal de recursos com busca em grade
clf = GridSearchCV(clf, {"anova__percentile": [5, 10, 20]}, cv=cv)
clf.fit(X, y)  ## definir os melhores parâmetros
coef_ = clf.best_estimator_.steps[-1][1].coef_
coef_ = clf.best_estimator_.steps[0][1].inverse_transform(coef_.reshape(1, -1))
coef_selection_ = coef_.reshape(size, size)

Plotar os Resultados em uma Imagem

plt.close("all")
plt.figure(figsize=(7.3, 2.7))
plt.subplot(1, 3, 1)
plt.imshow(coef, interpolation="nearest", cmap=plt.cm.RdBu_r)
plt.title("Pesos Verdadeiros")
plt.subplot(1, 3, 2)
plt.imshow(coef_selection_, interpolation="nearest", cmap=plt.cm.RdBu_r)
plt.title("Seleção de Recursos")
plt.subplot(1, 3, 3)
plt.imshow(coef_agglomeration_, interpolation="nearest", cmap=plt.cm.RdBu_r)
plt.title("Agregação de Recursos")
plt.subplots_adjust(0.04, 0.0, 0.98, 0.94, 0.16, 0.26)
plt.show()

Resumo

Este laboratório compara duas estratégias de redução de dimensionalidade, agregação de recursos e seleção de recursos univariada com Anova, em um problema de regressão usando um estimador supervisionado BayesianRidge. Os resultados são plotados em uma imagem e mostram os pesos verdadeiros, a seleção de recursos e a agregação de recursos.