Агломерация признаков для высокомерных данных

Machine LearningMachine LearningBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом руководстве показано, как использовать агломерацию признаков для объединения похожих признаков в наборе данных. Агломерация признаков полезна при работе с высокомерными наборами данных, так как позволяет уменьшить количество признаков, сохраняя при этом наиболее важную информацию.

Советы по работе с ВМ

После запуска ВМ щелкните в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/feature_extraction("Feature Extraction") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/feature_extraction -.-> lab-49105{{"Агломерация признаков для высокомерных данных"}} ml/sklearn -.-> lab-49105{{"Агломерация признаков для высокомерных данных"}} end

Импорт библиотек

В этом шаге мы импортируем необходимые библиотеки для выполнения агломерации признаков.

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets, cluster
from sklearn.feature_extraction.image import grid_to_graph

Загрузка набора данных

В этом шаге мы загрузим набор данных digits из scikit - learn. Этот набор данных содержит изображения рукописных цифр от 0 до 9.

digits = datasets.load_digits()
images = digits.images
X = np.reshape(images, (len(images), -1))

Определение матрицы связности

В этом шаге мы определим матрицу связности с использованием функции grid_to_graph из scikit - learn. Эта функция создает связный граф на основе пиксельной сетки изображений.

connectivity = grid_to_graph(*images[0].shape)

Выполнить агломерацию признаков

В этом шаге мы выполним агломерацию признаков с использованием класса FeatureAgglomeration из scikit - learn. Мы установим количество кластеров равным 32.

agglo = cluster.FeatureAgglomeration(connectivity=connectivity, n_clusters=32)
agglo.fit(X)
X_reduced = agglo.transform(X)

Обратное преобразование

В этом шаге мы выполним обратное преобразование для уменьшенного набора данных, чтобы восстановить исходное количество признаков.

X_restored = agglo.inverse_transform(X_reduced)
images_restored = np.reshape(X_restored, images.shape)

Визуализация результатов

В этом шаге мы визуализируем исходные изображения, агломерированные изображения и метки, присвоенные каждому кластеру.

plt.figure(1, figsize=(4, 3.5))
plt.clf()
plt.subplots_adjust(left=0.01, right=0.99, bottom=0.01, top=0.91)
for i in range(4):
    plt.subplot(3, 4, i + 1)
    plt.imshow(images[i], cmap=plt.cm.gray, vmax=16, interpolation="nearest")
    plt.xticks(())
    plt.yticks(())
    if i == 1:
        plt.title("Original data")
    plt.subplot(3, 4, 4 + i + 1)
    plt.imshow(images_restored[i], cmap=plt.cm.gray, vmax=16, interpolation="nearest")
    if i == 1:
        plt.title("Agglomerated data")
    plt.xticks(())
    plt.yticks(())

plt.subplot(3, 4, 10)
plt.imshow(
    np.reshape(agglo.labels_, images[0].shape),
    interpolation="nearest",
    cmap=plt.cm.nipy_spectral,
)
plt.xticks(())
plt.yticks(())
plt.title("Labels")
plt.show()

Резюме

В этом руководстве мы узнали, как использовать агломерацию признаков для объединения похожих признаков в наборе данных. Снижая количество признаков, мы можем повысить производительность алгоритмов машинного обучения, сохраняя при этом наиболее важную информацию в наборе данных.