Анализ главных компонент | Датасет Iris | Python Scikit-Learn

Введение

В этом практическом занятии мы выполним анализ главных компонент (PCA - Principal Component Analysis) для датасета Iris с использованием библиотеки scikit-learn в Python. PCA - это метод, который позволяет уменьшить размерность датасета, сохраняя при этом максимально возможную дисперсию. Проще говоря, он помогает выделить наиболее важные признаки в наборе данных и убрать менее важные. Датасет Iris - это знаменитый в области машинного обучения набор данных, содержащий информацию о физических характеристиках трех разных видов ирисок.

Советы по использованию ВМ

После запуска виртуальной машины (VM) кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортируем необходимые библиотеки

Начнем с импорта необходимых библиотек - numpy, matplotlib.pyplot, модулей декомпозиции и датасетов из scikit-learn.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import decomposition
from sklearn import datasets

Загружаем датасет

Далее мы загрузим датасет Iris с использованием функции load_iris() из scikit-learn. Затем мы разделим переменные признаков (X) и целевой (y).

iris = datasets.load_iris()
X = iris.data
y = iris.target

Визуализируем датасет

Прежде чем выполнять PCA, давайте сначала визуализируем датасет в трехмерном пространстве с использованием matplotlib. Это даст нам представление о том, как различные виды ирисок распределены в наборе данных.

fig = plt.figure(1, figsize=(4, 3))
plt.clf()
ax = fig.add_subplot(111, projection="3d", elev=48, azim=134)
ax.set_position([0, 0, 0.95, 1])
plt.cla()
for name, label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:
    ax.text3D(
        X[y == label, 0].mean(),
        X[y == label, 1].mean() + 1.5,
        X[y == label, 2].mean(),
        name,
        horizontalalignment="center",
        bbox=dict(alpha=0.5, edgecolor="w", facecolor="w"),
    )
y = np.choose(y, [1, 2, 0]).astype(float)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral, edgecolor="k")
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
plt.show()

Выполняем PCA

Теперь, когда мы визуализировали датасет, давайте выполним PCA для него. Для этого мы будем использовать функцию PCA() из scikit-learn. Мы установим количество компонентов равным 3, так как мы хотим уменьшить размерность датасета с 4-х размерностей (4 признака) до 3-х размерностей.

pca = decomposition.PCA(n_components=3)
pca.fit(X)
X = pca.transform(X)

Визуализируем сокращенный датасет

Наконец, давайте визуализируем сокращенный датасет в трехмерном пространстве с использованием matplotlib. Мы будем использовать тот же код, что и в шаге 3, но на этот раз мы будем рисовать сокращенный датасет (X) вместо исходного.

fig = plt.figure(1, figsize=(4, 3))
plt.clf()
ax = fig.add_subplot(111, projection="3d", elev=48, azim=134)
ax.set_position([0, 0, 0.95, 1])
plt.cla()
for name, label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:
    ax.text3D(
        X[y == label, 0].mean(),
        X[y == label, 1].mean() + 1.5,
        X[y == label, 2].mean(),
        name,
        horizontalalignment="center",
        bbox=dict(alpha=0.5, edgecolor="w", facecolor="w"),
    )
y = np.choose(y, [1, 2, 0]).astype(float)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral, edgecolor="k")
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
plt.show()

Резюме

В этом практическом занятии мы узнали, как выполнять анализ главных компонент (PCA) для датасета Iris с использованием библиотеки scikit-learn на Python. Мы загрузили датасет, визуализировали его в трехмерном пространстве, выполнили PCA для уменьшения его размерности и, наконец, снова визуализировали сокращенный датасет в трехмерном пространстве. PCA - это мощный метод, который может быть использован в многих приложениях для уменьшения размерности датасета и выявления наиболее важных признаков.

Анализ главных компонент для датасета Iris