Введение
В этом руководстве демонстрируется использование различных типов ковариации для смесей Гаусса (GMM). GMM часто используются для кластеризации, и мы можем сравнить полученные кластеры с фактическими классами из набора данных. Мы инициализируем средние значения Гауссов с помощью средних значений классов из обучающего набора, чтобы сделать этот сравнение действительным. Мы строим предсказанные метки на обучающих и тестовых данных, используя различные типы ковариации GMM на наборе данных iris. Мы сравниваем GMM с сферическими, диагональными, полными и связанными матрицами ковариации в порядке возрастания производительности.
Хотя можно ожидать, что полная ковариация будет в целом давать наилучшие результаты, она склонна к переобучению на малых наборах данных и плохо обобщается на тестовые данные.
На графиках обучающие данные показываются в виде точек, а тестовые данные - в виде крестов. Набор данных iris четырехмерный. Здесь показаны только первые два измерения, и поэтому некоторые точки разделены в других измерениях.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импорт библиотек
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.mixture import GaussianMixture
from sklearn.model_selection import StratifiedKFold
Загрузка набора данных Iris
iris = datasets.load_iris()
Подготовка обучающих и тестовых данных
skf = StratifiedKFold(n_splits=4)
train_index, test_index = next(iter(skf.split(iris.data, iris.target)))
X_train = iris.data[train_index]
y_train = iris.target[train_index]
X_test = iris.data[test_index]
y_test = iris.target[test_index]
Настройка оценщиков GMM для различных типов ковариации
colors = ["navy", "turquoise", "darkorange"]
n_classes = len(np.unique(y_train))
estimators = {
cov_type: GaussianMixture(
n_components=n_classes, covariance_type=cov_type, max_iter=20, random_state=0
)
for cov_type in ["spherical", "diag", "tied", "full"]
}
n_estimators = len(estimators)
Определение функции для построения эллипсов для GMM
def make_ellipses(gmm, ax):
for n, color in enumerate(colors):
if gmm.covariance_type == "full":
covariances = gmm.covariances_[n][:2, :2]
elif gmm.covariance_type == "tied":
covariances = gmm.covariances_[:2, :2]
elif gmm.covariance_type == "diag":
covariances = np.diag(gmm.covariances_[n][:2])
elif gmm.covariance_type == "spherical":
covariances = np.eye(gmm.means_.shape[1]) * gmm.covariances_[n]
v, w = np.linalg.eigh(covariances)
u = w[0] / np.linalg.norm(w[0])
angle = np.arctan2(u[1], u[0])
angle = 180 * angle / np.pi
v = 2.0 * np.sqrt(2.0) * np.sqrt(v)
ell = mpl.patches.Ellipse(
gmm.means_[n, :2], v[0], v[1], angle=180 + angle, color=color
)
ell.set_clip_box(ax.bbox)
ell.set_alpha(0.5)
ax.add_artist(ell)
ax.set_aspect("equal", "datalim")
Построение графиков GMM для различных типов ковариации
plt.figure(figsize=(3 * n_estimators // 2, 6))
plt.subplots_adjust(
bottom=0.01, top=0.95, hspace=0.15, wspace=0.05, left=0.01, right=0.99
)
for index, (name, estimator) in enumerate(estimators.items()):
estimator.means_init = np.array(
[X_train[y_train == i].mean(axis=0) for i in range(n_classes)]
)
estimator.fit(X_train)
h = plt.subplot(2, n_estimators // 2, index + 1)
make_ellipses(estimator, h)
for n, color in enumerate(colors):
data = iris.data[iris.target == n]
plt.scatter(
data[:, 0], data[:, 1], s=0.8, color=color, label=iris.target_names[n]
)
for n, color in enumerate(colors):
data = X_test[y_test == n]
plt.scatter(data[:, 0], data[:, 1], marker="x", color=color)
y_train_pred = estimator.predict(X_train)
train_accuracy = np.mean(y_train_pred.ravel() == y_train.ravel()) * 100
plt.text(0.05, 0.9, "Train accuracy: %.1f" % train_accuracy, transform=h.transAxes)
y_test_pred = estimator.predict(X_test)
test_accuracy = np.mean(y_test_pred.ravel() == y_test.ravel()) * 100
plt.text(0.05, 0.8, "Test accuracy: %.1f" % test_accuracy, transform=h.transAxes)
plt.xticks(())
plt.yticks(())
plt.title(name)
plt.legend(scatterpoints=1, loc="lower right", prop=dict(size=12))
plt.show()
Резюме
В этом руководстве показано использование различных типов ковариации для гауссовских смесей (GMM) в Python. В качестве примера использовали датасет Iris и сравнили GMM с сферическими, диагональными, полными и связанными матрицами ковариации в порядке возрастания производительности. Построили предсказанные метки для обучающих и тестовых данных и показали, что полная ковариация склонна к переобучению на малых датасетах и плохо обобщается на тестовые данные.