Многиномиальная логистическая регрессия для MNIST

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом практическом занятии мы научимся использовать алгоритм логистической регрессии для классификации рукописных цифр из набора данных MNIST. Мы будем использовать алгоритм SAGA для подгонки многономиальной логистической регрессии с L1-штрафом на подмножестве задачи классификации цифр MNIST.

Советы по использованию ВМ

После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Notebook, чтобы приступить к практике с использованием Jupyter Notebook.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт библиотек

Начнем с импорта необходимых библиотек для этого практического занятия. Мы будем использовать библиотеку scikit-learn для получения набора данных, обучения модели и оценки ее производительности.

import time
import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.utils import check_random_state

Загрузка набора данных MNIST

Мы будем загружать набор данных MNIST с использованием функции fetch_openml из scikit-learn. Также мы выберем подмножество данных, установив количество train_samples равным 5000.

## Turn down for faster convergence
t0 = time.time()
train_samples = 5000

## Load data from https://www.openml.org/d/554
X, y = fetch_openml(
    "mnist_784", version=1, return_X_y=True, as_frame=False, parser="pandas"
)

Предварительная обработка

Мы будем предобрабатывать данные, перемешивая их, деля набор данных на обучающую и тестовую выборки и масштабируя данные с использованием StandardScaler.

random_state = check_random_state(0)
permutation = random_state.permutation(X.shape[0])
X = X[permutation]
y = y[permutation]
X = X.reshape((X.shape[0], -1))

X_train, X_test, y_train, y_test = train_test_split(
    X, y, train_size=train_samples, test_size=10000
)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Обучение модели

Мы будем обучать модель с использованием логистической регрессии с L1-штрафом и алгоритма SAGA. Мы установим значение C равным 50.0, разделенному на количество обучающих примеров.

## Turn up tolerance for faster convergence
clf = LogisticRegression(C=50.0 / train_samples, penalty="l1", solver="saga", tol=0.1)
clf.fit(X_train, y_train)

Оценка модели

Мы будем оценивать производительность модели, вычисляя разреженность и точность.

sparsity = np.mean(clf.coef_ == 0) * 100
score = clf.score(X_test, y_test)

print("Sparsity with L1 penalty: %.2f%%" % sparsity)
print("Test score with L1 penalty: %.4f" % score)

Визуализация модели

Мы будем визуализировать модель, построив векторы классификации для каждого класса.

coef = clf.coef_.copy()
plt.figure(figsize=(10, 5))
scale = np.abs(coef).max()
for i in range(10):
    l1_plot = plt.subplot(2, 5, i + 1)
    l1_plot.imshow(
        coef[i].reshape(28, 28),
        interpolation="nearest",
        cmap=plt.cm.RdBu,
        vmin=-scale,
        vmax=scale,
    )
    l1_plot.set_xticks(())
    l1_plot.set_yticks(())
    l1_plot.set_xlabel("Class %i" % i)
plt.suptitle("Classification vector for...")

run_time = time.time() - t0
print("Example run in %.3f s" % run_time)
plt.show()

Резюме

В этом практическом занятии мы научились использовать логистическую регрессию для классификации рукописных цифр из набора данных MNIST. Мы также узнали, как использовать алгоритм SAGA с L1-штрафом для логистической регрессии. Мы достигли точности более 0,8 с разреженным вектором весов, что делает модель более интерпретируемой. Однако, мы также отметили, что эта точность значительно ниже той, которую можно достичь с помощью L2-штрафованной линейной модели или нелинейной многослойной перцептронной модели на этом наборе данных.