Стохастический градиентный спуск (SGD) | Оптимизация в машинном обучении

Введение

В этом лабораторном занятии мы изучим С tochastic Gradient Descent (SGD) - мощный алгоритм оптимизации, который широко используется в машинном обучении для решения大规模 и разреженных задач. Мы научимся использовать классы SGDClassifier и SGDRegressor из библиотеки scikit - learn для обучения линейных классификаторов и регрессоров.

Советы по использованию ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из - за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Это Guided Lab, который предоставляет пошаговые инструкции, чтобы помочь вам учиться и практиковаться. Внимательно следуйте инструкциям, чтобы выполнить каждый шаг и получить практический опыт. Исторические данные показывают, что это лабораторная работа уровня начальный с процентом завершения 92%. Он получил 86% положительных отзывов от учащихся.

Импортируем необходимые библиотеки

Сначала нам нужно импортировать необходимые библиотеки. Мы будем использовать библиотеку scikit - learn для машинного обучения и предобработки данных.

import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import SGDClassifier, SGDRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error

Загружаем и предобрабатываем данные

Далее мы загрузим датасет iris и предобработаем его, масштабируя признаки с использованием StandardScaler.

## Load the iris dataset
iris = load_iris()
X, y = iris.data, iris.target

## Scale the features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

## Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

Обучаем классификатор с использованием SGD

Теперь мы обучим классификатор с использованием класса SGDClassifier. Мы будем использовать функцию потерь log_loss и штраф l2.

## Train a classifier using SGD
clf = SGDClassifier(loss="log_loss", penalty="l2", max_iter=100, random_state=42)
clf.fit(X_train, y_train)

## Make predictions on the testing set
y_pred = clf.predict(X_test)

## Measure the accuracy of the classifier
accuracy = accuracy_score(y_test, y_pred)

## Print the accuracy
print("Classifier Accuracy:", accuracy)

Обучаем регрессор с использованием SGD

Далее мы обучим регрессор с использованием класса SGDRegressor. Мы будем использовать функцию потерь squared_error и штраф l2.

## Train a regressor using SGD
reg = SGDRegressor(loss="squared_error", penalty="l2", max_iter=100, random_state=42)
reg.fit(X_train, y_train)

## Make predictions on the testing set
y_pred = reg.predict(X_test)

## Measure the mean squared error of the regressor
mse = mean_squared_error(y_test, y_pred)

## Print the mean squared error
print("Regressor Mean Squared Error:", mse)

Резюме

В этом практическом занятии мы узнали, как использовать стохастический градиентный спуск (Stochastic Gradient Descent, SGD) для обучения линейных классификаторов и регрессоров с использованием библиотеки scikit - learn. Мы обучили классификатор на наборе данных iris и измерили его точность, а также обучили регрессор и измерили среднеквадратичную ошибку. SGD - это мощный алгоритм оптимизации, который может эффективно обрабатывать крупномасштабные и разреженные задачи машинного обучения.

Изучение классификаторов SGD в Scikit-Learn