Стохастический градиентный спуск (SGD) | Оптимизация в машинном обучении

Введение

В этом лабораторном занятии мы изучим С tochastic Gradient Descent (SGD) - мощный алгоритм оптимизации, который широко используется в машинном обучении для решения大规模 и разреженных задач. Мы научимся использовать классы SGDClassifier и SGDRegressor из библиотеки scikit - learn для обучения линейных классификаторов и регрессоров.

Советы по использованию ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из - за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"]) sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/linear_model("Linear Models") sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/preprocessing("Preprocessing and Normalization") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/linear_model -.-> lab-71100{{"Изучение классификаторов SGD в Scikit-Learn"}} sklearn/preprocessing -.-> lab-71100{{"Изучение классификаторов SGD в Scikit-Learn"}} sklearn/model_selection -.-> lab-71100{{"Изучение классификаторов SGD в Scikit-Learn"}} sklearn/metrics -.-> lab-71100{{"Изучение классификаторов SGD в Scikit-Learn"}} sklearn/datasets -.-> lab-71100{{"Изучение классификаторов SGD в Scikit-Learn"}} ml/sklearn -.-> lab-71100{{"Изучение классификаторов SGD в Scikit-Learn"}} end

Импортируем необходимые библиотеки

Сначала нам нужно импортировать необходимые библиотеки. Мы будем использовать библиотеку scikit - learn для машинного обучения и предобработки данных.

import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import SGDClassifier, SGDRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error

Загружаем и предобрабатываем данные

Далее мы загрузим датасет iris и предобработаем его, масштабируя признаки с использованием StandardScaler.

## Load the iris dataset
iris = load_iris()
X, y = iris.data, iris.target

## Scale the features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

## Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

Обучаем классификатор с использованием SGD

Теперь мы обучим классификатор с использованием класса SGDClassifier. Мы будем использовать функцию потерь log_loss и штраф l2.

## Train a classifier using SGD
clf = SGDClassifier(loss="log_loss", penalty="l2", max_iter=100, random_state=42)
clf.fit(X_train, y_train)

## Make predictions on the testing set
y_pred = clf.predict(X_test)

## Measure the accuracy of the classifier
accuracy = accuracy_score(y_test, y_pred)

## Print the accuracy
print("Classifier Accuracy:", accuracy)

Обучаем регрессор с использованием SGD

Далее мы обучим регрессор с использованием класса SGDRegressor. Мы будем использовать функцию потерь squared_error и штраф l2.

## Train a regressor using SGD
reg = SGDRegressor(loss="squared_error", penalty="l2", max_iter=100, random_state=42)
reg.fit(X_train, y_train)

## Make predictions on the testing set
y_pred = reg.predict(X_test)

## Measure the mean squared error of the regressor
mse = mean_squared_error(y_test, y_pred)

## Print the mean squared error
print("Regressor Mean Squared Error:", mse)

Резюме

В этом практическом занятии мы узнали, как использовать стохастический градиентный спуск (Stochastic Gradient Descent, SGD) для обучения линейных классификаторов и регрессоров с использованием библиотеки scikit - learn. Мы обучили классификатор на наборе данных iris и измерили его точность, а также обучили регрессор и измерили среднеквадратичную ошибку. SGD - это мощный алгоритм оптимизации, который может эффективно обрабатывать крупномасштабные и разреженные задачи машинного обучения.