Импортировать необходимые библиотеки и загрузить датасет
В этом шаге вы научитесь импортировать необходимые библиотеки и загрузить датасет iris. Следуйте шагам ниже, чтобы выполнить этот шаг:
В iris_classification_svm.py
импортируйте необходимые библиотеки, включая те, которые используются для загрузки датасета, разделения данных, создания модели SVM и оценки ее производительности.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
Загрузите данные iris из sklearn.datasets
и разделите датасет на тренировочный и тестовый наборы. Датасет разделяется с использованием соотношения 80-20 для тренировки и тестирования, с случайным种子ом 42 для воспроизводимости.
## Продолжайте в том же файле
def load_and_split_data() -> tuple:
"""
Возвращает:
tuple: [X_train, X_test, y_train, y_test]
"""
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
return X_train, X_test, y_train, y_test
Этот код загружает датасет Iris и разделяет его на тренировочный и тестовый наборы для целей машинного обучения. Вот разбор каждой части:
- Импорт необходимых библиотек:
sklearn.datasets
используется для загрузки датасетов, включая датасет Iris.
sklearn.model_selection
предоставляет утилиты для разделения датасетов на тренировочные и тестовые наборы.
sklearn.svm
содержит классы для Support Vector Machines (SVM), типа алгоритма машинного обучения.
sklearn.metrics
включает инструменты для оценки производительности моделей, таких как точность и отчеты классификации.
- Определение функции: Определена функция с именем
load_and_split_data
. Эта функция выполняет следующие задачи:
- Загружает датасет Iris:
load_iris()
- это функция, предоставленная sklearn.datasets
, которая загружает датасет цветов ириса, который является популярным датасетом для задач классификации. Он содержит измерения 150 цветов ириса из трех разных видов.
- Разделение данных: Датасет разделяется на признаки (
X
) и целевые метки (y
). В этом случае X
будут 4-мерными измерениями цветов ириса, а y
будут соответствующими метками видов (0, 1 или 2).
- Разделение данных:
train_test_split
из sklearn.model_selection
используется для разделения данных на тренировочные и тестовые подмножества. Параметр test_size=0.2
означает, что 20% данных будут использоваться для тестирования, в то время как оставшиеся 80% будут использоваться для тренировки. random_state=42
обеспечивает воспроизводимость разделения; использование того же种子а (42 здесь) обеспечит один и тот же раздел каждый раз, когда код запускается.
- Возвращаемые значения: Функция возвращает кортеж, содержащий
X_train
, X_test
, y_train
и y_test
, которые являются набором признаков и целевых значений как для тренировочных, так и для тестовых данных.