Importez les bibliothèques requises et chargez l'ensemble de données
Dans cette étape, vous allez apprendre à importer les bibliothèques requises et à charger l'ensemble de données iris. Suivez les étapes ci-dessous pour compléter cette étape :
Dans iris_classification_svm.py
, importez les bibliothèques requises, y compris celles pour charger l'ensemble de données, diviser les données, créer le modèle SVM et évaluer ses performances.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
Chargez les données iris à partir de sklearn.datasets
et divisez l'ensemble de données en ensembles d'entraînement et de test. L'ensemble de données est divisé avec un ratio 80-20 pour l'entraînement et le test, avec une graine aléatoire de 42 pour la reproductibilité.
## Continuez dans le même fichier
def load_and_split_data() -> tuple:
"""
Retourne :
tuple : [X_train, X_test, y_train, y_test]
"""
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
return X_train, X_test, y_train, y_test
Ce code charge l'ensemble de données Iris et le divise en ensembles d'entraînement et de test à des fins d'apprentissage automatique. Voici une description de chaque partie :
- Importation des bibliothèques nécessaires :
sklearn.datasets
est utilisé pour charger des ensembles de données, y compris l'ensemble de données Iris.
sklearn.model_selection
fournit des utilitaires pour diviser des ensembles de données en ensembles d'entraînement et de test.
sklearn.svm
contient des classes pour les Machines à Vecteurs de Support (SVM), un type d'algorithme d'apprentissage automatique.
sklearn.metrics
inclut des outils pour évaluer les performances des modèles, tels que l'exactitude et les rapports de classification.
- Définition de la fonction : Une fonction nommée
load_and_split_data
est définie. Cette fonction effectue les tâches suivantes :
- Charge l'ensemble de données Iris :
load_iris()
est une fonction fournie par sklearn.datasets
qui charge l'ensemble de données des fleurs Iris, qui est un ensemble de données populaire pour les tâches de classification. Il contient des mesures de 150 fleurs Iris de trois espèces différentes.
- Séparation des données : L'ensemble de données est séparé en caractéristiques (
X
) et étiquettes cibles (y
). Dans ce cas, X
serait les mesures en 4 dimensions des fleurs Iris, et y
serait les étiquettes d'espèce correspondantes (0, 1 ou 2).
- Division des données :
train_test_split
de sklearn.model_selection
est utilisé pour diviser les données en sous-ensembles d'entraînement et de test. Le paramètre test_size=0.2
signifie que 20 % des données seront utilisées pour le test, tandis que les 80 % restantes seront utilisées pour l'entraînement. random_state=42
assure la reproductibilité de la division ; en utilisant la même graine (42 ici), la même division sera obtenue chaque fois que le code est exécuté.
- Valeurs de retour : La fonction renvoie un tuple contenant
X_train
, X_test
, y_train
et y_test
, qui sont les ensembles de caractéristiques et de cibles pour les données d'entraînement et de test.