Importer les bibliothèques requises et charger l'ensemble de données
Dans cette étape, vous allez apprendre à importer les bibliothèques requises et à charger l'ensemble de données iris. Suivez les étapes ci-dessous pour compléter cette étape :
Dans iris_classification_svm.py, importez les bibliothèques requises, y compris celles pour charger l'ensemble de données, diviser les données, créer le modèle SVM et évaluer ses performances.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
Chargez les données iris à partir de sklearn.datasets et divisez l'ensemble de données en ensembles d'entraînement et de test. L'ensemble de données est divisé avec un ratio 80-20 pour l'entraînement et le test, avec une graine aléatoire de 42 pour la reproductibilité.
## Continuez dans le même fichier
def load_and_split_data() -> tuple:
"""
Retourne :
tuple : [X_train, X_test, y_train, y_test]
"""
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
return X_train, X_test, y_train, y_test
Ce code charge l'ensemble de données Iris et le divise en ensembles d'entraînement et de test à des fins d'apprentissage automatique. Voici une description de chaque partie :
- Importation des bibliothèques nécessaires :
sklearn.datasets est utilisé pour charger des ensembles de données, y compris l'ensemble de données Iris.
sklearn.model_selection fournit des utilitaires pour diviser des ensembles de données en ensembles d'entraînement et de test.
sklearn.svm contient des classes pour les Machines à Vecteurs de Support (SVM), un type d'algorithme d'apprentissage automatique.
sklearn.metrics inclut des outils pour évaluer les performances des modèles, tels que l'exactitude et les rapports de classification.
- Définition de la fonction : Une fonction nommée
load_and_split_data est définie. Cette fonction effectue les tâches suivantes :
- Charge l'ensemble de données Iris :
load_iris() est une fonction fournie par sklearn.datasets qui charge l'ensemble de données des fleurs Iris, qui est un ensemble de données populaire pour les tâches de classification. Il contient des mesures de 150 fleurs Iris de trois espèces différentes.
- Séparation des données : L'ensemble de données est séparé en caractéristiques (
X) et étiquettes cibles (y). Dans ce cas, X serait les mesures en 4 dimensions des fleurs Iris, et y serait les étiquettes d'espèce correspondantes (0, 1 ou 2).
- Division des données :
train_test_split de sklearn.model_selection est utilisé pour diviser les données en sous-ensembles d'entraînement et de test. Le paramètre test_size=0.2 signifie que 20 % des données seront utilisées pour le test, tandis que les 80 % restantes seront utilisées pour l'entraînement. random_state=42 assure la reproductibilité de la division ; en utilisant la même graine (42 ici), la même division sera obtenue chaque fois que le code est exécuté.
- Valeurs de retour : La fonction renvoie un tuple contenant
X_train, X_test, y_train et y_test, qui sont les ensembles de caractéristiques et de cibles pour les données d'entraînement et de test.