Entraînement et évaluation du modèle
Dans cette étape, vous utiliserez la bibliothèque scikit-learn de Python pour construire des modèles d'apprentissage automatique pour prédire les emplacements de trésors sous-marins potentiels à partir des données prétraitées. Vous entraînerez et évaluerez les performances de divers algorithmes d'apprentissage automatique tels que les arbres de décision, les forêts aléatoires et les machines à vecteurs de support.
Dans ~/projet/model_training.py
:
## model_training.py
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
## Lire les données à partir du fichier "underwater_data.csv"
donnees = pd.read_csv("/home/labex/projet/underwater_data.csv")
## Convertir les données en un tableau NumPy
donnees = np.array(donnees)
## Extraire la matrice de caractéristiques X et la variable cible y
X = donnees[:, :-1] ## Utiliser toutes les lignes, sauf la dernière colonne comme matrice de caractéristiques X
y = donnees[:, -1] ## Utiliser toutes les lignes, la dernière colonne comme variable cible y
## Diviser les données prétraitées en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
## Initialiser et entraîner un régresseur à forêt aléatoire
modele = RandomForestRegressor(n_estimators=100, random_state=42)
modele.fit(X_train, y_train)
## Évaluer les performances du modèle
predictions = modele.predict(X_test)
mse = mean_squared_error(y_test, predictions)
print(f"Mean Squared Error: {mse}")
Exécutez le script :
python model_training.py
L'information ci-dessous devrait être affichée sur votre terminal :
Mean Squared Error: 1.8009639999999907