Modelltraining und -bewertung
In diesem Schritt wirst du die Python-Bibliothek scikit-learn
nutzen, um Machine Learning-Modelle zur Vorhersage der Orte potenzieller Unterwasserschätze auf der Grundlage der aufbereiteten Daten zu erstellen. Du wirst die Leistung verschiedener Machine Learning-Algorithmen wie Entscheidungsbäume, Random Forests und Support Vector Machines trainieren und bewerten.
In ~/project/model_training.py
:
## model_training.py
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
## Lese die Daten aus der Datei "underwater_data.csv"
data = pd.read_csv("/home/labex/project/underwater_data.csv")
## Konvertiere die Daten in ein NumPy-Array
data = np.array(data)
## Extrahiere die Merkmalsmatrix X und die Zielfunktion y
X = data[:, :-1] ## Verwende alle Zeilen, außer die letzte Spalte als Merkmalsmatrix X
y = data[:, -1] ## Verwende alle Zeilen, die letzte Spalte als Zielfunktion y
## Teile die aufbereiteten Daten in Trainings- und Testsets auf
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
## Initialisiere und trainiere einen Random Forest Regressor
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
## Bewerte die Leistung des Modells
predictions = model.predict(X_test)
mse = mean_squared_error(y_test, predictions)
print(f"Mean Squared Error: {mse}")
Führe das Skript aus:
python model_training.py
Die folgende Information sollte auf Ihrem Terminal angezeigt werden:
Mean Squared Error: 1.8009639999999907