Analyse des données Ames Housing | Apprentissage d'ensemble par empilement

Introduction

Dans ce laboratoire, nous utiliserons la méthode d'empilement pour combiner plusieurs estimateurs afin de faire des prédictions. Dans cette stratégie, certains estimateurs sont ajustés individuellement sur une partie des données d'entraînement tandis qu'un estimateur final est entraîné à l'aide des prédictions empilées de ces estimateurs de base. Nous utiliserons le jeu de données Ames Housing pour prédire le prix logarithmique final des maisons. Nous utiliserons 3 apprenants, linéaires et non linéaires, et utiliserons un régresseur ridge pour combiner leurs sorties. Nous comparerons également les performances de chaque prédicteur individuel ainsi que celles de la pile de régresseurs.

Conseils sur la VM

Une fois le démarrage de la VM terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limites de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez des commentaires après la session, et nous résoudrons rapidement le problème pour vous.

Télécharger le jeu de données

Nous utiliserons le jeu de données Ames Housing qui a été compilé pour la première fois par Dean De Cock et est devenu plus connu après avoir été utilisé dans un défi Kaggle. Il s'agit d'un ensemble de 1460 maisons résidentielles à Ames, Iowa, chacune décrite par 80 caractéristiques. Nous l'utiliserons pour prédire le prix logarithmique final des maisons. Dans cet exemple, nous utiliserons seulement les 20 caractéristiques les plus intéressantes sélectionnées à l'aide de GradientBoostingRegressor() et limiter le nombre d'entrées.

Créer un pipeline pour prétraiter les données

Avant d'utiliser le jeu de données Ames, nous devons encore effectuer quelques prétraitements. Tout d'abord, nous sélectionnerons les colonnes catégorielles et numériques du jeu de données pour construire la première étape du pipeline. Ensuite, nous devrons concevoir des pipelines de prétraitement qui dépendent du régresseur final. Si le régresseur final est un modèle linéaire, il est nécessaire de coder les catégories en une-hot. Si le régresseur final est un modèle basé sur des arbres, un encodeur ordinal suffira. De plus, les valeurs numériques doivent être normalisées pour un modèle linéaire tandis que les données numériques brutes peuvent être traitées telles quelles par un modèle basé sur des arbres. Cependant, les deux modèles ont besoin d'un imputateur pour gérer les valeurs manquantes.

Empilement de prédicteurs sur un seul ensemble de données

Maintenant, nous pouvons utiliser le jeu de données Ames Housing pour effectuer les prédictions. Nous vérifions les performances de chaque prédicteur individuel ainsi que celles de la pile de régresseurs. Nous combinons 3 apprenants (linéaires et non linéaires) et utilisons un régresseur ridge pour combiner leurs sorties. Le régresseur empilé combinera les forces des différents régresseurs. Cependant, nous voyons également que l'entraînement du régresseur empilé est beaucoup plus coûteux en termes de calcul.

Mesurer et tracer les résultats

Nous allons mesurer et tracer les résultats du régresseur empilé par rapport aux prédicteurs individuels.

Sommaire

Dans ce laboratoire, nous avons appris la méthode d'empilement pour combiner plusieurs estimateurs afin de faire des prédictions. Nous avons utilisé le jeu de données Ames Housing pour prédire le prix logarithmique final des maisons. Nous avons également appris à concevoir des pipelines de prétraitement qui dépendent du régresseur final et à mesurer les performances de chaque prédicteur individuel ainsi que celles de la pile de régresseurs.

Combiner des prédicteurs en utilisant l'empilement