Introduction
Dans ce laboratoire, nous allons apprendre à utiliser la méthode between_time() dans un DataFrame Pandas. Cette méthode nous permet de sélectionner des valeurs entre des moments particuliers de la journée. Elle peut être utilisée pour filtrer et extraire des données spécifiques basées sur le temps à partir d'un DataFrame.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importer les bibliothèques nécessaires
Avant d'utiliser la méthode between_time(), nous devons importer les bibliothèques nécessaires. Dans ce laboratoire, nous allons utiliser la bibliothèque Pandas.
import pandas as pd
Créer un DataFrame
Ensuite, créons un DataFrame qui contient des données basées sur le temps. Nous pouvons utiliser la fonction date_range() de Pandas pour générer une séquence de dates, puis la définir comme index du DataFrame.
values = pd.date_range('2021-01-01', periods=4, freq='20T')
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [1, 2, 3, 4]}, index=values)
Sélectionner des valeurs entre un moment spécifique
Maintenant que nous avons notre DataFrame, utilisons la méthode between_time() pour sélectionner des valeurs entre un horaire de début et de fin spécifiques. Nous pouvons simplement passer l'heure de début et de fin en arguments à la méthode. La méthode retournera un nouveau DataFrame ne contenant que les lignes qui tombent entre les horaires spécifiés.
df_selected = df.between_time('00:00', '01:00')
Personnaliser les paramètres include_start et include_end
La méthode between_time() nous permet également de personnaliser les paramètres include_start et include_end. Par défaut, ces paramètres sont définis sur True, ce qui signifie que les heures de début et de fin sont incluses dans le résultat.
df_selected = df.between_time('00:00', '01:00', include_start=False, include_end=False)
Gérer l'erreur non DatetimeIndex
Si l'index du DataFrame n'est pas un DatetimeIndex, la méthode between_time() levera une TypeError. Pour éviter cette erreur, assurez-vous que l'index de votre DataFrame est un DatetimeIndex.
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [1, 2, 3, 4]}, index=[1, 2, 3, 4])
## Cela levera une TypeError
df_selected = df.between_time('00:00', '01:00')
Résumé
Dans ce laboratoire, nous avons appris à utiliser la méthode between_time() dans un DataFrame Pandas. Cette méthode nous permet de sélectionner des valeurs entre des moments particuliers de la journée. Nous pouvons personnaliser les heures de début et de fin, ainsi que l'inclusion de l'heure de début et de fin, pour filtrer et extraire des données basées sur le temps spécifiques à partir d'un DataFrame. Il est important de s'assurer que l'index du DataFrame est un DatetimeIndex pour éviter les erreurs TypeError. Cette méthode peut être utile dans diverses applications, telles que l'analyse de séries temporelles et l'extraction de périodes de temps spécifiques à partir d'un ensemble de données.