Introduction
La méthode info() dans la bibliothèque Python Pandas est utilisée pour obtenir un résumé d'un DataFrame. Elle fournit des informations précieuses sur le DataFrame, notamment le type de données de l'index et des colonnes, les valeurs non nulles et l'utilisation mémoire.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour pratiquer.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importer les bibliothèques nécessaires
Tout d'abord, nous devons importer la bibliothèque pandas, qui est une bibliothèque puissante de manipulation de données en Python.
import pandas as pd
Créer un DataFrame
Ensuite, nous devons créer un DataFrame. Nous pouvons le faire en utilisant la fonction pd.DataFrame() et en passant un dictionnaire de données.
int_values = [1, 2, 3, 4, 5]
text_values = ['alpha', 'beta', 'gamma', 'delta', 'epsilon']
float_values = [0.0, 0.25, 0.5, 0.75, 1.0]
df = pd.DataFrame({"int_col": int_values, "text_col": text_values, "float_col": float_values})
Utiliser la méthode info()
Maintenant que nous avons notre DataFrame, nous pouvons utiliser la méthode info() pour obtenir les informations de synthèse. Par défaut, la méthode info() imprime le résumé complet du DataFrame.
df.info()
Analyser la sortie
Après avoir exécuté le code, vous verrez les informations de synthèse sur le DataFrame, y compris le type de données de chaque colonne, le nombre de valeurs non nulles et l'utilisation mémoire. Voici un exemple de sortie :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entrées, de 0 à 4
Colonnes de données (au total 3 colonnes) :
## Colonne Nombre de valeurs non nulles Type de données
--- ------ -------------- -----
0 int_col 5 non null int64
1 text_col 5 non null objet
2 float_col 5 non null float64
Types de données : float64(1), int64(1), objet(1)
Utilisation mémoire : 248,0+ octets
Résumé
La méthode info() dans la bibliothèque Python Pandas est une méthode utile pour obtenir un résumé rapide d'un DataFrame. Elle fournit des informations sur le type de données de l'index et des colonnes, les valeurs non nulles et l'utilisation mémoire. Par défaut, elle affiche le résumé complet, mais vous pouvez également modifier les paramètres pour personnaliser la sortie. Cette méthode est utile pour comprendre la structure du DataFrame, en particulier lorsqu'il s'agit de traiter de grands ensembles de données. Avec les informations obtenues à partir de info(), vous pouvez prendre des décisions éclairées quant au nettoyage, à la manipulation et à l'analyse des données.