Introduction et configuration de Pandas

PandasBeginner
Pratiquer maintenant

Introduction

Bienvenue dans le monde de l'analyse de données avec Python ! Dans ce laboratoire, vous découvrirez Pandas, la bibliothèque open-source la plus populaire et la plus puissante pour la manipulation et l'analyse de données en Python.

Avant de commencer ce cours, vous devez posséder des compétences de base en programmation Python et vous assurer que Python est correctement configuré dans le PATH de votre système. Si vous n'avez pas encore appris Python, vous pouvez commencer par notre Parcours d'apprentissage Python. De plus, vous devez avoir NumPy installé, car c'est une condition préalable essentielle aux opérations Pandas. Si vous avez besoin d'apprendre NumPy, vous pouvez explorer notre Parcours d'apprentissage NumPy.

Pandas fournit des structures de données et des outils d'analyse de données performants et faciles à utiliser. Les deux structures de données principales de Pandas sont Series (1-dimensionnelle) et DataFrame (2-dimensionnelle).

Dans ce laboratoire, vous apprendrez les bases absolues pour vous lancer. Vous allez :

  • Vérifier que Pandas est installé dans votre environnement.
  • Importer la bibliothèque Pandas dans un script Python.
  • Créer votre premier objet Series Pandas.
  • Accéder aux données au sein de la Series.
  • Inspecter les propriétés de base de la Series.

Ce laboratoire est conçu pour les débutants, et aucune connaissance préalable de Pandas n'est requise. Commençons !

Installer Pandas avec pip

Dans cette étape, nous allons vérifier que pandas est correctement installé dans l'environnement. L'environnement LabEx est livré avec Python et Pandas pré-installés pour vous faire gagner du temps. Vous pouvez le confirmer et vérifier sa version.

Pour vérifier les détails d'un package Python installé, vous pouvez utiliser la commande pip show. pip est l'installateur de packages pour Python.

Ouvrez un terminal et exécutez la commande suivante pour afficher les informations sur le package pandas installé :

pip show pandas
Terminal output showing pandas installation details

Vous devriez voir une sortie détaillant le nom du package, sa version, un résumé et son emplacement. La version devrait être 2.2.2 ou similaire.

Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:

Cela confirme que pandas est prêt à être utilisé dans vos scripts Python.

Importer Pandas en tant que pd

Dans cette étape, vous allez écrire votre première ligne de code Python pour importer la bibliothèque Pandas. Par convention, Pandas est importé avec l'alias pd. Cela rend le code plus court et plus lisible.

Dans l'explorateur de fichiers de gauche de l'IDE Web, vous verrez un fichier nommé main.py. Ce fichier a été créé pour vous. Cliquez dessus pour l'ouvrir dans l'éditeur.

Maintenant, ajoutez le code suivant à main.py pour importer pandas et afficher un message de confirmation :

import pandas as pd

print("Pandas imported successfully!")
  • import pandas as pd: Cette ligne indique à Python de charger la bibliothèque Pandas et de lui donner l'alias pd. Désormais, vous pouvez accéder aux fonctions et objets Pandas en utilisant pd..
  • print(...): Il s'agit d'une fonction Python standard pour afficher la sortie dans le terminal.
Python code to import pandas and print confirmation

Pour exécuter votre script, allez dans le terminal et exécutez la commande suivante :

python main.py

Vous devriez voir le message de confirmation s'afficher dans le terminal :

Pandas imported successfully!

Cela confirme que votre script Python peut importer et utiliser avec succès la bibliothèque Pandas.

Créer une Series simple à partir d'une liste

Dans cette étape, vous allez créer votre première Series Pandas. Une Series est un objet unidimensionnel semblable à un tableau qui peut contenir tout type de données, comme des entiers, des chaînes de caractères ou des flottants. C'est le bloc de construction fondamental des données dans Pandas.

Vous pouvez créer une Series en passant une liste Python au constructeur pd.Series().

Modifiez votre fichier main.py. Remplacez l'instruction print précédente par le code suivant pour créer et afficher une Series :

import pandas as pd

## Une liste Python de nombres
data = [10, 20, 30, 40, 50]

## Créer une Series Pandas à partir de la liste
s = pd.Series(data)

## Afficher la Series
print(s)

Suggestion: Vous pouvez copier le code ci-dessus dans votre éditeur de code, puis lire attentivement chaque ligne de code pour comprendre sa fonction. Si vous avez besoin d'explications supplémentaires, vous pouvez cliquer sur le bouton "Explain Code" 👆. Vous pouvez interagir avec Labby pour obtenir une aide personnalisée.

  • data = [...]: Nous définissons d'abord une simple liste d'entiers Python.
  • s = pd.Series(data): Nous appelons le constructeur Series de la bibliothèque pd (Pandas), en lui passant notre liste. Cela crée l'objet Series.

Exécutez à nouveau le script depuis le terminal :

python main.py

La sortie affichera votre Series. Notez qu'elle comporte deux colonnes : l'index à gauche (0-4) et les valeurs à droite (10-50). Pandas crée automatiquement un index entier par défaut si aucun n'est spécifié.

0    10
1    20
2    30
3    40
4    50
dtype: int64

Accéder aux éléments de la Series par index

Dans cette étape, vous apprendrez comment accéder à des éléments individuels ou à un sous-ensemble d'éléments de la Series que vous avez créée. L'accès aux données est une opération fondamentale en analyse de données. Vous pouvez accéder aux éléments d'une Series en utilisant leur index, de manière similaire à une liste Python.

Modifions main.py pour accéder et afficher des éléments spécifiques. Nous allons accéder au premier élément (à l'index 0) et à une tranche d'éléments.

Mettez à jour votre fichier main.py avec le code suivant. Ajoutez les nouvelles instructions print après la ligne qui affiche la série entière.

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

print("The full Series:")
print(s)

## Accéder au premier élément (à l'index 0)
print("\nFirst element:", s[0])

## Accéder à une tranche d'éléments (de l'index 1 jusqu'à, mais sans inclure, l'index 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
  • s[0]: Ceci récupère la valeur à l'index 0, qui est 10.
  • s[1:3]: Ceci s'appelle le "slicing" (découpage). Cela récupère les éléments commençant à l'index 1 jusqu'à (mais sans inclure) l'index 3. Cela vous donnera les éléments aux index 1 et 2.

Exécutez le script pour voir le résultat :

python main.py

Votre sortie devrait maintenant afficher la Series complète, suivie des éléments spécifiques auxquels vous avez accédé.

The full Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64

First element: 10

Elements from index 1 to 2:
1    20
2    30
dtype: int64

Afficher le type de données et la forme de la Series

Dans cette étape, vous apprendrez comment inspecter deux propriétés importantes d'une Series : son type de données (dtype) et sa forme (shape). Comprendre ces attributs est crucial pour le débogage et la validation des données.

  • dtype: Cet attribut vous indique le type de données des valeurs stockées dans la Series (par exemple, int64 pour les entiers, float64 pour les nombres à virgule flottante, object pour les chaînes de caractères).
  • shape: Cet attribut renvoie un tuple représentant les dimensions de la Series. Pour une Series, qui est unidimensionnelle, ce sera un tuple avec une seule valeur, (n,), où n est le nombre d'éléments.

Mettons à jour main.py pour afficher ces deux attributs. Ajoutez les lignes suivantes à la fin de votre script :

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

## ... (les instructions print précédentes peuvent être supprimées ou conservées)

## Afficher le type de données de la Series
print("\nData type:", s.dtype)

## Afficher la forme de la Series
print("Shape:", s.shape)

Exécutez maintenant le script une dernière fois :

python main.py

La sortie inclura désormais le type de données et la forme de votre Series.

Data type: int64
Shape: (5,)

Cela vous indique que votre Series contient des entiers 64 bits et comporte 5 éléments.

Résumé

Félicitations ! Vous avez terminé avec succès ce laboratoire d'introduction à Pandas.

Dans ce laboratoire, vous avez appris les premières étapes fondamentales pour travailler avec cette puissante bibliothèque. Vous avez :

  • Vérifié l'installation de pandas dans votre environnement.
  • Importé la bibliothèque pandas dans un script Python en utilisant l'alias standard pd.
  • Créé une Series unidimensionnelle de base à partir d'une liste Python.
  • Accédé aux éléments de la Series en utilisant l'indexation et le découpage (slicing).
  • Inspecté les attributs dtype et shape pour comprendre la structure et le type de données de la Series.

Ce sont les éléments essentiels dont vous aurez besoin pour passer à des structures de données plus complexes comme le DataFrame et effectuer des tâches d'analyse de données plus avancées. Continuez à pratiquer !