Introduction
Pandas est un puissant outil de manipulation de données développé en Python. Il est souvent utilisé dans l'analyse et le nettoyage de données car il est flexible et facile à utiliser. Dans ce laboratoire, nous allons apprendre à utiliser Pandas pour effectuer des opérations de base telles que le chargement de données, la création de DataFrames, l'accès aux données et la réalisation de statistiques simples.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous réglerons rapidement le problème pour vous.
Importez le package Pandas
Avant d'utiliser Pandas, vous devez l'importer. Il est courant d'importer Pandas avec l'alias pd.
## Importing pandas package
import pandas as pd
Créez un DataFrame
Les données dans pandas sont stockées dans un DataFrame, qui est une structure de données étiquetée en 2 dimensions avec des colonnes potentiellement de différents types.
## Creating a DataFrame
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
Sélectionnez une colonne
Si vous voulez travailler avec les données d'une colonne spécifique, vous pouvez la sélectionner en utilisant l'étiquette de colonne. Le résultat est une pandas Series.
## Selecting the 'Age' column
df["Age"]
Effectuez des statistiques de base
Pandas fournit de nombreuses fonctionnalités pour effectuer des statistiques. Par exemple, vous pouvez trouver la valeur maximale d'une colonne en utilisant max().
## Finding the maximum age
df["Age"].max()
Vous pouvez également obtenir une vue d'ensemble rapide des données numériques d'un DataFrame en utilisant describe().
## Describing the numerical data
df.describe()
Sommaire
Dans ce laboratoire, nous avons appris comment importer le package Pandas, créer un DataFrame, sélectionner une colonne et effectuer des statistiques de base. Pandas est un outil polyvalent qui peut gérer des données de différents types, ce qui en fait un excellent choix pour l'analyse et la manipulation de données.