Travailler avec les structures de données dans Pandas

PythonPythonBeginner
Pratiquer maintenant

This tutorial is from open-source community. Access the source code

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Pandas est une puissante bibliothèque Python pour la manipulation et l'analyse de données. Ses structures de données fondamentales, Series et DataFrame, vous permettent de stocker et de manipuler des données structurées. Ce laboratoire vous fournira un guide étape par étape sur la manière de travailler avec ces structures de données, depuis la création jusqu'à la manipulation et l'alignement.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importation des bibliothèques nécessaires

Avant de commencer, importons les bibliothèques nécessaires. Nous aurons besoin de NumPy et de pandas pour ce laboratoire.

## Import necessary libraries
import numpy as np
import pandas as pd

Création d'une Séries

La première structure de données que nous allons examiner est une Séries, qui est un tableau étiqueté à une dimension. Elle peut stocker n'importe quel type de données, y compris des entiers, des chaînes de caractères, des nombres à virgule flottante et des objets Python.

## Create a Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

Création d'un DataFrame

L'autre structure de données fondamentale est le DataFrame. C'est une structure de données étiquetée à deux dimensions avec des colonnes de types potentiellement différents.

## Create a DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))

Manipulation des colonnes d'un DataFrame

Vous pouvez effectuer diverses opérations sur les colonnes d'un DataFrame. Par exemple, vous pouvez sélectionner une colonne, ajouter une nouvelle colonne ou supprimer une colonne.

## Select column A
df['A']

## Add a new column E
df['E'] = pd.Series(np.random.randn(6), index=df.index)

## Delete column B
del df['B']

Alignement des données et opérations arithmétiques

L'alignement des données est une fonctionnalité importante de pandas. Lorsque vous effectuez des opérations sur deux objets, pandas les aligne selon leurs étiquettes associées.

## Create two DataFrames
df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])

## Perform addition operation
result = df1 + df2

Travailler avec les fonctions NumPy

La plupart des fonctions NumPy peuvent être appelées directement sur des objets Series et DataFrame, offrant une grande flexibilité pour la manipulation et l'analyse des données.

## Apply the exponential function to a DataFrame
np.exp(df)

Sommaire

Dans ce laboratoire, nous avons appris les deux structures de données fondamentales de pandas : Series et DataFrame. Nous avons vu comment créer et manipuler ces structures, et comment utiliser directement les fonctions NumPy sur elles. Nous avons également exploré le concept d'alignement des données, qui est une fonction puissante de pandas permettant une manipulation et une analyse de données intuitives.