Fondamentaux de la manipulation de données avec Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introduction

Ce laboratoire Python Pandas vise à vous initier aux opérations fondamentales de la bibliothèque pandas, qui est un puissant outil de manipulation de données en Python. Au cours de ce laboratoire, vous travaillerez avec de nombreux exemples et extraits de code pour consolider votre compréhension de pandas.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importation de Pandas

Tout d'abord, nous devons importer la bibliothèque pandas. Cela peut être fait avec la commande suivante :

## Importing pandas library
import pandas as pd
import numpy as np

Création d'un DataFrame

Ensuite, nous allons créer un DataFrame, qui est une structure de données étiquetée bidimensionnelle avec des colonnes de types potentiellement différents. C'est généralement l'objet pandas le plus couramment utilisé.

## Creating a DataFrame with a dictionary
df = pd.DataFrame({'A': [1, 2, 3]})

Comprendre les DataFrames

Maintenant, essayons de mieux comprendre le DataFrame que nous venons de créer.

## Displaying the DataFrame
print(df)

## Info about the DataFrame
df.info()

Travailler avec les données manquantes

Pandas fournit diverses méthodes pour nettoyer les données et remplir les valeurs manquantes.

## Creating a DataFrame with missing values
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})

## Filling missing values
df.fillna(value=0, inplace=True)

Visualisation de données

Pandas permet la visualisation de données en permettant l'intégration avec la bibliothèque Matplotlib.

## Importing matplotlib library
import matplotlib.pyplot as plt

## Plotting a graph
df['A'].plot()
plt.show()

Sommaire

Dans ce laboratoire, nous avons abordé certains des éléments de base de la bibliothèque pandas en Python, y compris l'importation de la bibliothèque, la création et la manipulation d'un DataFrame, la gestion des données manquantes et la visualisation des données. Ces compétences sont fondamentales pour toute tâche d'analyse de données en Python, et la maîtrise de pandas vous permettra de traiter et d'analyser efficacement les données.