Maîtriser les données avec Pandas : Guide introductif

Introduction

Dans ce laboratoire, nous vous présenterons les bases de pandas, une puissante bibliothèque de manipulation de données en Python. Nous vous guiderons à travers diverses tâches telles que l'importation de pandas, la création et la visualisation de données, la sélection de données, les opérations et bien d'autres encore.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous réglerons rapidement le problème pour vous.

Importation de Pandas et Numpy

Tout d'abord, nous devons importer les packages pandas et numpy. Pandas est une puissante bibliothèque de manipulation de données et numpy est utilisé pour les opérations mathématiques.

## Importing necessary libraries
import numpy as np
import pandas as pd

Création d'objets

Nous allons créer une Série en passant une liste de valeurs, et pandas créera un index entier par défaut.

## Creating a pandas series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Création de DataFrames

Nous pouvons créer un DataFrame en passant un tableau numpy, avec un index de dates et des colonnes étiquetées.

## Creating a pandas dataframe
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Visualisation des données

Nous pouvons visualiser les premières et les dernières lignes du DataFrame en utilisant les méthodes head() et tail() respectivement.

## Viewing top rows
df.head()

## Viewing bottom rows
df.tail(3)

Sélection de données

Nous pouvons sélectionner des données en utilisant des étiquettes ou par position.

## Selecting a single column
df["A"]

## Selecting via position
df.iloc[3]

Opérations sur les données

Nous pouvons effectuer des opérations sur les DataFrames telles que le tri, l'application de fonctions, etc.

## Tri par un axe
df.sort_index(axis=1, ascending=False)

## Application d'une fonction aux données
df.apply(np.cumsum)

Gestion des données manquantes

Pandas fournit des méthodes pour gérer les données manquantes dans le DataFrame.

## Remplissage des données manquantes
df.fillna(value=5)

## Obtenir le masque booléen où les valeurs sont nan
pd.isna(df)

Traçage de données

Pandas utilise matplotlib pour tracer des données.

## Traçage de données
df.plot()

Sauvegarde et chargement de données

Pandas fournit des méthodes pour sauvegarder et charger des données dans divers formats tels que csv, excel, hdf5, etc.

## Sauvegarde des données dans un fichier csv
df.to_csv("foo.csv")

## Chargement des données à partir d'un fichier csv
pd.read_csv("foo.csv")

Sommaire

Dans ce laboratoire, nous avons abordé les bases de pandas, y compris la création et la visualisation des données, la sélection et la manipulation des données, ainsi que la sauvegarde et le chargement des données. Nous avons également appris à gérer les données manquantes et à tracer des données. Cela devrait fournir une base solide pour une exploration plus approfondie de pandas pour l'analyse de données.

Présentation de Pandas