Sélection de données dans Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introduction

Dans ce laboratoire, nous allons apprendre à sélectionner des données spécifiques à partir d'un DataFrame à l'aide de Pandas, une bibliothèque populaire d'analyse et de manipulation de données en Python. Nous utiliserons le jeu de données Titanic pour ce tutoriel.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous réglerons rapidement le problème pour vous.

Ceci est un Guided Lab, qui fournit des instructions étape par étape pour vous aider à apprendre et à pratiquer. Suivez attentivement les instructions pour compléter chaque étape et acquérir une expérience pratique. Les données historiques montrent que c'est un laboratoire de niveau débutant avec un taux de réussite de 98%. Il a reçu un taux d'avis positifs de 100% de la part des apprenants.

Importation des bibliothèques et des données nécessaires

Tout d'abord, nous devons importer la bibliothèque Pandas et le jeu de données Titanic.

## Import pandas library
import pandas as pd

## Charge le jeu de données Titanic
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Sélection d'une seule colonne

Pour sélectionner une seule colonne, utilisez les crochets [] avec le nom de la colonne qui vous intéresse.

## Sélectionne la colonne 'Age'
ages = titanic["Age"]

## Affiche les 5 premières lignes
ages.head()

Sélection de plusieurs colonnes

Pour sélectionner plusieurs colonnes, utilisez une liste de noms de colonnes à l'intérieur des crochets de sélection [].

## Sélectionne les colonnes 'Age' et 'Sex'
age_sex = titanic[["Age", "Sex"]]

## Affiche les 5 premières lignes
age_sex.head()

Filtrer des lignes spécifiques

Pour sélectionner des lignes en fonction d'une expression conditionnelle, utilisez la condition à l'intérieur des crochets de sélection [].

## Filtre les lignes où 'Age' est supérieur à 35
above_35 = titanic[titanic["Age"] > 35]

## Affiche les 5 premières lignes
above_35.head()

Sélectionner des lignes et des colonnes spécifiques

Pour sélectionner à la fois des lignes et des colonnes d'un coup, nous utilisons les opérateurs loc ou iloc.

## Sélectionne le 'Name' des passagers âgés de plus de 35 ans
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## Affiche les 5 premières lignes
adult_names.head()

Sommaire

Dans ce laboratoire, nous avons appris à sélectionner et à filtrer des données à partir d'un DataFrame en Pandas. Nous avons appris à sélectionner une colonne ou plusieurs colonnes, à filtrer des lignes en fonction de certaines conditions et à sélectionner des lignes et des colonnes spécifiques. Ces opérations sont fondamentales dans l'analyse et la manipulation de données avec Pandas.