Manipulation de données textuelles avec Pandas

Introduction

Dans ce laboratoire, nous allons explorer la manière de manipuler des données textuelles à l'aide de la bibliothèque Pandas de Python. Vous allez apprendre à convertir les caractères de chaîne en minuscules, à extraire des parties de chaînes, à remplacer des valeurs de chaîne et bien plus encore à l'aide de diverses méthodes intégrées de Pandas.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter Notebook pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limites du carnet Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Ceci est un Guided Lab, qui fournit des instructions étape par étape pour vous aider à apprendre et à pratiquer. Suivez attentivement les instructions pour compléter chaque étape et acquérir une expérience pratique. Les données historiques montrent que c'est un laboratoire de niveau débutant avec un taux de réussite de 98%. Il a reçu un taux d'avis positifs de 100% de la part des apprenants.

Importez les bibliothèques et les données nécessaires

Commencez par importer la bibliothèque Pandas et charger les données que nous utiliserons pour ce tutoriel.

## Importez les bibliothèques nécessaires
import pandas as pd

## Chargez les données
titanic = pd.read_csv("data/titanic.csv")

Convertir les caractères de chaîne en minuscules

Ensuite, nous allons convertir tous les caractères de la colonne Name en minuscules. Nous utiliserons la méthode str.lower() pour y arriver.

## Convertir tous les caractères de la colonne 'Name' en minuscules
titanic["Name"] = titanic["Name"].str.lower()

Extraire les noms de famille des noms complets

Maintenant, créons une nouvelle colonne Surname qui contient le nom de famille des passagers. Nous y arriverons en extrayant la partie avant la virgule dans la colonne Name.

## Divisez la colonne 'Name' sur la virgule et extrayez la première partie
titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)

Extraire des données spécifiques sur les passagers

Ensuite, extrayons les données sur les passagers qui étaient des comtesses à bord du Titanic. Nous utiliserons la méthode str.contains() pour trouver les lignes où la colonne Name contient le mot 'Countess'.

## Trouvez les lignes où 'Name' contient 'Countess'
countesses = titanic[titanic["Name"].str.contains("Countess")]

Trouvez le nom le plus long

Découvrez quel passager du Titanic a le nom le plus long. Nous utiliserons la méthode str.len() pour obtenir la longueur de chaque nom, et la méthode idxmax() pour trouver l'index du nom le plus long.

## Obtenez la longueur de chaque nom
name_lengths = titanic["Name"].str.len()

## Trouvez l'index du nom le plus long
longest_name_index = name_lengths.idxmax()

## Obtenez le nom le plus long
longest_name = titanic.loc[longest_name_index, "Name"]

Remplacez des valeurs dans une colonne

Enfin, remplaçons les valeurs dans la colonne Sex :'male' par 'M' et 'female' par 'F'. Nous utiliserons la méthode replace() pour cela.

## Remplacez'male' par 'M' et 'female' par 'F' dans la colonne 'Sex'
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})

Sommaire

Dans ce laboratoire, nous avons vu comment manipuler des données textuelles à l'aide de la bibliothèque Pandas de Python. Nous avons appris à convertir les caractères de chaîne en minuscules, à extraire des parties de chaînes, à trouver des lignes spécifiques en fonction du contenu de la chaîne, à trouver la chaîne la plus longue et à remplacer des valeurs de chaîne. Cette connaissance est très utile dans le prétraitement des données, une étape cruciale dans l'analyse de données et l'apprentissage automatique.

Données textuelles avec Pandas