Introduction
Dans ce laboratoire, nous allons explorer la manière de manipuler des données textuelles à l'aide de la bibliothèque Pandas de Python. Vous allez apprendre à convertir les caractères de chaîne en minuscules, à extraire des parties de chaînes, à remplacer des valeurs de chaîne et bien plus encore à l'aide de diverses méthodes intégrées de Pandas.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter Notebook pour pratiquer.
Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limites du carnet Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importez les bibliothèques et les données nécessaires
Commencez par importer la bibliothèque Pandas et charger les données que nous utiliserons pour ce tutoriel.
## Importez les bibliothèques nécessaires
import pandas as pd
## Chargez les données
titanic = pd.read_csv("data/titanic.csv")
Convertir les caractères de chaîne en minuscules
Ensuite, nous allons convertir tous les caractères de la colonne Name en minuscules. Nous utiliserons la méthode str.lower() pour y arriver.
## Convertir tous les caractères de la colonne 'Name' en minuscules
titanic["Name"] = titanic["Name"].str.lower()
Extraire les noms de famille des noms complets
Maintenant, créons une nouvelle colonne Surname qui contient le nom de famille des passagers. Nous y arriverons en extrayant la partie avant la virgule dans la colonne Name.
## Divisez la colonne 'Name' sur la virgule et extrayez la première partie
titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)
Extraire des données spécifiques sur les passagers
Ensuite, extrayons les données sur les passagers qui étaient des comtesses à bord du Titanic. Nous utiliserons la méthode str.contains() pour trouver les lignes où la colonne Name contient le mot 'Countess'.
## Trouvez les lignes où 'Name' contient 'Countess'
countesses = titanic[titanic["Name"].str.contains("Countess")]
Trouvez le nom le plus long
Découvrez quel passager du Titanic a le nom le plus long. Nous utiliserons la méthode str.len() pour obtenir la longueur de chaque nom, et la méthode idxmax() pour trouver l'index du nom le plus long.
## Obtenez la longueur de chaque nom
name_lengths = titanic["Name"].str.len()
## Trouvez l'index du nom le plus long
longest_name_index = name_lengths.idxmax()
## Obtenez le nom le plus long
longest_name = titanic.loc[longest_name_index, "Name"]
Remplacez des valeurs dans une colonne
Enfin, remplaçons les valeurs dans la colonne Sex :'male' par 'M' et 'female' par 'F'. Nous utiliserons la méthode replace() pour cela.
## Remplacez'male' par 'M' et 'female' par 'F' dans la colonne 'Sex'
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})
Sommaire
Dans ce laboratoire, nous avons vu comment manipuler des données textuelles à l'aide de la bibliothèque Pandas de Python. Nous avons appris à convertir les caractères de chaîne en minuscules, à extraire des parties de chaînes, à trouver des lignes spécifiques en fonction du contenu de la chaîne, à trouver la chaîne la plus longue et à remplacer des valeurs de chaîne. Cette connaissance est très utile dans le prétraitement des données, une étape cruciale dans l'analyse de données et l'apprentissage automatique.