Méthode combine_first du DataFrame Pandas

Beginner

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode combine_first() dans un DataFrame Pandas. Cette méthode nous permet de combiner deux objets DataFrame en remplissant les valeurs nulles dans un DataFrame avec les valeurs non nulles d'un autre DataFrame. Elle peut être utile lorsque nous avons des données manquantes dans un DataFrame et que nous voulons les remplir avec des données d'un autre DataFrame.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importer les bibliothèques nécessaires

import pandas as pd

Créer deux DataFrames avec des valeurs manquantes

df1 = pd.DataFrame({'A': [None, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})

Combiner les DataFrames en utilisant la méthode combine_first()

combined_df = df1.combine_first(df2)

Afficher le DataFrame combiné

print(combined_df)

Ajouter une nouvelle ligne à l'un des DataFrames

df2.loc[2] = [2, 2]

Combiner à nouveau les DataFrames

combined_df = df1.combine_first(df2)

Afficher à nouveau le DataFrame combiné

print(combined_df)

Combiner des DataFrames avec des valeurs None

df1 = pd.DataFrame({'A': [None, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [None, 1], 'B': [None, 3]})
combined_df = df1.combine_first(df2)
print(combined_df)

Combiner des DataFrames avec des index différents

df1 = pd.DataFrame({'A': [None, 0], 'B': [4, None]})
df2 = pd.DataFrame({'B': [3, 3], 'C': [1, 1]}, index=[1, 2])
combined_df = df1.combine_first(df2)
print(combined_df)

Résumé

Dans ce laboratoire, nous avons appris à utiliser la méthode combine_first() dans le DataFrame Pandas. Nous avons vu que cette méthode nous permet de remplir les valeurs nulles dans un DataFrame avec des valeurs non nulles d'un autre DataFrame. Nous avons également vu comment elle peut gérer les cas où les deux DataFrames ont des valeurs nulles ou lorsque les DataFrames ont des index différents. La méthode combine_first() est un outil utile pour combiner et remplir les données manquantes dans les DataFrames.