Introduction
Dans ce laboratoire, nous allons apprendre à utiliser la méthode combine() de la bibliothèque pandas pour combiner deux DataFrames colonne par colonne. La méthode combine() nous permet de fusionner des colonnes d'un DataFrame avec un autre DataFrame en utilisant une fonction spécifiée.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importer la bibliothèque pandas
Tout d'abord, nous devons importer la bibliothèque pandas, qui est une bibliothèque puissante pour la manipulation et l'analyse de données.
import pandas as pd
Créer les DataFrames
Ensuite, créons deux DataFrames que nous utiliserons pour démontrer la méthode combine().
df1 = pd.DataFrame({'A': [2, 0, 5], 'B': [2, None, -0.25]})
df2 = pd.DataFrame({'A': [3, 1, None], 'B': [3, 3, -4]})
Affichons les DataFrames pour voir leur contenu.
print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)
Sortie :
DataFrame 1:
A B
0 2 2.00
1 0 NaN
2 5 -0.25
DataFrame 2:
A B
0 3.0 3
1 1.0 3
2 NaN -4
Combiner des DataFrames à l'aide de la méthode combine()
Maintenant, combinons les deux DataFrames à l'aide de la méthode combine().
combined_df = df1.combine(df2, min)
La fonction min est utilisée en tant que paramètre func pour choisir la valeur la plus petite entre les deux colonnes.
Affichons le DataFrame combiné pour voir le résultat.
print("\nDataFrame combiné :")
print(combined_df)
Sortie :
DataFrame combiné :
A B
0 2.0 2.00
1 0.0 NaN
2 5.0 -4.00
Combiner des DataFrames avec une fonction personnalisée
Nous pouvons également utiliser une fonction personnalisée en tant que paramètre func pour combiner les DataFrames. Créons une fonction personnalisée multiply_columns qui multiplie les valeurs de chaque colonne.
def multiply_columns(s1, s2):
return s1 * s2
combined_df = df1.combine(df2, multiply_columns)
Affichons le DataFrame combiné pour voir le résultat.
print("\nDataFrame combiné :")
print(combined_df)
Sortie :
DataFrame combiné :
A B
0 6.0 6.0
1 0.0 NaN
2 NaN 1.0
Résumé
Dans ce laboratoire, nous avons appris à utiliser la méthode combine() dans pandas pour combiner deux DataFrames colonne par colonne. Nous avons vu comment utiliser des fonctions intégrées et des fonctions personnalisées pour fusionner les colonnes. La méthode combine() est utile lorsque nous voulons fusionner des colonnes de deux DataFrames sur la base d'une condition ou d'une règle spécifique. Elle offre une flexibilité dans la manière dont nous combinons les données et remplit les valeurs manquantes si nécessaire.