Introdução
Neste laboratório, aprenderemos como usar o método combine() na biblioteca pandas para combinar dois DataFrames coluna por coluna. O método combine() nos permite mesclar colunas de um DataFrame com outro DataFrame usando uma função especificada.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar a biblioteca pandas
Primeiramente, precisamos importar a biblioteca pandas, que é uma biblioteca poderosa para manipulação e análise de dados.
import pandas as pd
Criar os DataFrames
Em seguida, vamos criar dois DataFrames que usaremos para demonstrar o método combine().
df1 = pd.DataFrame({'A': [2, 0, 5], 'B': [2, None, -0.25]})
df2 = pd.DataFrame({'A': [3, 1, None], 'B': [3, 3, -4]})
Vamos imprimir os DataFrames para ver seus conteúdos.
print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)
Saída:
DataFrame 1:
A B
0 2 2.00
1 0 NaN
2 5 -0.25
DataFrame 2:
A B
0 3.0 3
1 1.0 3
2 NaN -4
Combinar DataFrames usando o método combine()
Agora, vamos combinar os dois DataFrames usando o método combine().
combined_df = df1.combine(df2, min)
A função min é usada como o parâmetro func para escolher o valor menor entre as duas colunas.
Vamos imprimir o DataFrame combinado para ver o resultado.
print("\nCombined DataFrame:")
print(combined_df)
Saída:
Combined DataFrame:
A B
0 2.0 2.00
1 0.0 NaN
2 5.0 -4.00
Combinar DataFrames com função personalizada
Também podemos usar uma função personalizada como o parâmetro func para combinar os DataFrames. Vamos criar uma função personalizada multiply_columns que multiplica os valores em cada coluna.
def multiply_columns(s1, s2):
return s1 * s2
combined_df = df1.combine(df2, multiply_columns)
Vamos imprimir o DataFrame combinado para ver o resultado.
print("\nCombined DataFrame:")
print(combined_df)
Saída:
Combined DataFrame:
A B
0 6.0 6.0
1 0.0 NaN
2 NaN 1.0
Resumo
Neste laboratório, aprendemos como usar o método combine() no pandas para combinar dois DataFrames coluna por coluna. Vimos como usar funções embutidas e funções personalizadas para mesclar as colunas. O método combine() é útil quando queremos mesclar colunas de dois DataFrames com base em uma condição ou regra específica. Ele oferece flexibilidade na forma como combinamos os dados e preenche valores ausentes quando necessário.