Introdução
Neste laboratório, aprenderemos como usar o método DataFrame.insert() na biblioteca pandas do Python. Este método nos permite inserir uma coluna em um DataFrame em uma localização especificada. Também podemos escolher se permitimos ou não colunas duplicadas.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar a biblioteca pandas
Começaremos importando a biblioteca pandas, que nos permitirá trabalhar com DataFrames.
import pandas as pd
Criar um DataFrame
Em seguida, vamos criar um DataFrame para trabalhar. Para este exemplo, criaremos um DataFrame com duas colunas, 'A' e 'B', e quatro linhas.
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
Inserir uma nova coluna no DataFrame
Agora, vamos inserir uma nova coluna chamada 'C' no índice 2 no DataFrame. Definiremos o valor desta coluna como 1 para todas as linhas.
df.insert(2, 'C', 1)
Imprimir o DataFrame
Para ver o DataFrame atualizado, vamos imprimi-lo usando a função print().
print(df)
Inserir uma Series como coluna
Alternativamente, podemos inserir um objeto Series como uma coluna no DataFrame. Vamos criar um novo objeto Series com os valores [1, 2, 3, 4] e inseri-lo no índice 0 no DataFrame.
series = pd.Series([1, 2, 3, 4])
df.insert(0, 'C', series)
Imprimir o DataFrame
Mais uma vez, vamos imprimir o DataFrame para ver as alterações.
print(df)
Lidar com colunas duplicadas
Por padrão, o método DataFrame.insert() levanta um ValueError se tentarmos inserir uma coluna com um rótulo que já existe no DataFrame. No entanto, podemos substituir este comportamento definindo allow_duplicates como True. Vamos tentar inserir uma coluna com um rótulo duplicado e ver o resultado.
df.insert(2, 'A', 1, allow_duplicates = True)
Imprimir o DataFrame
Após tentar inserir a coluna duplicada, vamos imprimir o DataFrame para ver a mensagem de erro.
print(df)
Resumo
Neste laboratório, aprendemos como usar o método DataFrame.insert() em pandas para inserir novas colunas em um DataFrame em locais específicos. Aprendemos como inserir colunas com valores constantes e com objetos Series. Também vimos como lidar com duplicatas ao inserir colunas. Este método é útil quando precisamos adicionar novos recursos ou modificar a estrutura do nosso DataFrame.