Introdução
Neste laboratório, aprenderemos como usar o método drop_duplicates() em um DataFrame Pandas para remover linhas duplicadas. Percorreremos as etapas necessárias para usar este método com exemplos.
Dicas da VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as bibliotecas necessárias
Primeiramente, precisamos importar as bibliotecas necessárias. Neste laboratório, usaremos a biblioteca Pandas.
import pandas as pd
Criar um DataFrame
Em seguida, precisamos criar um DataFrame que contenha linhas duplicadas. Usaremos a função pd.DataFrame() para criar o DataFrame.
df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)
Remover linhas duplicadas
Agora, podemos usar o método drop_duplicates() para remover as linhas duplicadas do DataFrame. Este método retornará um novo DataFrame com as linhas duplicadas removidas.
df = df.drop_duplicates()
print("After removing duplicate rows:")
print(df)
Resumo
Neste laboratório, aprendemos como usar o método drop_duplicates() em um Pandas DataFrame para remover linhas duplicadas. Ao especificar as colunas a serem consideradas ou as duplicatas a serem mantidas, podemos personalizar como o método lida com as duplicatas.
Seguindo estes passos, você pode remover efetivamente linhas duplicadas de um Pandas DataFrame usando o método drop_duplicates().