Pandas DataFrame | Removendo Linhas Duplicadas - Tutorial e Exemplos

Introdução

Neste laboratório, aprenderemos como usar o método drop_duplicates() em um DataFrame Pandas para remover linhas duplicadas. Percorreremos as etapas necessárias para usar este método com exemplos.

Dicas da VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importar as bibliotecas necessárias

Primeiramente, precisamos importar as bibliotecas necessárias. Neste laboratório, usaremos a biblioteca Pandas.

import pandas as pd

Criar um DataFrame

Em seguida, precisamos criar um DataFrame que contenha linhas duplicadas. Usaremos a função pd.DataFrame() para criar o DataFrame.

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

Remover linhas duplicadas

Agora, podemos usar o método drop_duplicates() para remover as linhas duplicadas do DataFrame. Este método retornará um novo DataFrame com as linhas duplicadas removidas.

df = df.drop_duplicates()
print("After removing duplicate rows:")
print(df)

Resumo

Neste laboratório, aprendemos como usar o método drop_duplicates() em um Pandas DataFrame para remover linhas duplicadas. Ao especificar as colunas a serem consideradas ou as duplicatas a serem mantidas, podemos personalizar como o método lida com as duplicatas.

Seguindo estes passos, você pode remover efetivamente linhas duplicadas de um Pandas DataFrame usando o método drop_duplicates().