Introdução
Neste laboratório, aprenderemos sobre o método duplicated() na biblioteca Pandas para Python. O método duplicated() é usado para encontrar linhas duplicadas em um DataFrame.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as bibliotecas necessárias
Primeiramente, precisamos importar a biblioteca pandas como pd.
import pandas as pd
Criar um DataFrame
Em seguida, vamos criar um DataFrame para trabalhar. Usaremos o seguinte DataFrame de exemplo:
df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
Encontrar linhas duplicadas
Para encontrar linhas duplicadas no DataFrame, podemos usar o método duplicated(). Por padrão, ele considera todas as colunas para identificar duplicatas. Ele retorna uma Série booleana onde True representa linhas duplicadas e False representa linhas únicas.
duplicates = df.duplicated()
print(duplicates)
Especificar colunas para identificar duplicatas
Se quisermos considerar apenas certas colunas para identificar duplicatas, podemos passar o(s) rótulo(s) da(s) coluna(s) para o parâmetro subset do método duplicated().
duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)
Especificar marcação de duplicatas
O parâmetro keep do método duplicated() determina como as duplicatas devem ser marcadas. Por padrão, ele é definido como 'first', que marca todas as duplicatas como True, exceto a primeira ocorrência. Também podemos defini-lo como 'last' ou False para marcar duplicatas de forma diferente.
duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)
duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)
Resumo
Neste laboratório, aprendemos como usar o método duplicated() no Pandas para encontrar linhas duplicadas em um DataFrame. Vimos como identificar duplicatas com base em certas colunas, especificar a marcação de duplicatas e obter uma Série booleana representando as linhas duplicadas. O método duplicated() é uma ferramenta útil para limpeza de dados e identificação de dados duplicados.