Dominando o Método duplicated() do DataFrame Pandas - Guia Completo

Introdução

Neste laboratório, aprenderemos sobre o método duplicated() na biblioteca Pandas para Python. O método duplicated() é usado para encontrar linhas duplicadas em um DataFrame.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importar as bibliotecas necessárias

Primeiramente, precisamos importar a biblioteca pandas como pd.

import pandas as pd

Criar um DataFrame

Em seguida, vamos criar um DataFrame para trabalhar. Usaremos o seguinte DataFrame de exemplo:

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})

Encontrar linhas duplicadas

Para encontrar linhas duplicadas no DataFrame, podemos usar o método duplicated(). Por padrão, ele considera todas as colunas para identificar duplicatas. Ele retorna uma Série booleana onde True representa linhas duplicadas e False representa linhas únicas.

duplicates = df.duplicated()
print(duplicates)

Especificar colunas para identificar duplicatas

Se quisermos considerar apenas certas colunas para identificar duplicatas, podemos passar o(s) rótulo(s) da(s) coluna(s) para o parâmetro subset do método duplicated().

duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)

Especificar marcação de duplicatas

O parâmetro keep do método duplicated() determina como as duplicatas devem ser marcadas. Por padrão, ele é definido como 'first', que marca todas as duplicatas como True, exceto a primeira ocorrência. Também podemos defini-lo como 'last' ou False para marcar duplicatas de forma diferente.

duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)

duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)

Resumo

Neste laboratório, aprendemos como usar o método duplicated() no Pandas para encontrar linhas duplicadas em um DataFrame. Vimos como identificar duplicatas com base em certas colunas, especificar a marcação de duplicatas e obter uma Série booleana representando as linhas duplicadas. O método duplicated() é uma ferramenta útil para limpeza de dados e identificação de dados duplicados.