Definir Duplicatas
Nesta etapa, exploraremos o que são duplicatas no contexto da programação e como identificá-las em Python. Compreender as duplicatas é crucial para a limpeza, análise e otimização de dados.
O que são Duplicatas?
Duplicatas são simplesmente valores repetidos dentro de um conjunto de dados ou uma coleção de itens. Por exemplo, na lista [1, 2, 2, 3, 4, 4, 4], os números 2 e 4 são duplicatas porque aparecem mais de uma vez.
Por que Identificar Duplicatas?
Identificar e lidar com duplicatas é importante por várias razões:
- Precisão dos Dados: Duplicatas podem distorcer os resultados da análise e levar a conclusões incorretas.
- Eficiência de Armazenamento: Armazenar duplicatas desperdiça espaço e recursos.
- Performance: Processar duplicatas pode retardar algoritmos e aplicações.
Identificando Duplicatas em Python
Vamos começar criando um script Python para identificar duplicatas em uma lista.
-
Abra seu editor VS Code.
-
Crie um novo arquivo chamado duplicates.py em seu diretório ~/project.
~/project/duplicates.py
-
Adicione o seguinte código ao arquivo duplicates.py:
def find_duplicates(data):
seen = set()
duplicates = []
for item in data:
if item in seen:
duplicates.append(item)
else:
seen.add(item)
return duplicates
numbers = [1, 2, 2, 3, 4, 4, 4, 5]
duplicate_numbers = find_duplicates(numbers)
print("Original list:", numbers)
print("Duplicate numbers:", duplicate_numbers)
Explicação:
- A função
find_duplicates recebe uma lista data como entrada.
- Ela usa um
set chamado seen para acompanhar os itens que encontrou até agora. Sets são úteis porque armazenam apenas valores únicos.
- Ela itera pela lista
data. Se um item já estiver no set seen, significa que é uma duplicata, então ele é adicionado à lista duplicates. Caso contrário, o item é adicionado ao set seen.
- Finalmente, a função retorna a lista
duplicates.
-
Execute o script usando o seguinte comando em seu terminal:
python duplicates.py
Você deve ver a seguinte saída:
Original list: [1, 2, 2, 3, 4, 4, 4, 5]
Duplicate numbers: [2, 4, 4]
Esta saída mostra a lista original e os números duplicados encontrados na lista.