dropna() Pandas DataFrame | Tutorial de Limpeza de Dados

Introdução

Neste laboratório, aprenderemos sobre o método dropna() do pandas para DataFrames. Este método é usado para remover valores ausentes de um DataFrame, descartando linhas ou colunas que contêm valores nulos ou NaN.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importar a biblioteca pandas

Antes de começarmos, precisamos importar a biblioteca pandas. Usaremos o alias pd para esta biblioteca.

import pandas as pd

Criar um DataFrame

Vamos criar um DataFrame que contém alguns valores ausentes.

df = pd.DataFrame([
    ['Abhishek', 100, 'Science', None],
    ['Anurag', 101, 'Science', 85],
    ['Chetan', 103, 'Maths', None]
], columns=['Name', 'Roll No', 'Subject', 'Marks'])

Usar o método dropna() para remover linhas com valores ausentes

Podemos usar o método dropna() para remover linhas que contêm valores ausentes. Por padrão, ele remove qualquer linha que tenha pelo menos um valor nulo ou NaN.

df_dropped = df.dropna()

Exibir o resultado

Vamos imprimir o DataFrame original e o DataFrame resultante após a remoção das linhas com valores ausentes.

print("Original DataFrame:")
print(df)

print("DataFrame after dropping rows with missing values:")
print(df_dropped)

Resumo

Neste laboratório, aprendemos sobre o método dropna() do pandas para DataFrame, que é usado para remover linhas ou colunas com valores ausentes. Ao remover esses valores ausentes, podemos limpar nosso DataFrame e torná-lo adequado para análise posterior. Lembre-se que este método modifica o DataFrame e retorna um novo DataFrame por padrão, mas também podemos optar por modificar o DataFrame in-place definindo o parâmetro inplace como True.

Método dropna() do Pandas DataFrame