Introdução
Neste laboratório, aprenderemos como usar o método DataFrame.isnull() no pandas. Este método é usado para detectar valores ausentes em um DataFrame. Ao aplicar este método a um DataFrame, ele retorna um DataFrame de valores booleanos, onde True indica que o elemento é um valor nulo e False indica que o elemento não é um valor nulo. É importante notar que este método não considera strings vazias ou numpy.inf como valores nulos.
Dicas da VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Criar um DataFrame
Vamos começar criando um DataFrame com alguns valores ausentes. Usaremos a função pd.DataFrame do pandas e a constante np.nan do numpy.
## Importing pandas as pd
import pandas as pd
## Importing numpy as np
import numpy as np
## Creating the DataFrame
df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))
Isso criará um DataFrame com quatro colunas ('a', 'b', 'c', 'd') e três linhas. O DataFrame contém valores ausentes representados por np.nan.
Detectar Valores Ausentes
Agora, usaremos o método DataFrame.isnull() para detectar os valores ausentes no DataFrame.
## Detecting missing values in the DataFrame
missing_values = df.isnull()
## Printing the DataFrame with missing values
print(missing_values)
Isso retornará um DataFrame consistindo em valores booleanos para cada elemento no DataFrame original. Os valores True indicam que o elemento correspondente é um valor ausente (np.nan), e os valores False indicam que o elemento não é um valor ausente.
Considerar Strings Vazias como Valores Ausentes
Por padrão, o método DataFrame.isnull() não considera strings vazias como valores ausentes. Se você deseja considerar strings vazias como valores ausentes, pode substituí-las por np.nan antes de usar o método.
## Replacing empty strings with np.nan
df = df.replace('', np.nan)
## Detecting missing values in the DataFrame
missing_values = df.isnull()
## Printing the DataFrame with missing values
print(missing_values)
Isso agora considerará strings vazias como valores ausentes e retornará um DataFrame com valores booleanos indicando a presença de valores ausentes.
Resumo
Neste laboratório, aprendemos como usar o método DataFrame.isnull() em pandas para detectar valores ausentes em um DataFrame. Vimos que ele retorna um DataFrame de valores booleanos, onde True indica um valor ausente e False indica um valor não ausente. Também vimos que, por padrão, strings vazias não são consideradas como valores ausentes, mas podem ser tratadas como valores ausentes substituindo-as por np.nan antes de usar o método. Este método é útil para tarefas de limpeza e pré-processamento de dados em projetos de análise de dados e aprendizado de máquina.