Método de Filtro Pandas DataFrame

Beginner

Introdução

Neste laboratório, aprenderemos como usar o método filter() em um DataFrame do Pandas. O método filter() permite que selecionemos subconjuntos de linhas ou colunas de um DataFrame com base em rótulos de índice especificados. É importante notar que este método filtra o DataFrame com base nos rótulos do índice, e não no conteúdo do DataFrame.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Criar um DataFrame

Primeiramente, vamos criar um DataFrame de amostra para trabalhar.

#import pandas as pd
import pandas as pd

#creating DataFrame
df=pd.DataFrame({
    "Name":["Navya","Vindya","Sinchana","Amrutha","Akshatha"],
    "Age":[25,24,25,25,26],
    "Education":["M.Tech","M.Tech","M.Tech","Ph.d","Ph.d"],
    "YOP":[2019,2020,2018,None,None]},
    index=["Group_1", "Group_1","Group_1","Group_2","Group_2"])

#printing DataFrame
print("-------DataFrame is----------")
print(df)

Filtrar por nomes de colunas usando o método filter()

Podemos usar o parâmetro items do método filter() para filtrar o DataFrame por certas colunas.

#filter by column names
filtered_df = df.filter(items=["Name","Education"])

#printing filtered DataFrame
print("---------Filtered DataFrame---------")
print(filtered_df)

Filtrar por nomes de linhas usando o método filter()

Podemos usar o parâmetro like do método filter() para filtrar o DataFrame por certas linhas.

#filter by row names
filtered_df = df.filter(like='Group_2', axis=0)

#printing filtered DataFrame
print("---------Filtered DataFrame---------")
print(filtered_df)

Filtrar por nomes de colunas com o parâmetro regex

Podemos usar o parâmetro regex do método filter() para filtrar o DataFrame por certas colunas com base em uma expressão regular (regular expression).

#filter by column names with regex
filtered_df = df.filter(regex ='[g]')

#printing filtered DataFrame
print("---------Filtered DataFrame---------")
print(filtered_df)

Resumo

Neste laboratório, aprendemos como usar o método filter() no Pandas DataFrame. Cobrimos como filtrar o DataFrame por nomes de colunas e nomes de linhas, bem como como filtrar com base em uma expressão regular. Este método é útil para criar subconjuntos do DataFrame com base em rótulos de índice específicos.