Introdução
Neste laboratório, aprenderemos como usar o método filter() em um DataFrame do Pandas. O método filter() permite que selecionemos subconjuntos de linhas ou colunas de um DataFrame com base em rótulos de índice especificados. É importante notar que este método filtra o DataFrame com base nos rótulos do índice, e não no conteúdo do DataFrame.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Criar um DataFrame
Primeiramente, vamos criar um DataFrame de amostra para trabalhar.
#import pandas as pd
import pandas as pd
#creating DataFrame
df=pd.DataFrame({
"Name":["Navya","Vindya","Sinchana","Amrutha","Akshatha"],
"Age":[25,24,25,25,26],
"Education":["M.Tech","M.Tech","M.Tech","Ph.d","Ph.d"],
"YOP":[2019,2020,2018,None,None]},
index=["Group_1", "Group_1","Group_1","Group_2","Group_2"])
#printing DataFrame
print("-------DataFrame is----------")
print(df)
Filtrar por nomes de colunas usando o método filter()
Podemos usar o parâmetro items do método filter() para filtrar o DataFrame por certas colunas.
#filter by column names
filtered_df = df.filter(items=["Name","Education"])
#printing filtered DataFrame
print("---------Filtered DataFrame---------")
print(filtered_df)
Filtrar por nomes de linhas usando o método filter()
Podemos usar o parâmetro like do método filter() para filtrar o DataFrame por certas linhas.
#filter by row names
filtered_df = df.filter(like='Group_2', axis=0)
#printing filtered DataFrame
print("---------Filtered DataFrame---------")
print(filtered_df)
Filtrar por nomes de colunas com o parâmetro regex
Podemos usar o parâmetro regex do método filter() para filtrar o DataFrame por certas colunas com base em uma expressão regular (regular expression).
#filter by column names with regex
filtered_df = df.filter(regex ='[g]')
#printing filtered DataFrame
print("---------Filtered DataFrame---------")
print(filtered_df)
Resumo
Neste laboratório, aprendemos como usar o método filter() no Pandas DataFrame. Cobrimos como filtrar o DataFrame por nomes de colunas e nomes de linhas, bem como como filtrar com base em uma expressão regular. Este método é útil para criar subconjuntos do DataFrame com base em rótulos de índice específicos.