Introdução
Neste laboratório, exploraremos o método nlargest() no DataFrame do Pandas. Este método nos permite recuperar as N linhas superiores de um DataFrame com base em uma coluna ou colunas especificadas, ordenadas em ordem decrescente.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Criar um DataFrame
Vamos começar criando um DataFrame de amostra para trabalhar. Usaremos o seguinte código para criar um DataFrame com colunas para Nome, Idade, Altura e Peso:
import pandas as pd
df = pd.DataFrame({'Name':['Chetan','yashas','yuvraj','Pooja','Sindu','Renuka'],
'Age':[20,25,30,18,25,20],
'Height':[155,160,175,145,155,165],
'Weight':[75,60,75,45,55,65]})
Este código cria um DataFrame com as colunas e dados especificados.
Usar o Método nlargest()
O método nlargest() nos permite recuperar as N linhas superiores com base em uma coluna especificada. A sintaxe para usar este método é a seguinte:
df.nlargest(n, columns)
né um inteiro que especifica o número de linhas a serem retornadas.columnsé um rótulo (label) ou uma lista de rótulos que representam as colunas para ordenar.
Recuperar as N Linhas Superiores
Vamos usar o método nlargest() para recuperar as 2 linhas superiores com base na coluna 'Altura' ('Height'). Usaremos o seguinte código:
top_n_rows = df.nlargest(2, 'Height')
print(top_n_rows)
Este código retornará um novo DataFrame consistindo nas 2 linhas superiores ordenadas pela coluna 'Altura' ('Height').
Especificar uma Coluna Diferente
Também podemos usar o método nlargest() para recuperar as N linhas superiores com base em uma coluna diferente. Vamos recuperar as 3 linhas superiores com base na coluna 'Idade' ('Age') usando o seguinte código:
top_n_rows = df.nlargest(3, 'Age')
print(top_n_rows)
Este código retornará um novo DataFrame consistindo nas 3 linhas superiores ordenadas pela coluna 'Idade' ('Age').
Especificar o Parâmetro Keep
Podemos especificar o parâmetro keep para priorizar a primeira ou última ocorrência(s) de linhas com valores duplicados. Por padrão, keep é definido como 'first'. Vamos especificar keep='last' ao recuperar as 2 linhas superiores com base na coluna 'Altura' ('Height'):
top_n_rows = df.nlargest(2, 'Height', keep='last')
print(top_n_rows)
Este código retornará um novo DataFrame consistindo nas últimas 2 linhas com os maiores valores na coluna 'Altura' ('Height').
Resumo
Neste laboratório, aprendemos como usar o método nlargest() no DataFrame do Pandas. Podemos usar este método para recuperar as N linhas superiores com base em uma coluna ou colunas especificadas, ordenadas em ordem decrescente. Também podemos especificar o parâmetro keep para priorizar a primeira ou última ocorrência(s) de linhas com valores duplicados. Este método é útil para encontrar rapidamente os maiores ou mais altos valores em um DataFrame com base em critérios específicos.