Método nlargest() do DataFrame Pandas | Análise de Dados

Introdução

Neste laboratório, exploraremos o método nlargest() no DataFrame do Pandas. Este método nos permite recuperar as N linhas superiores de um DataFrame com base em uma coluna ou colunas especificadas, ordenadas em ordem decrescente.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Criar um DataFrame

Vamos começar criando um DataFrame de amostra para trabalhar. Usaremos o seguinte código para criar um DataFrame com colunas para Nome, Idade, Altura e Peso:

import pandas as pd

df = pd.DataFrame({'Name':['Chetan','yashas','yuvraj','Pooja','Sindu','Renuka'],
                   'Age':[20,25,30,18,25,20],
                   'Height':[155,160,175,145,155,165],
                   'Weight':[75,60,75,45,55,65]})

Este código cria um DataFrame com as colunas e dados especificados.

Usar o Método nlargest()

O método nlargest() nos permite recuperar as N linhas superiores com base em uma coluna especificada. A sintaxe para usar este método é a seguinte:

df.nlargest(n, columns)

n é um inteiro que especifica o número de linhas a serem retornadas.
columns é um rótulo (label) ou uma lista de rótulos que representam as colunas para ordenar.

Recuperar as N Linhas Superiores

Vamos usar o método nlargest() para recuperar as 2 linhas superiores com base na coluna 'Altura' ('Height'). Usaremos o seguinte código:

top_n_rows = df.nlargest(2, 'Height')
print(top_n_rows)

Este código retornará um novo DataFrame consistindo nas 2 linhas superiores ordenadas pela coluna 'Altura' ('Height').

Especificar uma Coluna Diferente

Também podemos usar o método nlargest() para recuperar as N linhas superiores com base em uma coluna diferente. Vamos recuperar as 3 linhas superiores com base na coluna 'Idade' ('Age') usando o seguinte código:

top_n_rows = df.nlargest(3, 'Age')
print(top_n_rows)

Este código retornará um novo DataFrame consistindo nas 3 linhas superiores ordenadas pela coluna 'Idade' ('Age').

Especificar o Parâmetro Keep

Podemos especificar o parâmetro keep para priorizar a primeira ou última ocorrência(s) de linhas com valores duplicados. Por padrão, keep é definido como 'first'. Vamos especificar keep='last' ao recuperar as 2 linhas superiores com base na coluna 'Altura' ('Height'):

top_n_rows = df.nlargest(2, 'Height', keep='last')
print(top_n_rows)

Este código retornará um novo DataFrame consistindo nas últimas 2 linhas com os maiores valores na coluna 'Altura' ('Height').

Resumo

Neste laboratório, aprendemos como usar o método nlargest() no DataFrame do Pandas. Podemos usar este método para recuperar as N linhas superiores com base em uma coluna ou colunas especificadas, ordenadas em ordem decrescente. Também podemos especificar o parâmetro keep para priorizar a primeira ou última ocorrência(s) de linhas com valores duplicados. Este método é útil para encontrar rapidamente os maiores ou mais altos valores em um DataFrame com base em critérios específicos.

Método nlargest do DataFrame Pandas