Método Describe do DataFrame Pandas

Beginner

Introdução

Neste laboratório, você aprenderá como usar o método describe() na biblioteca Pandas para gerar estatísticas descritivas para um DataFrame. O método describe() calcula várias medidas estatísticas, como contagem (count), média (mean), desvio padrão (standard deviation), mínimo (minimum), máximo (maximum) e percentis (percentiles) para colunas numéricas. Ele também fornece estatísticas de resumo para colunas com tipos de dados object.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importar as bibliotecas necessárias e criar um DataFrame

Primeiramente, importe a biblioteca Pandas usando a palavra-chave import. Crie um DataFrame usando o método pd.DataFrame() com dados de exemplo.

import pandas as pd

## Create a DataFrame
df = pd.DataFrame([['Abhishek', 100, 'Science', 90],
                   ['Anurag', 101, 'Science', 85],
                   ['Chetan', 103, 'Maths', 75]],
                  columns=['Name', 'Roll No', 'Subject', 'Marks'])

Descrever o DataFrame usando o método describe()

Para descrever o DataFrame, use o método describe() no objeto DataFrame.

## Describe the DataFrame
description = df.describe()

## Print the description
print(description)

Descrever todas as colunas do DataFrame

Para descrever todas as colunas do DataFrame, incluindo tanto tipos de dados numéricos quanto de objeto, use o parâmetro include='all' no método describe().

## Describe all columns of the DataFrame
description_all_columns = df.describe(include='all')

## Print the description of all columns
print(description_all_columns)

Descrever uma coluna específica do DataFrame

Para descrever uma coluna específica do DataFrame, acesse-a como um atributo e use o método describe().

## Describe a specific column of the DataFrame
marks_description = df.Marks.describe()

## Print the description of the 'Marks' column
print(marks_description)

Excluir colunas numéricas da descrição

Para excluir colunas numéricas da descrição, use o parâmetro exclude=np.number no método describe().

import numpy as np

## Exclude numeric columns from the description
description_exclude_numeric = df.describe(exclude=np.number)

## Print the description excluding numeric columns
print(description_exclude_numeric)

Descrever um DataFrame com valores None

Para descrever um DataFrame que contém valores None, o método describe() irá tratá-los apropriadamente.

## Create a DataFrame with None values
df_with_none = pd.DataFrame([['Abhishek', 101, 'Science', None],
                             ['Anurag', None, 'Science', 85],
                             ['Chetan', None, 'Maths', 75]],
                            columns=['Name', 'Roll No', 'Subject', 'Marks'])

## Describe the DataFrame with None values
description_with_none = df_with_none.describe()

## Print the description of the DataFrame with None values
print(description_with_none)

Resumo

Parabéns! Neste laboratório, você aprendeu como usar o método describe() no Pandas para gerar estatísticas descritivas para um DataFrame. Você pode usar este método para obter informações valiosas sobre a tendência central, dispersão e forma da distribuição de um conjunto de dados. O método describe() é uma ferramenta poderosa para análise e exploração de dados. Boa codificação!