Introdução
Neste laboratório, você aprenderá como usar o método describe() na biblioteca Pandas para gerar estatísticas descritivas para um DataFrame. O método describe() calcula várias medidas estatísticas, como contagem (count), média (mean), desvio padrão (standard deviation), mínimo (minimum), máximo (maximum) e percentis (percentiles) para colunas numéricas. Ele também fornece estatísticas de resumo para colunas com tipos de dados object.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as bibliotecas necessárias e criar um DataFrame
Primeiramente, importe a biblioteca Pandas usando a palavra-chave import. Crie um DataFrame usando o método pd.DataFrame() com dados de exemplo.
import pandas as pd
## Create a DataFrame
df = pd.DataFrame([['Abhishek', 100, 'Science', 90],
['Anurag', 101, 'Science', 85],
['Chetan', 103, 'Maths', 75]],
columns=['Name', 'Roll No', 'Subject', 'Marks'])
Descrever o DataFrame usando o método describe()
Para descrever o DataFrame, use o método describe() no objeto DataFrame.
## Describe the DataFrame
description = df.describe()
## Print the description
print(description)
Descrever todas as colunas do DataFrame
Para descrever todas as colunas do DataFrame, incluindo tanto tipos de dados numéricos quanto de objeto, use o parâmetro include='all' no método describe().
## Describe all columns of the DataFrame
description_all_columns = df.describe(include='all')
## Print the description of all columns
print(description_all_columns)
Descrever uma coluna específica do DataFrame
Para descrever uma coluna específica do DataFrame, acesse-a como um atributo e use o método describe().
## Describe a specific column of the DataFrame
marks_description = df.Marks.describe()
## Print the description of the 'Marks' column
print(marks_description)
Excluir colunas numéricas da descrição
Para excluir colunas numéricas da descrição, use o parâmetro exclude=np.number no método describe().
import numpy as np
## Exclude numeric columns from the description
description_exclude_numeric = df.describe(exclude=np.number)
## Print the description excluding numeric columns
print(description_exclude_numeric)
Descrever um DataFrame com valores None
Para descrever um DataFrame que contém valores None, o método describe() irá tratá-los apropriadamente.
## Create a DataFrame with None values
df_with_none = pd.DataFrame([['Abhishek', 101, 'Science', None],
['Anurag', None, 'Science', 85],
['Chetan', None, 'Maths', 75]],
columns=['Name', 'Roll No', 'Subject', 'Marks'])
## Describe the DataFrame with None values
description_with_none = df_with_none.describe()
## Print the description of the DataFrame with None values
print(description_with_none)
Resumo
Parabéns! Neste laboratório, você aprendeu como usar o método describe() no Pandas para gerar estatísticas descritivas para um DataFrame. Você pode usar este método para obter informações valiosas sobre a tendência central, dispersão e forma da distribuição de um conjunto de dados. O método describe() é uma ferramenta poderosa para análise e exploração de dados. Boa codificação!