Introdução e Configuração do Pandas

PandasBeginner
Pratique Agora

Introdução

Bem-vindo ao mundo da análise de dados com Python! Neste laboratório, você será introduzido ao Pandas, a biblioteca open-source mais popular e poderosa para manipulação e análise de dados em Python.

Antes de iniciar este curso, você deve ter habilidades básicas de programação em Python e garantir que o Python esteja devidamente configurado no PATH do seu sistema. Se você ainda não aprendeu Python, pode começar com nosso Caminho de Aprendizagem de Python. Adicionalmente, você deve ter o NumPy instalado, pois ele é um pré-requisito essencial para as operações do Pandas. Se precisar aprender NumPy, você pode explorar nosso Caminho de Aprendizagem de NumPy.

O Pandas fornece estruturas de dados e ferramentas de análise de dados de alto desempenho e fáceis de usar. As duas estruturas de dados primárias do Pandas são Series (1-dimensional) e DataFrame (2-dimensional).

Neste laboratório, você aprenderá o básico absoluto para começar. Você irá:

  • Verificar se o Pandas está instalado em seu ambiente.
  • Importar a biblioteca Pandas para um script Python.
  • Criar seu primeiro objeto Series do Pandas.
  • Acessar dados dentro da Series.
  • Inspecionar propriedades básicas da Series.

Este laboratório é projetado para iniciantes, e nenhum conhecimento prévio de Pandas é necessário. Vamos começar!

Instalar Pandas usando pip

Nesta etapa, verificaremos se o pandas está corretamente instalado no ambiente. O ambiente LabEx já vem com Python e Pandas pré-instalados para economizar seu tempo. Você pode confirmar isso e verificar sua versão.

Para verificar os detalhes de um pacote Python instalado, você pode usar o comando pip show. pip é o instalador de pacotes para Python.

Abra um terminal e execute o seguinte comando para exibir informações sobre o pacote pandas instalado:

pip show pandas
Terminal output showing pandas installation details

Você deverá ver uma saída detalhando o nome do pacote, versão, resumo e localização. A versão deve ser 2.2.2 ou similar.

Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:

Isso confirma que o pandas está pronto para ser usado em seus scripts Python.

Importar Pandas como pd

Nesta etapa, você escreverá sua primeira linha de código Python para importar a biblioteca Pandas. Por convenção, o Pandas é importado com o alias pd. Isso torna o código mais curto e legível.

No explorador de arquivos à esquerda do WebIDE, você verá um arquivo chamado main.py. Este arquivo foi criado para você. Clique nele para abri-lo no editor.

Agora, adicione o seguinte código ao main.py para importar o pandas e imprimir uma mensagem de confirmação:

import pandas as pd

print("Pandas imported successfully!")
  • import pandas as pd: Esta linha instrui o Python a carregar a biblioteca Pandas e dar a ela o alias pd. A partir de agora, você pode acessar funções e objetos do Pandas usando pd..
  • print(...): Esta é uma função padrão do Python para exibir a saída no terminal.
Python code to import pandas and print confirmation

Para executar seu script, vá para o terminal e execute o seguinte comando:

python main.py

Você deverá ver a mensagem de confirmação impressa no terminal:

Pandas imported successfully!

Isso confirma que seu script Python pode importar e usar com sucesso a biblioteca Pandas.

Criar uma Series simples a partir de uma lista

Nesta etapa, você criará sua primeira Series do Pandas. Uma Series é um objeto unidimensional semelhante a um array que pode conter qualquer tipo de dado, como inteiros, strings ou floats. É o bloco de construção fundamental de dados no Pandas.

Você pode criar uma Series passando uma lista Python para o construtor pd.Series().

Modifique seu arquivo main.py. Substitua a instrução print anterior pelo seguinte código para criar e imprimir uma Series:

import pandas as pd

## Uma lista Python de números
data = [10, 20, 30, 40, 50]

## Criar uma Series do Pandas a partir da lista
s = pd.Series(data)

## Imprimir a Series
print(s)

Sugestão: Você pode copiar o código acima para o seu editor de código, depois ler cuidadosamente cada linha de código para entender sua função. Se precisar de mais explicações, você pode clicar no botão "Explain Code" 👆. Você pode interagir com o Labby para obter ajuda personalizada.

  • data = [...]: Primeiro definimos uma lista simples de inteiros em Python.
  • s = pd.Series(data): Chamamos o construtor Series da biblioteca pd (Pandas), passando nossa lista para ele. Isso cria o objeto Series.

Agora, execute o script novamente no terminal:

python main.py

A saída exibirá sua Series. Observe que ela tem duas colunas: o índice à esquerda (0-4) e os valores à direita (10-50). O Pandas cria automaticamente um índice inteiro padrão se nenhum for especificado.

0    10
1    20
2    30
3    40
4    50
dtype: int64

Acessar elementos na Series por índice

Nesta etapa, você aprenderá como acessar elementos individuais ou um subconjunto de elementos da Series que você criou. Acessar dados é uma operação fundamental na análise de dados. Você pode acessar elementos em uma Series usando seu índice, de forma semelhante a como faria com uma lista Python.

Vamos modificar o main.py para acessar e imprimir elementos específicos. Acessaremos o primeiro elemento (no índice 0) e um slice de elementos.

Atualize seu arquivo main.py com o seguinte código. Adicione as novas instruções print após a linha que imprime a série completa.

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

print("The full Series:")
print(s)

## Acessar o primeiro elemento (no índice 0)
print("\nFirst element:", s[0])

## Acessar um slice de elementos (do índice 1 até, mas não incluindo, o 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
  • s[0]: Isso recupera o valor no índice 0, que é 10.
  • s[1:3]: Isso é chamado de slicing. Ele recupera os elementos começando do índice 1 até (mas não incluindo) o índice 3. Isso lhe dará os elementos nos índices 1 e 2.

Execute o script para ver o resultado:

python main.py

Sua saída agora deve mostrar a Series completa, seguida pelos elementos específicos que você acessou.

The full Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64

First element: 10

Elements from index 1 to 2:
1    20
2    30
dtype: int64

Imprimir o tipo de dados e a forma da Series

Nesta etapa, você aprenderá como inspecionar duas propriedades importantes de uma Series: seu tipo de dados (dtype) e sua forma (shape). Compreender esses atributos é crucial para depuração e validação de dados.

  • dtype: Este atributo informa o tipo de dados dos valores armazenados na Series (por exemplo, int64 para inteiros, float64 para números de ponto flutuante, object para strings).
  • shape: Este atributo retorna uma tupla representando as dimensões da Series. Para uma Series, que é unidimensional, será uma tupla com um único valor, (n,), onde n é o número de elementos.

Vamos atualizar o main.py para imprimir esses dois atributos. Adicione as seguintes linhas ao final do seu script:

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

## ... (as instruções de impressão anteriores podem ser removidas ou mantidas)

## Imprimir o tipo de dados da Series
print("\nData type:", s.dtype)

## Imprimir a forma da Series
print("Shape:", s.shape)

Agora, execute o script pela última vez:

python main.py

A saída agora incluirá o tipo de dados e a forma da sua Series.

Data type: int64
Shape: (5,)

Isso informa que sua Series contém inteiros de 64 bits e possui 5 elementos.

Resumo

Parabéns! Você concluiu com sucesso este laboratório introdutório sobre Pandas.

Neste laboratório, você aprendeu os primeiros passos fundamentais para trabalhar com esta poderosa biblioteca. Você:

  • Verificou a instalação do pandas em seu ambiente.
  • Importou a biblioteca pandas em um script Python usando o alias padrão pd.
  • Criou uma Series unidimensional básica a partir de uma lista Python.
  • Acessou elementos da Series usando indexação e slicing.
  • Inspecionou os atributos dtype e shape para entender a estrutura e o tipo de dados da Series.

Estes são os blocos de construção essenciais que você precisará ao passar para estruturas de dados mais complexas, como DataFrame, e realizar tarefas de análise de dados mais avançadas. Continue praticando!