Introdução
Bem-vindo ao mundo da análise de dados com Python! Neste laboratório, você será introduzido ao Pandas, a biblioteca open-source mais popular e poderosa para manipulação e análise de dados em Python.
Antes de iniciar este curso, você deve ter habilidades básicas de programação em Python e garantir que o Python esteja devidamente configurado no PATH do seu sistema. Se você ainda não aprendeu Python, pode começar com nosso Caminho de Aprendizagem de Python. Adicionalmente, você deve ter o NumPy instalado, pois ele é um pré-requisito essencial para as operações do Pandas. Se precisar aprender NumPy, você pode explorar nosso Caminho de Aprendizagem de NumPy.
O Pandas fornece estruturas de dados e ferramentas de análise de dados de alto desempenho e fáceis de usar. As duas estruturas de dados primárias do Pandas são Series (1-dimensional) e DataFrame (2-dimensional).
Neste laboratório, você aprenderá o básico absoluto para começar. Você irá:
- Verificar se o Pandas está instalado em seu ambiente.
- Importar a biblioteca Pandas para um script Python.
- Criar seu primeiro objeto
Seriesdo Pandas. - Acessar dados dentro da
Series. - Inspecionar propriedades básicas da
Series.
Este laboratório é projetado para iniciantes, e nenhum conhecimento prévio de Pandas é necessário. Vamos começar!
Instalar Pandas usando pip
Nesta etapa, verificaremos se o pandas está corretamente instalado no ambiente. O ambiente LabEx já vem com Python e Pandas pré-instalados para economizar seu tempo. Você pode confirmar isso e verificar sua versão.
Para verificar os detalhes de um pacote Python instalado, você pode usar o comando pip show. pip é o instalador de pacotes para Python.
Abra um terminal e execute o seguinte comando para exibir informações sobre o pacote pandas instalado:
pip show pandas

Você deverá ver uma saída detalhando o nome do pacote, versão, resumo e localização. A versão deve ser 2.2.2 ou similar.
Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:
Isso confirma que o pandas está pronto para ser usado em seus scripts Python.
Importar Pandas como pd
Nesta etapa, você escreverá sua primeira linha de código Python para importar a biblioteca Pandas. Por convenção, o Pandas é importado com o alias pd. Isso torna o código mais curto e legível.
No explorador de arquivos à esquerda do WebIDE, você verá um arquivo chamado main.py. Este arquivo foi criado para você. Clique nele para abri-lo no editor.
Agora, adicione o seguinte código ao main.py para importar o pandas e imprimir uma mensagem de confirmação:
import pandas as pd
print("Pandas imported successfully!")
import pandas as pd: Esta linha instrui o Python a carregar a biblioteca Pandas e dar a ela o aliaspd. A partir de agora, você pode acessar funções e objetos do Pandas usandopd..print(...): Esta é uma função padrão do Python para exibir a saída no terminal.

Para executar seu script, vá para o terminal e execute o seguinte comando:
python main.py
Você deverá ver a mensagem de confirmação impressa no terminal:
Pandas imported successfully!
Isso confirma que seu script Python pode importar e usar com sucesso a biblioteca Pandas.
Criar uma Series simples a partir de uma lista
Nesta etapa, você criará sua primeira Series do Pandas. Uma Series é um objeto unidimensional semelhante a um array que pode conter qualquer tipo de dado, como inteiros, strings ou floats. É o bloco de construção fundamental de dados no Pandas.
Você pode criar uma Series passando uma lista Python para o construtor pd.Series().
Modifique seu arquivo main.py. Substitua a instrução print anterior pelo seguinte código para criar e imprimir uma Series:
import pandas as pd
## Uma lista Python de números
data = [10, 20, 30, 40, 50]
## Criar uma Series do Pandas a partir da lista
s = pd.Series(data)
## Imprimir a Series
print(s)
Sugestão: Você pode copiar o código acima para o seu editor de código, depois ler cuidadosamente cada linha de código para entender sua função. Se precisar de mais explicações, você pode clicar no botão "Explain Code" 👆. Você pode interagir com o Labby para obter ajuda personalizada.
data = [...]: Primeiro definimos uma lista simples de inteiros em Python.s = pd.Series(data): Chamamos o construtorSeriesda bibliotecapd(Pandas), passando nossa lista para ele. Isso cria o objetoSeries.
Agora, execute o script novamente no terminal:
python main.py
A saída exibirá sua Series. Observe que ela tem duas colunas: o índice à esquerda (0-4) e os valores à direita (10-50). O Pandas cria automaticamente um índice inteiro padrão se nenhum for especificado.
0 10
1 20
2 30
3 40
4 50
dtype: int64
Acessar elementos na Series por índice
Nesta etapa, você aprenderá como acessar elementos individuais ou um subconjunto de elementos da Series que você criou. Acessar dados é uma operação fundamental na análise de dados. Você pode acessar elementos em uma Series usando seu índice, de forma semelhante a como faria com uma lista Python.
Vamos modificar o main.py para acessar e imprimir elementos específicos. Acessaremos o primeiro elemento (no índice 0) e um slice de elementos.
Atualize seu arquivo main.py com o seguinte código. Adicione as novas instruções print após a linha que imprime a série completa.
import pandas as pd
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print("The full Series:")
print(s)
## Acessar o primeiro elemento (no índice 0)
print("\nFirst element:", s[0])
## Acessar um slice de elementos (do índice 1 até, mas não incluindo, o 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
s[0]: Isso recupera o valor no índice0, que é10.s[1:3]: Isso é chamado de slicing. Ele recupera os elementos começando do índice1até (mas não incluindo) o índice3. Isso lhe dará os elementos nos índices1e2.
Execute o script para ver o resultado:
python main.py
Sua saída agora deve mostrar a Series completa, seguida pelos elementos específicos que você acessou.
The full Series:
0 10
1 20
2 30
3 40
4 50
dtype: int64
First element: 10
Elements from index 1 to 2:
1 20
2 30
dtype: int64
Imprimir o tipo de dados e a forma da Series
Nesta etapa, você aprenderá como inspecionar duas propriedades importantes de uma Series: seu tipo de dados (dtype) e sua forma (shape). Compreender esses atributos é crucial para depuração e validação de dados.
dtype: Este atributo informa o tipo de dados dos valores armazenados naSeries(por exemplo,int64para inteiros,float64para números de ponto flutuante,objectpara strings).shape: Este atributo retorna uma tupla representando as dimensões daSeries. Para umaSeries, que é unidimensional, será uma tupla com um único valor,(n,), ondené o número de elementos.
Vamos atualizar o main.py para imprimir esses dois atributos. Adicione as seguintes linhas ao final do seu script:
import pandas as pd
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
## ... (as instruções de impressão anteriores podem ser removidas ou mantidas)
## Imprimir o tipo de dados da Series
print("\nData type:", s.dtype)
## Imprimir a forma da Series
print("Shape:", s.shape)
Agora, execute o script pela última vez:
python main.py
A saída agora incluirá o tipo de dados e a forma da sua Series.
Data type: int64
Shape: (5,)
Isso informa que sua Series contém inteiros de 64 bits e possui 5 elementos.
Resumo
Parabéns! Você concluiu com sucesso este laboratório introdutório sobre Pandas.
Neste laboratório, você aprendeu os primeiros passos fundamentais para trabalhar com esta poderosa biblioteca. Você:
- Verificou a instalação do
pandasem seu ambiente. - Importou a biblioteca
pandasem um script Python usando o alias padrãopd. - Criou uma
Seriesunidimensional básica a partir de uma lista Python. - Acessou elementos da
Seriesusando indexação e slicing. - Inspecionou os atributos
dtypeeshapepara entender a estrutura e o tipo de dados daSeries.
Estes são os blocos de construção essenciais que você precisará ao passar para estruturas de dados mais complexas, como DataFrame, e realizar tarefas de análise de dados mais avançadas. Continue praticando!



