Introdução
Este laboratório irá guiá-lo sobre como ler, escrever e manipular dados usando Pandas, uma poderosa biblioteca de análise e manipulação de dados para Python. Usaremos um conjunto de dados do naufrágio do Titanic para este exercício.
Dicas da VM (Máquina Virtual)
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importando as Bibliotecas Necessárias
Primeiramente, precisamos importar as bibliotecas necessárias para nossa tarefa. Para este laboratório, precisaremos apenas do pandas.
## Importando a biblioteca pandas
import pandas as pd
Lendo Dados de CSV
O próximo passo é ler os dados de um arquivo CSV. Usaremos a função read_csv do pandas para fazer isso.
## Lendo dados do arquivo CSV
titanic = pd.read_csv("data/titanic.csv")
Verificando os Dados
Após ler os dados, é sempre uma boa ideia verificar como eles se parecem. Exibiremos as primeiras linhas do DataFrame.
## Exibindo as primeiras linhas do DataFrame
titanic.head()
Verificando os Tipos de Dados
Podemos verificar os tipos de dados de cada coluna usando o atributo dtypes do DataFrame.
## Verificando os tipos de dados de cada coluna
titanic.dtypes
Escrevendo Dados para o Excel
Você também pode escrever os dados para um arquivo Excel usando o método to_excel. Vamos salvar nosso DataFrame em um arquivo Excel.
## Salvando o DataFrame em um arquivo Excel
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)
Lendo Dados do Excel
Ler dados de um arquivo Excel é tão fácil quanto ler dados de um arquivo CSV. Usaremos a função read_excel do pandas.
## Lendo dados de um arquivo Excel
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")
Verificando Informações do DataFrame
O método info fornece um resumo técnico de um DataFrame. Isso pode ser útil para verificar os tipos de dados, o número de valores não nulos e o uso de memória.
## Verificando informações do DataFrame
titanic.info()
Resumo
Neste laboratório, aprendemos como ler e escrever dados usando pandas e como verificar as informações de um DataFrame. Pandas oferece uma ampla gama de funcionalidades para lidar e manipular dados, tornando-o uma ferramenta poderosa para análise de dados.