Introdução
Neste laboratório, exploraremos como manipular dados textuais usando a biblioteca Pandas do Python. Você aprenderá como converter caracteres de string para minúsculas, extrair partes de strings, substituir valores de string e muito mais, utilizando vários métodos embutidos do Pandas.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido às limitações do Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as Bibliotecas e Dados Necessários
Vamos começar importando a biblioteca Pandas e carregando os dados que usaremos para este tutorial.
## Importar as bibliotecas necessárias
import pandas as pd
## Carregar os dados
titanic = pd.read_csv("data/titanic.csv")
Converter Caracteres de String para Minúsculas
Em seguida, converteremos todos os caracteres na coluna Name para minúsculas. Usaremos o método str.lower() para conseguir isso.
## Converter todos os caracteres na coluna 'Name' para minúsculas
titanic["Name"] = titanic["Name"].str.lower()
Extrair Sobrenomes dos Nomes Completos
Agora, vamos criar uma nova coluna Surname que contém o sobrenome dos passageiros. Faremos isso extraindo a parte antes da vírgula na coluna Name.
## Dividir a coluna 'Name' na vírgula e extrair a primeira parte
titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)
Extrair Dados Específicos dos Passageiros
Em seguida, vamos extrair os dados dos passageiros para as condessas a bordo do Titanic. Usaremos o método str.contains() para encontrar as linhas onde a coluna Name contém a palavra 'Countess'.
## Encontrar linhas onde 'Name' contém 'Countess'
countesses = titanic[titanic["Name"].str.contains("Countess")]
Encontrar o Nome Mais Longo
Vamos descobrir qual passageiro do Titanic tem o nome mais longo. Usaremos o método str.len() para obter o comprimento de cada nome e o método idxmax() para encontrar o índice do nome mais longo.
## Obter o comprimento de cada nome
name_lengths = titanic["Name"].str.len()
## Encontrar o índice do nome mais longo
longest_name_index = name_lengths.idxmax()
## Obter o nome mais longo
longest_name = titanic.loc[longest_name_index, "Name"]
Substituir Valores em uma Coluna
Finalmente, vamos substituir os valores na coluna Sex: 'male' por 'M' e 'female' por 'F'. Usaremos o método replace() para isso.
## Substituir 'male' por 'M' e 'female' por 'F' na coluna 'Sex'
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})
Resumo
Neste laboratório, vimos como manipular dados textuais usando a biblioteca Pandas do Python. Aprendemos como converter caracteres de string para minúsculas, extrair partes de strings, encontrar linhas específicas com base no conteúdo da string, encontrar a string mais longa e substituir valores de string. Este conhecimento é muito útil no pré-processamento de dados, uma etapa crucial na análise de dados e no aprendizado de máquina.