Dados Textuais com Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, exploraremos como manipular dados textuais usando a biblioteca Pandas do Python. Você aprenderá como converter caracteres de string para minúsculas, extrair partes de strings, substituir valores de string e muito mais, utilizando vários métodos embutidos do Pandas.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido às limitações do Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Este é um Lab Guiado, que fornece instruções passo a passo para ajudá-lo a aprender e praticar. Siga as instruções cuidadosamente para completar cada etapa e ganhar experiência prática. Dados históricos mostram que este é um laboratório de nível iniciante com uma taxa de conclusão de 98%. Recebeu uma taxa de avaliações positivas de 100% dos estudantes.

Importar as Bibliotecas e Dados Necessários

Vamos começar importando a biblioteca Pandas e carregando os dados que usaremos para este tutorial.

## Importar as bibliotecas necessárias
import pandas as pd

## Carregar os dados
titanic = pd.read_csv("data/titanic.csv")

Converter Caracteres de String para Minúsculas

Em seguida, converteremos todos os caracteres na coluna Name para minúsculas. Usaremos o método str.lower() para conseguir isso.

## Converter todos os caracteres na coluna 'Name' para minúsculas
titanic["Name"] = titanic["Name"].str.lower()

Extrair Sobrenomes dos Nomes Completos

Agora, vamos criar uma nova coluna Surname que contém o sobrenome dos passageiros. Faremos isso extraindo a parte antes da vírgula na coluna Name.

## Dividir a coluna 'Name' na vírgula e extrair a primeira parte
titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)

Extrair Dados Específicos dos Passageiros

Em seguida, vamos extrair os dados dos passageiros para as condessas a bordo do Titanic. Usaremos o método str.contains() para encontrar as linhas onde a coluna Name contém a palavra 'Countess'.

## Encontrar linhas onde 'Name' contém 'Countess'
countesses = titanic[titanic["Name"].str.contains("Countess")]

Encontrar o Nome Mais Longo

Vamos descobrir qual passageiro do Titanic tem o nome mais longo. Usaremos o método str.len() para obter o comprimento de cada nome e o método idxmax() para encontrar o índice do nome mais longo.

## Obter o comprimento de cada nome
name_lengths = titanic["Name"].str.len()

## Encontrar o índice do nome mais longo
longest_name_index = name_lengths.idxmax()

## Obter o nome mais longo
longest_name = titanic.loc[longest_name_index, "Name"]

Substituir Valores em uma Coluna

Finalmente, vamos substituir os valores na coluna Sex: 'male' por 'M' e 'female' por 'F'. Usaremos o método replace() para isso.

## Substituir 'male' por 'M' e 'female' por 'F' na coluna 'Sex'
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})

Resumo

Neste laboratório, vimos como manipular dados textuais usando a biblioteca Pandas do Python. Aprendemos como converter caracteres de string para minúsculas, extrair partes de strings, encontrar linhas específicas com base no conteúdo da string, encontrar a string mais longa e substituir valores de string. Este conhecimento é muito útil no pré-processamento de dados, uma etapa crucial na análise de dados e no aprendizado de máquina.