Manipulación de datos textuales de Pandas

Introducción

En este laboratorio, exploraremos cómo manipular datos textuales utilizando la biblioteca Pandas de Python. Aprenderá cómo convertir caracteres de cadena a minúsculas, extraer partes de cadenas, reemplazar valores de cadena y más utilizando varios métodos integrados de Pandas.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de operaciones no puede automatizarse debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Este es un Guided Lab, que proporciona instrucciones paso a paso para ayudarte a aprender y practicar. Sigue las instrucciones cuidadosamente para completar cada paso y obtener experiencia práctica. Los datos históricos muestran que este es un laboratorio de nivel principiante con una tasa de finalización del 98%. Ha recibido una tasa de reseñas positivas del 100% por parte de los estudiantes.

Importar las bibliotecas y datos necesarios

Comencemos importando la biblioteca Pandas y cargando los datos que usaremos para este tutorial.

## Importar las bibliotecas necesarias
import pandas as pd

## Cargar los datos
titanic = pd.read_csv("data/titanic.csv")

Convertir los caracteres de cadena a minúsculas

A continuación, convertiremos todos los caracteres de la columna Name a minúsculas. Utilizaremos el método str.lower() para lograr esto.

## Convertir todos los caracteres de la columna 'Name' a minúsculas
titanic["Name"] = titanic["Name"].str.lower()

Extraer los apellidos de los nombres completos

Ahora, creemos una nueva columna Apellido que contenga el apellido de los pasajeros. Lo haremos extrayendo la parte antes de la coma en la columna Nombre.

## Dividir la columna 'Nombre' por coma y extraer la primera parte
titanic["Apellido"] = titanic["Nombre"].str.split(",").str.get(0)

Extraer datos específicos de los pasajeros

A continuación, extraigamos los datos de los pasajeros que eran condesas a bordo del Titanic. Utilizaremos el método str.contains() para encontrar las filas en las que la columna Nombre contiene la palabra 'Condesa'.

## Encontrar las filas donde 'Nombre' contiene 'Condesa'
condesas = titanic[titanic["Nombre"].str.contains("Condesa")]

Encontrar el nombre más largo

Vamos a averiguar cuál pasajero del Titanic tiene el nombre más largo. Utilizaremos el método str.len() para obtener la longitud de cada nombre y el método idxmax() para encontrar el índice del nombre más largo.

## Obtener la longitud de cada nombre
longitudes_nombres = titanic["Nombre"].str.len()

## Encontrar el índice del nombre más largo
índice_nombre_más_largo = longitudes_nombres.idxmax()

## Obtener el nombre más largo
nombre_más_largo = titanic.loc[índice_nombre_más_largo, "Nombre"]

Reemplazar valores en una columna

Finalmente, reemplazemos los valores en la columna Sexo: 'hombre' con 'M' y'mujer' con 'F'. Utilizaremos el método replace() para esto.

## Reemplazar 'hombre' con 'M' y'mujer' con 'F' en la columna 'Sexo'
titanic["Sexo_corto"] = titanic["Sexo"].replace({"hombre": "M", "mujer": "F"})

Resumen

En este laboratorio, hemos visto cómo manipular datos textuales utilizando la biblioteca Pandas de Python. Hemos aprendido cómo convertir los caracteres de una cadena a minúsculas, extraer partes de cadenas, encontrar filas específicas basadas en el contenido de una cadena, encontrar la cadena más larga y reemplazar valores de cadena. Este conocimiento es muy útil en el preprocesamiento de datos, un paso crucial en el análisis de datos y el aprendizaje automático.

Datos textuales de Pandas