Selección de datos en Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introducción

En este laboratorio, aprenderemos a seleccionar datos específicos de un DataFrame utilizando Pandas, una popular biblioteca de análisis y manipulación de datos en Python. Utilizaremos el conjunto de datos Titanic para este tutorial.

Consejos sobre la VM

Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Este es un Guided Lab, que proporciona instrucciones paso a paso para ayudarte a aprender y practicar. Sigue las instrucciones cuidadosamente para completar cada paso y obtener experiencia práctica. Los datos históricos muestran que este es un laboratorio de nivel principiante con una tasa de finalización del 98%. Ha recibido una tasa de reseñas positivas del 100% por parte de los estudiantes.

Importando las bibliotecas y datos necesarios

Primero, necesitamos importar la biblioteca Pandas y el conjunto de datos Titanic.

## Import pandas library
import pandas as pd

## Load the Titanic dataset
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Seleccionando una sola columna

Para seleccionar una sola columna, use los corchetes [] con el nombre de la columna de interés.

## Select the 'Age' column
ages = titanic["Age"]

## Display the first 5 rows
ages.head()

Seleccionando múltiples columnas

Para seleccionar múltiples columnas, use una lista de nombres de columnas dentro de los corchetes de selección [].

## Select the 'Age' and 'Sex' columns
age_sex = titanic[["Age", "Sex"]]

## Display the first 5 rows
age_sex.head()

Filtrando filas específicas

Para seleccionar filas basadas en una expresión condicional, use la condición dentro de los corchetes de selección [].

## Filter rows where 'Age' is greater than 35
above_35 = titanic[titanic["Age"] > 35]

## Display the first 5 rows
above_35.head()

Seleccionando filas y columnas específicas

Para seleccionar filas y columnas a la vez, usamos los operadores loc o iloc.

## Select 'Name' of passengers older than 35
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## Display the first 5 rows
adult_names.head()

Resumen

En este laboratorio, hemos aprendido cómo seleccionar y filtrar datos de un DataFrame en Pandas. Hemos aprendido cómo seleccionar una sola o múltiples columnas, filtrar filas basadas en ciertas condiciones y seleccionar filas y columnas específicas. Estas operaciones son fundamentales en el análisis y manipulación de datos con Pandas.