Selección de datos en Pandas

PythonPythonBeginner
Practicar Ahora

This tutorial is from open-source community. Access the source code

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este laboratorio, aprenderemos a seleccionar datos específicos de un DataFrame utilizando Pandas, una popular biblioteca de análisis y manipulación de datos en Python. Utilizaremos el conjunto de datos Titanic para este tutorial.

Consejos sobre la VM

Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importando las bibliotecas y datos necesarios

Primero, necesitamos importar la biblioteca Pandas y el conjunto de datos Titanic.

## Import pandas library
import pandas as pd

## Load the Titanic dataset
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Seleccionando una sola columna

Para seleccionar una sola columna, use los corchetes [] con el nombre de la columna de interés.

## Select the 'Age' column
ages = titanic["Age"]

## Display the first 5 rows
ages.head()

Seleccionando múltiples columnas

Para seleccionar múltiples columnas, use una lista de nombres de columnas dentro de los corchetes de selección [].

## Select the 'Age' and 'Sex' columns
age_sex = titanic[["Age", "Sex"]]

## Display the first 5 rows
age_sex.head()

Filtrando filas específicas

Para seleccionar filas basadas en una expresión condicional, use la condición dentro de los corchetes de selección [].

## Filter rows where 'Age' is greater than 35
above_35 = titanic[titanic["Age"] > 35]

## Display the first 5 rows
above_35.head()

Seleccionando filas y columnas específicas

Para seleccionar filas y columnas a la vez, usamos los operadores loc o iloc.

## Select 'Name' of passengers older than 35
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## Display the first 5 rows
adult_names.head()

Resumen

En este laboratorio, hemos aprendido cómo seleccionar y filtrar datos de un DataFrame en Pandas. Hemos aprendido cómo seleccionar una sola o múltiples columnas, filtrar filas basadas en ciertas condiciones y seleccionar filas y columnas específicas. Estas operaciones son fundamentales en el análisis y manipulación de datos con Pandas.