Trabajando con estructuras de datos en Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introducción

Pandas es una poderosa biblioteca de Python para la manipulación y análisis de datos. Sus estructuras de datos fundamentales, Series y DataFrame, te permiten almacenar y manipular datos estructurados. Esta práctica te proporcionará una guía paso a paso sobre cómo trabajar con estas estructuras de datos, desde la creación hasta la manipulación y el alineamiento.

Consejos sobre la VM

Una vez finalizado el arranque de la VM, haz clic en la esquina superior izquierda para cambiar a la pestaña Notebook y acceder a Jupyter Notebook para practicar.

A veces, es posible que tengas que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tienes problemas durante el aprendizaje, no dudes en preguntar a Labby. Proporciona retroalimentación después de la sesión y resolveremos rápidamente el problema para ti.

Importando las bibliotecas necesarias

Antes de comenzar, importemos las bibliotecas necesarias. Para esta práctica necesitaremos NumPy y pandas.

## Import necessary libraries
import numpy as np
import pandas as pd

Creando una Serie

La primera estructura de datos que vamos a analizar es una Serie, que es una matriz etiquetada unidimensional. Puede contener cualquier tipo de datos, incluyendo enteros, cadenas, números de punto flotante y objetos de Python.

## Create a Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

Creando un DataFrame

La otra estructura de datos fundamental es el DataFrame. Es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes.

## Create a DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))

Manipulando columnas de DataFrame

Puedes realizar diversas operaciones en las columnas de un DataFrame. Por ejemplo, puedes seleccionar una columna, agregar una nueva columna o eliminar una columna.

## Select column A
df['A']

## Add a new column E
df['E'] = pd.Series(np.random.randn(6), index=df.index)

## Delete column B
del df['B']

Alineamiento de datos y aritmética

El alineamiento de datos es una característica importante de pandas. Cuando realizas operaciones en dos objetos, pandas los alinea por sus etiquetas asociadas.

## Create two DataFrames
df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])

## Perform addition operation
result = df1 + df2

Trabajando con funciones de NumPy

La mayoría de las funciones de NumPy se pueden llamar directamente en objetos Series y DataFrame, lo que proporciona gran flexibilidad para la manipulación y análisis de datos.

## Apply the exponential function to a DataFrame
np.exp(df)

Resumen

En este laboratorio, hemos aprendido sobre las dos estructuras de datos fundamentales en pandas: Series y DataFrame. Hemos visto cómo crear y manipular estas estructuras, y cómo usar directamente funciones de NumPy en ellas. También hemos explorado el concepto de alineamiento de datos, que es una característica poderosa de pandas que permite una manipulación y análisis de datos intuitivos.