Introducción a Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introducción

En este laboratorio, te presentaremos los conceptos básicos de pandas, una poderosa biblioteca de manipulación de datos en Python. Te guiaremos a través de varias tareas, como la importación de pandas, la creación y visualización de datos, la selección de datos, las operaciones y mucho más.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haz clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tengas que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no puede automatizarse debido a las limitaciones de Jupyter Notebook.

Si tienes problemas durante el aprendizaje, no dudes en preguntar a Labby. Proporciona retroalimentación después de la sesión y resolveremos rápidamente el problema para ti.

Este es un Guided Lab, que proporciona instrucciones paso a paso para ayudarte a aprender y practicar. Sigue las instrucciones cuidadosamente para completar cada paso y obtener experiencia práctica. Los datos históricos muestran que este es un laboratorio de nivel principiante con una tasa de finalización del 83%. Ha recibido una tasa de reseñas positivas del 100% por parte de los estudiantes.

Importando Pandas y Numpy

Primero, necesitamos importar los paquetes de pandas y numpy. Pandas es una poderosa biblioteca de manipulación de datos y numpy se utiliza para operaciones matemáticas.

## Importando las bibliotecas necesarias
import numpy as np
import pandas as pd

Creando Objetos

Vamos a crear una Series pasando una lista de valores y pandas creará un índice entero predeterminado.

## Creando una serie de pandas
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Creando Dataframes

Podemos crear un DataFrame pasando una matriz de numpy, con un índice de fecha y hora y columnas etiquetadas.

## Creando un dataframe de pandas
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Visualizando Datos

Podemos visualizar las primeras y últimas filas del dataframe utilizando los métodos head() y tail() respectivamente.

## Visualizando las primeras filas
df.head()

## Visualizando las últimas filas
df.tail(3)

Selección de Datos

Podemos seleccionar datos utilizando etiquetas o por posición.

## Seleccionando una sola columna
df["A"]

## Seleccionando por posición
df.iloc[3]

Operaciones con Datos

Podemos realizar operaciones en los dataframes, como ordenar, aplicar funciones, etc.

## Ordenando por un eje
df.sort_index(axis=1, ascending=False)

## Aplicando una función a los datos
df.apply(np.cumsum)

Manejo de Datos Faltantes

Pandas proporciona métodos para manejar datos faltantes en el dataframe.

## Rellenando datos faltantes
df.fillna(value=5)

## Obteniendo la máscara booleana donde los valores son nan
pd.isna(df)

Graficando Datos

Pandas utiliza matplotlib para graficar datos.

## Graficando datos
df.plot()

Guardando y Cargando Datos

Pandas proporciona métodos para guardar y cargar datos en varios formatos, como csv, excel, hdf5, etc.

## Guardando datos en un archivo csv
df.to_csv("foo.csv")

## Cargando datos desde un archivo csv
pd.read_csv("foo.csv")

Resumen

En este laboratorio, cubrimos los conceptos básicos de pandas, incluyendo cómo crear y visualizar datos, cómo seleccionar y manipular datos, y cómo guardar y cargar datos. También aprendimos cómo manejar datos faltantes y cómo graficar datos. Esto debe proporcionar una base sólida para una exploración más profunda de pandas para el análisis de datos.