Introducción
En este laboratorio, te presentaremos los conceptos básicos de pandas, una poderosa biblioteca de manipulación de datos en Python. Te guiaremos a través de varias tareas, como la importación de pandas, la creación y visualización de datos, la selección de datos, las operaciones y mucho más.
Consejos sobre la VM
Una vez finalizada la inicialización de la VM, haz clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.
A veces, es posible que tengas que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no puede automatizarse debido a las limitaciones de Jupyter Notebook.
Si tienes problemas durante el aprendizaje, no dudes en preguntar a Labby. Proporciona retroalimentación después de la sesión y resolveremos rápidamente el problema para ti.
Importando Pandas y Numpy
Primero, necesitamos importar los paquetes de pandas y numpy. Pandas es una poderosa biblioteca de manipulación de datos y numpy se utiliza para operaciones matemáticas.
## Importando las bibliotecas necesarias
import numpy as np
import pandas as pd
Creando Objetos
Vamos a crear una Series pasando una lista de valores y pandas creará un índice entero predeterminado.
## Creando una serie de pandas
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
Creando Dataframes
Podemos crear un DataFrame pasando una matriz de numpy, con un índice de fecha y hora y columnas etiquetadas.
## Creando un dataframe de pandas
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
Visualizando Datos
Podemos visualizar las primeras y últimas filas del dataframe utilizando los métodos head() y tail() respectivamente.
## Visualizando las primeras filas
df.head()
## Visualizando las últimas filas
df.tail(3)
Selección de Datos
Podemos seleccionar datos utilizando etiquetas o por posición.
## Seleccionando una sola columna
df["A"]
## Seleccionando por posición
df.iloc[3]
Operaciones con Datos
Podemos realizar operaciones en los dataframes, como ordenar, aplicar funciones, etc.
## Ordenando por un eje
df.sort_index(axis=1, ascending=False)
## Aplicando una función a los datos
df.apply(np.cumsum)
Manejo de Datos Faltantes
Pandas proporciona métodos para manejar datos faltantes en el dataframe.
## Rellenando datos faltantes
df.fillna(value=5)
## Obteniendo la máscara booleana donde los valores son nan
pd.isna(df)
Graficando Datos
Pandas utiliza matplotlib para graficar datos.
## Graficando datos
df.plot()
Guardando y Cargando Datos
Pandas proporciona métodos para guardar y cargar datos en varios formatos, como csv, excel, hdf5, etc.
## Guardando datos en un archivo csv
df.to_csv("foo.csv")
## Cargando datos desde un archivo csv
pd.read_csv("foo.csv")
Resumen
En este laboratorio, cubrimos los conceptos básicos de pandas, incluyendo cómo crear y visualizar datos, cómo seleccionar y manipular datos, y cómo guardar y cargar datos. También aprendimos cómo manejar datos faltantes y cómo graficar datos. Esto debe proporcionar una base sólida para una exploración más profunda de pandas para el análisis de datos.