Introducción y Configuración de Pandas

PandasBeginner
Practicar Ahora

Introducción

¡Bienvenido al mundo del análisis de datos con Python! En este laboratorio, se te presentará Pandas, la biblioteca de código abierto más popular y potente para la manipulación y el análisis de datos en Python.

Antes de comenzar este curso, debes tener habilidades básicas de programación en Python y asegurarte de que Python esté correctamente configurado en la variable de entorno PATH de tu sistema. Si aún no has aprendido Python, puedes empezar con nuestra Ruta de Aprendizaje de Python. Además, debes tener NumPy instalado, ya que es un requisito previo esencial para las operaciones de Pandas. Si necesitas aprender NumPy, puedes explorar nuestra Ruta de Aprendizaje de NumPy.

Pandas proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Las dos estructuras de datos principales de Pandas son Series (unidimensional) y DataFrame (bidimensional).

En este laboratorio, aprenderás lo absolutamente básico para empezar. Harás lo siguiente:

  • Verificar que Pandas está instalado en tu entorno.
  • Importar la biblioteca Pandas en un script de Python.
  • Crear tu primer objeto Series de Pandas.
  • Acceder a datos dentro de la Series.
  • Inspeccionar propiedades básicas de la Series.

Este laboratorio está diseñado para principiantes y no se requiere conocimiento previo de Pandas. ¡Empecemos!

Instalar Pandas usando pip

En este paso, verificaremos que pandas esté correctamente instalado en el entorno. El entorno LabEx viene con Python y Pandas preinstalados para ahorrarle tiempo. Puede confirmar esto y verificar su versión.

Para verificar los detalles de un paquete de Python instalado, puede usar el comando pip show. pip es el instalador de paquetes para Python.

Abra una terminal y ejecute el siguiente comando para mostrar información sobre el paquete pandas instalado:

pip show pandas
Salida de la terminal mostrando los detalles de la instalación de pandas

Debería ver una salida que detalla el nombre del paquete, la versión, un resumen y la ubicación. La versión debería ser 2.2.2 o similar.

Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:

Esto confirma que pandas está listo para ser utilizado en sus scripts de Python.

Importar Pandas como pd

En este paso, escribirá su primera línea de código Python para importar la biblioteca Pandas. Por convención, Pandas se importa con el alias pd. Esto hace que el código sea más corto y legible.

En el explorador de archivos de la izquierda del WebIDE, verá un archivo llamado main.py. Este archivo ha sido creado para usted. Haga clic en él para abrirlo en el editor.

Ahora, agregue el siguiente código a main.py para importar pandas e imprimir un mensaje de confirmación:

import pandas as pd

print("Pandas imported successfully!")
  • import pandas as pd: Esta línea le indica a Python que cargue la biblioteca Pandas y le asigne el alias pd. A partir de ahora, puede acceder a las funciones y objetos de Pandas usando pd..
  • print(...): Esta es una función estándar de Python para mostrar la salida en la terminal.
Código de Python para importar pandas e imprimir confirmación

Para ejecutar su script, vaya a la terminal y ejecute el siguiente comando:

python main.py

Debería ver el mensaje de confirmación impreso en la terminal:

Pandas imported successfully!

Esto confirma que su script de Python puede importar y utilizar correctamente la biblioteca Pandas.

Crear una Serie simple a partir de una lista

En este paso, creará su primera Series de Pandas. Una Series es un objeto unidimensional similar a un array que puede contener cualquier tipo de dato, como enteros, cadenas o flotantes. Es el bloque de construcción fundamental de los datos en Pandas.

Puede crear una Series pasando una lista de Python al constructor pd.Series().

Modifique su archivo main.py. Reemplace la declaración print anterior con el siguiente código para crear e imprimir una Series:

import pandas as pd

## Una lista de números de Python
data = [10, 20, 30, 40, 50]

## Crear una Serie de Pandas a partir de la lista
s = pd.Series(data)

## Imprimir la Serie
print(s)

Sugerencia: Puede copiar el código anterior en su editor de código, luego leer cuidadosamente cada línea de código para comprender su función. Si necesita una explicación adicional, puede hacer clic en el botón "Explain Code" 👆. Puede interactuar con Labby para obtener ayuda personalizada.

  • data = [...]: Primero definimos una lista simple de enteros de Python.
  • s = pd.Series(data): Llamamos al constructor Series de la biblioteca pd (Pandas), pasándole nuestra lista. Esto crea el objeto Series.

Ahora, ejecute el script nuevamente desde la terminal:

python main.py

La salida mostrará su Series. Observe que tiene dos columnas: el índice a la izquierda (0-4) y los valores a la derecha (10-50). Pandas crea automáticamente un índice entero predeterminado si no se especifica uno.

0    10
1    20
2    30
3    40
4    50
dtype: int64

Acceder a elementos de la Serie por índice

En este paso, aprenderá cómo acceder a elementos individuales o a un subconjunto de elementos de la Series que creó. El acceso a los datos es una operación fundamental en el análisis de datos. Puede acceder a los elementos de una Series utilizando su índice, de manera similar a como lo haría con una lista de Python.

Modifiquemos main.py para acceder e imprimir elementos específicos. Accederemos al primer elemento (en el índice 0) y a una porción (slice) de elementos.

Actualice su archivo main.py con el siguiente código. Agregue las nuevas declaraciones print después de la línea que imprime la serie completa.

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

print("The full Series:")
print(s)

## Acceder al primer elemento (en el índice 0)
print("\nFirst element:", s[0])

## Acceder a una porción de elementos (desde el índice 1 hasta, pero sin incluir, el 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
  • s[0]: Esto recupera el valor en el índice 0, que es 10.
  • s[1:3]: Esto se llama "slicing" (porcionado). Recupera los elementos que comienzan en el índice 1 hasta (pero sin incluir) el índice 3. Esto le dará los elementos en los índices 1 y 2.

Ejecute el script para ver el resultado:

python main.py

Su salida ahora debería mostrar la Series completa, seguida de los elementos específicos a los que accedió.

The full Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64

First element: 10

Elements from index 1 to 2:
1    20
2    30
dtype: int64

Imprimir el tipo de dato y la forma de la Serie

En este paso, aprenderá cómo inspeccionar dos propiedades importantes de una Series: su tipo de dato (dtype) y su forma (shape). Comprender estos atributos es crucial para la depuración y la validación de datos.

  • dtype: Este atributo le indica el tipo de dato de los valores almacenados en la Series (por ejemplo, int64 para enteros, float64 para números de punto flotante, object para cadenas).
  • shape: Este atributo devuelve una tupla que representa las dimensiones de la Series. Para una Series, que es unidimensional, será una tupla con un solo valor, (n,), donde n es el número de elementos.

Actualicemos main.py para imprimir estos dos atributos. Agregue las siguientes líneas al final de su script:

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

## ... (las declaraciones print anteriores se pueden eliminar o mantener)

## Imprimir el tipo de dato de la Serie
print("\nData type:", s.dtype)

## Imprimir la forma de la Serie
print("Shape:", s.shape)

Ahora, ejecute el script una última vez:

python main.py

La salida ahora incluirá el tipo de dato y la forma de su Series.

Data type: int64
Shape: (5,)

Esto le indica que su Series contiene enteros de 64 bits y tiene 5 elementos.

Resumen

¡Felicitaciones! Ha completado con éxito este laboratorio introductorio sobre Pandas.

En este laboratorio, ha aprendido los primeros pasos fundamentales para trabajar con esta potente biblioteca. Ha:

  • Verificado la instalación de pandas en su entorno.
  • Importado la biblioteca pandas a un script de Python utilizando el alias estándar pd.
  • Creado una Series unidimensional básica a partir de una lista de Python.
  • Accedido a elementos de la Series utilizando indexación y "slicing" (porcionado).
  • Inspeccionado los atributos dtype y shape para comprender la estructura y el tipo de dato de la Series.

Estos son los bloques de construcción esenciales que necesitará a medida que avance a estructuras de datos más complejas como DataFrame y realice tareas de análisis de datos más avanzadas. ¡Siga practicando!