Instalación y Configuración de Scikit-learn

scikit-learnBeginner
Practicar Ahora

Introducción

¡Bienvenido a tu primer laboratorio en scikit-learn! Scikit-learn es una de las bibliotecas de aprendizaje automático (machine learning) de código abierto más populares y potentes para Python. Proporciona una amplia gama de herramientas para la minería y el análisis de datos, construida sobre NumPy, SciPy y matplotlib.

Antes de comenzar este curso, debes tener habilidades básicas de programación en Python y asegurarte de que Python esté correctamente configurado en la variable de entorno PATH de tu sistema. Si aún no has aprendido Python, puedes empezar con nuestra Ruta de Aprendizaje de Python. Adicionalmente, debes tener NumPy y Pandas instalados, ya que son requisitos esenciales para las operaciones de scikit-learn. Si necesitas aprender estas bibliotecas, puedes explorar nuestra Ruta de Aprendizaje de NumPy y Ruta de Aprendizaje de Pandas.

En este laboratorio, aprenderás los pasos fundamentales para comenzar con scikit-learn en el entorno de LabEx. Repasaremos la verificación de la instalación, la importación de módulos y la carga de uno de los conjuntos de datos integrados de scikit-learn. Esto confirmará que tu entorno está correctamente configurado para futuros experimentos de aprendizaje automático.

Este es un Guided Lab, que proporciona instrucciones paso a paso para ayudarte a aprender y practicar. Sigue las instrucciones cuidadosamente para completar cada paso y obtener experiencia práctica. Los datos históricos muestran que este es un laboratorio de nivel principiante con una tasa de finalización del 84%. Ha recibido una tasa de reseñas positivas del 100% por parte de los estudiantes.

Instala scikit-learn usando pip install scikit-learn

En este paso, discutiremos cómo instalar la biblioteca scikit-learn. En un entorno Python típico en tu máquina local, usarías pip, el instalador de paquetes para Python, para instalar nuevas bibliotecas. El comando para instalar scikit-learn es:

pip install scikit-learn
Command to install scikit-learn

Sin embargo, para que tu experiencia de aprendizaje sea más fluida, el entorno de LabEx viene con scikit-learn y sus dependencias preinstaladas. Por lo tanto, no necesitas ejecutar el comando de instalación aquí. Lo mostramos como referencia, para que sepas cómo configurar scikit-learn en tu propia computadora.

Pasemos al siguiente paso para empezar a usar la biblioteca.

Importa scikit-learn como from sklearn import datasets

En este paso, escribirás tu primera línea de código Python para interactuar con la biblioteca scikit-learn. Antes de poder usar cualquier función u objeto de una biblioteca en Python, primero debes importarla en tu script.

Scikit-learn incluye un módulo llamado datasets que contiene utilidades para cargar y obtener conjuntos de datos de referencia populares. Importaremos este módulo para usarlo en un paso posterior.

Primero, localiza el archivo main.py en el explorador de archivos en el lado izquierdo de tu WebIDE. Haz clic en él para abrirlo en el editor. Ahora, agrega la siguiente línea de código al archivo main.py:

from sklearn import datasets
Python code to import scikit-learn datasets

Esta línea le indica a Python que busque la biblioteca sklearn y que importe el módulo datasets de ella, haciendo que sus funciones estén disponibles para que las usemos. Después de agregar el código, guarda el archivo. Agregaremos más código y ejecutaremos el script en los próximos pasos.

Verifica la instalación con sklearn.version

En este paso, verificaremos que scikit-learn esté correctamente instalado y accesible comprobando su número de versión. Esta es una práctica común para asegurar que una biblioteca esté correctamente configurada en tu entorno. Cada instalación de scikit-learn tiene un atributo especial __version__ que contiene esta información.

Agreguemos código a nuestro archivo main.py para imprimir la versión. También necesitamos importar el paquete sklearn de nivel superior. Modifica tu archivo main.py para que se vea así:

import sklearn
from sklearn import datasets

print(sklearn.__version__)

Ahora, ejecutemos este script. Abre una terminal en tu WebIDE (generalmente puedes encontrar un ícono de + o un menú de "Terminal"). En la terminal, que debería abrirse en el directorio /home/labex/project, ejecuta el siguiente comando:

python3 main.py
Scikit-learn version output in terminal

Deberías ver la versión instalada de scikit-learn impresa en la consola. La salida se verá similar a esta (el número de versión exacto puede variar):

1.x.x

Esto confirma que Python puede importar y usar exitosamente la biblioteca scikit-learn.

Carga el conjunto de datos de muestra usando datasets.load_iris()

En este paso, utilizaremos el módulo datasets que importamos anteriormente para cargar un conjunto de datos de ejemplo. Scikit-learn viene con varios conjuntos de datos pequeños y estándar que no requieren descarga desde un sitio web externo. Estos son útiles para empezar y probar algoritmos.

Cargaremos el conjunto de datos Iris, un conjunto de datos clásico y muy famoso en el campo del aprendizaje automático (machine learning). Contiene mediciones de 150 flores de iris de tres especies diferentes.

Para cargarlo, usamos la función datasets.load_iris(). Modifiquemos el archivo main.py para cargar el conjunto de datos y almacenarlo en una variable llamada iris. También agregaremos una instrucción print para confirmar que el conjunto de datos se cargó.

Actualiza tu archivo main.py con el siguiente contenido:

import sklearn
from sklearn import datasets

## Load the iris dataset
iris = datasets.load_iris()

print("Iris dataset loaded successfully.")

Sugerencia: Puedes copiar el código anterior en tu editor de código, luego leer cuidadosamente cada línea de código para comprender su función. Si necesitas una explicación adicional, puedes hacer clic en el botón "Explain Code" 👆. Puedes interactuar con Labby para obtener ayuda personalizada.

Guarda el archivo y ejecútalo nuevamente desde la terminal:

python3 main.py

La salida ahora debería ser:

Iris dataset loaded successfully.

Esto indica que la función load_iris() se ejecutó sin errores y el conjunto de datos ahora está disponible en la variable iris dentro de nuestro script.

Imprime las claves del conjunto de datos con print(iris.keys())

En este paso, inspeccionaremos la estructura del conjunto de datos Iris que acabamos de cargar. El objeto devuelto por load_iris() es un objeto Bunch, que es similar a un diccionario de Python. Contiene claves y valores que describen el conjunto de datos.

Para ver qué información está disponible, podemos imprimir sus claves utilizando el método .keys(). Esto nos mostrará todos los componentes del conjunto de datos, como los datos en sí, las etiquetas objetivo (target) y los nombres descriptivos.

Modifica tu archivo main.py para imprimir las claves del objeto iris. Tu script final debería verse así:

import sklearn
from sklearn import datasets

## Load the iris dataset
iris = datasets.load_iris()

## Print the keys of the dataset
print(iris.keys())

Guarda el archivo y ejecútalo una última vez desde la terminal:

python3 main.py

La salida mostrará las diferentes partes del objeto del conjunto de datos:

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

Aquí tienes un breve resumen de las claves más importantes:

  • data: El array que contiene los datos de las características (las mediciones de las flores).
  • target: El array que contiene las etiquetas (las especies de cada flor).
  • feature_names: Los nombres de las características (por ejemplo, 'sepal length (cm)').
  • target_names: Los nombres de las especies objetivo (por ejemplo, 'setosa').
  • DESCR: Una descripción completa del conjunto de datos.

Al imprimir estas claves, has cargado e inspeccionado exitosamente un conjunto de datos, completando el proceso básico de configuración.

Resumen

¡Felicitaciones! Has completado con éxito este laboratorio introductorio sobre la configuración y verificación de tu entorno de scikit-learn.

En este laboratorio, has aprendido a:

  • Comprender el proceso de instalación de scikit-learn.
  • Verificar la versión de la biblioteca para confirmar una configuración exitosa.
  • Importar módulos de la biblioteca scikit-learn.
  • Cargar un conjunto de datos de ejemplo incorporado, el conjunto de datos Iris.
  • Inspeccionar la estructura básica de un objeto de conjunto de datos de scikit-learn.

Ahora estás listo para continuar con laboratorios más interesantes donde explorarás el preprocesamiento de datos, el entrenamiento de modelos y la evaluación utilizando las potentes herramientas que proporciona scikit-learn.