Instalação e Configuração do Scikit-learn

scikit-learnBeginner
Pratique Agora

Introdução

Bem-vindo ao seu primeiro laboratório com scikit-learn! Scikit-learn é uma das bibliotecas de machine learning open-source mais populares e poderosas para Python. Ela oferece uma ampla gama de ferramentas para mineração e análise de dados, construída sobre NumPy, SciPy e matplotlib.

Antes de iniciar este curso, você deve ter habilidades básicas de programação em Python e garantir que o Python esteja devidamente configurado no PATH do seu sistema. Se você ainda não aprendeu Python, pode começar com nosso Caminho de Aprendizagem de Python. Adicionalmente, você deve ter NumPy e Pandas instalados, pois são pré-requisitos essenciais para as operações do scikit-learn. Se precisar aprender essas bibliotecas, você pode explorar nosso Caminho de Aprendizagem de NumPy e Caminho de Aprendizagem de Pandas.

Neste laboratório, você aprenderá os passos fundamentais para começar a usar o scikit-learn no ambiente LabEx. Passaremos pela verificação da instalação, importação de módulos e carregamento de um dos datasets embutidos do scikit-learn. Isso confirmará que seu ambiente está corretamente configurado para futuros experimentos de machine learning.

Este é um Lab Guiado, que fornece instruções passo a passo para ajudá-lo a aprender e praticar. Siga as instruções cuidadosamente para completar cada etapa e ganhar experiência prática. Dados históricos mostram que este é um laboratório de nível iniciante com uma taxa de conclusão de 84%. Recebeu uma taxa de avaliações positivas de 100% dos estudantes.

Instale o scikit-learn usando pip install scikit-learn

Nesta etapa, discutiremos como instalar a biblioteca scikit-learn. Em um ambiente Python típico em sua máquina local, você usaria o pip, o instalador de pacotes para Python, para instalar novas bibliotecas. O comando para instalar scikit-learn é:

pip install scikit-learn
Command to install scikit-learn

No entanto, para tornar sua experiência de aprendizado mais tranquila, o ambiente LabEx já vem com scikit-learn e suas dependências pré-instaladas. Portanto, você não precisa executar o comando de instalação aqui. Estamos mostrando para sua referência, para que você saiba como configurar o scikit-learn em seu próprio computador.

Vamos passar para a próxima etapa para começar a usar a biblioteca.

Importe o scikit-learn com from sklearn import datasets

Nesta etapa, você escreverá sua primeira linha de código Python para interagir com a biblioteca scikit-learn. Antes de poder usar quaisquer funções ou objetos de uma biblioteca em Python, você deve primeiro importá-la para o seu script.

Scikit-learn inclui um módulo chamado datasets que contém utilitários para carregar e buscar datasets de referência populares. Importaremos este módulo para usá-lo em uma etapa posterior.

Primeiro, localize o arquivo main.py no explorador de arquivos no lado esquerdo do seu WebIDE. Clique nele para abri-lo no editor. Agora, adicione a seguinte linha de código ao arquivo main.py:

from sklearn import datasets
Python code to import scikit-learn datasets

Esta linha instrui o Python a encontrar a biblioteca sklearn e importar o módulo datasets dela, tornando suas funções disponíveis para uso. Após adicionar o código, salve o arquivo. Adicionaremos mais código e executaremos o script nas próximas etapas.

Verifique a instalação com sklearn.version

Nesta etapa, verificaremos se o scikit-learn está instalado corretamente e acessível, verificando seu número de versão. Esta é uma prática comum para garantir que uma biblioteca esteja configurada corretamente em seu ambiente. Cada instalação do scikit-learn possui um atributo especial __version__ que contém essa informação.

Vamos adicionar código ao nosso arquivo main.py para imprimir a versão. Também precisamos importar o pacote sklearn de nível superior. Modifique seu arquivo main.py para que fique assim:

import sklearn
from sklearn import datasets

print(sklearn.__version__)

Agora, vamos executar este script. Abra um terminal em seu WebIDE (você geralmente pode encontrar um ícone de + ou um menu "Terminal"). No terminal, que deve abrir no diretório /home/labex/project, execute o seguinte comando:

python3 main.py
Scikit-learn version output in terminal

Você deverá ver a versão instalada do scikit-learn impressa no console. A saída será semelhante a esta (o número exato da versão pode variar):

1.x.x

Isso confirma que o Python pode importar e usar com sucesso a biblioteca scikit-learn.

Carregue o conjunto de dados de amostra usando datasets.load_iris()

Nesta etapa, usaremos o módulo datasets que importamos anteriormente para carregar um dataset de exemplo. O Scikit-learn vem com vários datasets pequenos e padrão que não exigem download de um site externo. Estes são úteis para começar e testar algoritmos.

Carregaremos o dataset Iris, um dataset clássico e muito famoso no campo do aprendizado de máquina (machine learning). Ele contém medições de 150 flores de íris de três espécies diferentes.

Para carregá-lo, usamos a função datasets.load_iris(). Vamos modificar o arquivo main.py para carregar o dataset e armazená-lo em uma variável chamada iris. Também adicionaremos uma instrução print para confirmar que o dataset foi carregado.

Atualize seu arquivo main.py com o seguinte conteúdo:

import sklearn
from sklearn import datasets

## Load the iris dataset
iris = datasets.load_iris()

print("Iris dataset loaded successfully.")

Sugestão: Você pode copiar o código acima para o seu editor de código, depois ler cuidadosamente cada linha de código para entender sua função. Se precisar de mais explicações, você pode clicar no botão "Explain Code" 👆. Você pode interagir com o Labby para obter ajuda personalizada.

Salve o arquivo e execute-o novamente no terminal:

python3 main.py

A saída agora deve ser:

Iris dataset loaded successfully.

Isso indica que a função load_iris() foi executada sem erros e o dataset está agora disponível na variável iris dentro do nosso script.

Imprima as chaves do conjunto de dados com print(iris.keys())

Nesta etapa, inspecionaremos a estrutura do dataset Iris que acabamos de carregar. O objeto retornado por load_iris() é um objeto Bunch, que é semelhante a um dicionário Python. Ele contém chaves e valores que descrevem o dataset.

Para ver quais informações estão disponíveis, podemos imprimir suas chaves usando o método .keys(). Isso nos mostrará todos os componentes do dataset, como os próprios dados, os rótulos (targets) e os nomes descritivos.

Modifique seu arquivo main.py para imprimir as chaves do objeto iris. Seu script final deverá ficar assim:

import sklearn
from sklearn import datasets

## Load the iris dataset
iris = datasets.load_iris()

## Print the keys of the dataset
print(iris.keys())

Salve o arquivo e execute-o mais uma vez no terminal:

python3 main.py

A saída mostrará as diferentes partes do objeto dataset:

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

Aqui está um breve resumo das chaves mais importantes:

  • data: O array contendo os dados das características (as medições das flores).
  • target: O array contendo os rótulos (as espécies de cada flor).
  • feature_names: Os nomes das características (por exemplo, 'sepal length (cm)').
  • target_names: Os nomes das espécies alvo (por exemplo, 'setosa').
  • DESCR: Uma descrição completa do dataset.

Ao imprimir essas chaves, você carregou e inspecionou com sucesso um dataset, completando o processo básico de configuração.

Resumo

Parabéns! Você concluiu com sucesso este laboratório introdutório sobre a configuração e verificação do seu ambiente scikit-learn.

Neste laboratório, você aprendeu a:

  • Compreender o processo de instalação do scikit-learn.
  • Verificar a versão da biblioteca para confirmar uma configuração bem-sucedida.
  • Importar módulos da biblioteca scikit-learn.
  • Carregar um dataset de exemplo integrado, o dataset Iris.
  • Inspecionar a estrutura básica de um objeto dataset do scikit-learn.

Agora você está pronto para prosseguir para laboratórios mais interessantes, onde explorará pré-processamento de dados, treinamento de modelos e avaliação usando as poderosas ferramentas fornecidas pelo scikit-learn.