Detecção de Anomalias com Isolation Forest | Tutorial de Machine Learning

Introdução

Neste laboratório, iremos percorrer o processo de utilização do Isolation Forest para deteção de anomalias. Começaremos por gerar um conjunto de dados com dois clusters e alguns valores discrepantes, em seguida, treinaremos um modelo Isolation Forest para identificar os valores discrepantes. Finalmente, visualizaremos a fronteira de decisão do modelo para ver como ele separa os valores normais e os valores discrepantes.

Dicas da VM

Após o arranque da VM, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar o carregamento. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.

Geração de Dados

Vamos gerar um conjunto de dados com dois clusters e alguns valores discrepantes. Os clusters serão gerados amostrando aleatoriamente da distribuição normal padrão. Um deles será esférico, e o outro ligeiramente deformado. Os valores discrepantes serão gerados amostrando aleatoriamente de uma distribuição uniforme.

import numpy as np
from sklearn.model_selection import train_test_split

n_samples, n_outliers = 120, 40
rng = np.random.RandomState(0)
covariance = np.array([[0.5, -0.1], [0.7, 0.4]])
cluster_1 = 0.4 * rng.randn(n_samples, 2) @ covariance + np.array([2, 2])  ## general
cluster_2 = 0.3 * rng.randn(n_samples, 2) + np.array([-2, -2])  ## spherical
outliers = rng.uniform(low=-4, high=4, size=(n_outliers, 2))

X = np.concatenate([cluster_1, cluster_2, outliers])
y = np.concatenate(
    [np.ones((2 * n_samples), dtype=int), -np.ones((n_outliers), dtype=int)]
)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

Visualizar o Conjunto de Dados

Podemos visualizar os clusters resultantes para ver como o conjunto de dados se apresenta.

import matplotlib.pyplot as plt

scatter = plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
handles, labels = scatter.legend_elements()
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="classe verdadeira")
plt.title("Valores normais gaussianos com \noutliers distribuídos uniformemente")
plt.show()

Treinar o Modelo

Vamos treinar um modelo Isolation Forest com os dados de treino.

from sklearn.ensemble import IsolationForest

clf = IsolationForest(max_samples=100, random_state=0)
clf.fit(X_train)

Plotar a Fronteira de Decisão Discreta

Usaremos a classe DecisionBoundaryDisplay para visualizar uma fronteira de decisão discreta. A cor de fundo representa se uma amostra nessa área específica é prevista como um outlier ou não. O gráfico de dispersão exibe as etiquetas verdadeiras.

import matplotlib.pyplot as plt
from sklearn.inspection import DecisionBoundaryDisplay

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="predict",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Fronteira de decisão binária \ndo IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="classe verdadeira")
plt.show()

Plotar a Fronteira de Decisão Baseada no Comprimento do Caminho

Definindo response_method="decision_function", o fundo do DecisionBoundaryDisplay representa a medida de normalidade de uma observação. Essa pontuação é dada pelo comprimento médio do caminho em uma floresta de árvores aleatórias, que por sua vez é determinada pela profundidade da folha (ou equivalentemente, o número de divisões) necessária para isolar uma amostra específica.

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="decision_function",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Fronteira de decisão baseada no comprimento do caminho \ndo IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="classe verdadeira")
plt.colorbar(disp.ax_.collections[1])
plt.show()

Resumo

Neste laboratório, aprendemos como utilizar o Isolation Forest para detecção de anomalias. Geramos um conjunto de dados com dois clusters e alguns outliers, treinamos um modelo Isolation Forest para identificar os outliers e visualizamos a fronteira de decisão do modelo para observar como ele separa os inliers e os outliers.