Построение графиков вероятностей классов с использованием Voting Classifier | Руководство по Scikit-Learn

Введение

В этом практическом занятии мы научимся строить графики вероятностей классов, вычисляемых VotingClassifier в Scikit-Learn. Мы будем использовать три различных классификатора: LogisticRegression, GaussianNB и RandomForestClassifier, и усреднять их предсказанные вероятности с использованием VotingClassifier. Затем мы визуализируем веса вероятностей путём подгонки каждого классификатора на наборе обучающих данных и строим графики предсказанных вероятностей классов для первого примера в наборе данных.

Советы по работе с ВМ

После запуска ВМ кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Инициализация классификаторов и датасета

Сначала мы инициализируем три классификатора и небольшой искусственный датасет. В качестве классификаторов мы будем использовать LogisticRegression, GaussianNB и RandomForestClassifier, а в качестве искусственного датасета — X и y.

import numpy as np
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier

clf1 = LogisticRegression(max_iter=1000, random_state=123)
clf2 = RandomForestClassifier(n_estimators=100, random_state=123)
clf3 = GaussianNB()
X = np.array([[-1.0, -1.0], [-1.2, -1.4], [-3.4, -2.2], [1.1, 1.2]])
y = np.array([1, 1, 2, 2])

Инициализация VotingClassifier

Затем мы инициализируем VotingClassifier с мягким голосованием с весами [1, 1, 5], что означает, что при вычислении усреднённой вероятности предсказанные вероятности RandomForestClassifier учитываются в пять раз больше, чем веса других классификаторов.

eclf = VotingClassifier(
    estimators=[("lr", clf1), ("rf", clf2), ("gnb", clf3)],
    voting="soft",
    weights=[1, 1, 5],
)

Предсказание вероятностей классов для всех классификаторов

Мы будем предсказывать вероятности классов для всех классификаторов с использованием функции predict_proba().

probas = [c.fit(X, y).predict_proba(X) for c in (clf1, clf2, clf3, eclf)]

Получение вероятностей классов для первого примера в наборе данных

Мы получим вероятности классов для первого примера в наборе данных и сохраним их в class1_1 и class2_1.

class1_1 = [pr[0, 0] for pr in probas]
class2_1 = [pr[0, 1] for pr in probas]