朴素贝叶斯示例：用 Python 掌握分类

简介

在本实验中，我们将通过一个示例来学习如何在 Python 中使用 scikit-learn 库中的朴素贝叶斯分类器。朴素贝叶斯分类器是一组常用于分类任务的监督学习算法。这些分类器基于应用贝叶斯定理，并假设在给定类别变量值的情况下，每对特征之间具有条件独立性。

在本示例中，我们将使用 scikit-learn 中的高斯朴素贝叶斯分类器对鸢尾花数据集进行分类，这是一个在机器学习中很受欢迎的数据集。目标是根据鸢尾花的花瓣和萼片尺寸预测其品种。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到“笔记本”标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们会及时为你解决问题。

这是一个实验（Guided Lab），提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤，获得实际操作经验。根据历史数据，这是一个初级级别的实验，完成率为 91%。获得了学习者 100% 的好评率。

导入库并加载数据集

让我们首先导入必要的库并加载鸢尾花数据集。我们将使用 sklearn.datasets 模块中的 load_iris 函数来加载数据集。

from sklearn.datasets import load_iris

## 加载鸢尾花数据集
iris = load_iris()
X = iris.data  ## 特征
y = iris.target  ## 目标变量

print("样本数量：", X.shape[0])
print("特征数量：", X.shape[1])
print("类别数量：", len(set(y)))

将数据集拆分为训练集和测试集

接下来，我们将使用 sklearn.model_selection 模块中的 train_test_split 函数将数据集拆分为训练集和测试集。训练集将用于训练朴素贝叶斯分类器，测试集将用于评估其性能。

from sklearn.model_selection import train_test_split

## 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

训练并评估高斯朴素贝叶斯分类器

现在，我们将在训练集上训练高斯朴素贝叶斯分类器，并在测试集上评估其性能。我们将使用 sklearn.naive_bayes 模块中的 GaussianNB 类。

from sklearn.naive_bayes import GaussianNB

## 创建一个高斯朴素贝叶斯分类器
gnb = GaussianNB()

## 训练分类器
gnb.fit(X_train, y_train)

## 预测测试集的目标变量
y_pred = gnb.predict(X_test)

## 计算分类器的准确率
accuracy = (y_pred == y_test).sum() / len(y_test)
print("准确率：", accuracy)

解读结果

根据所获得的准确率，我们可以解读高斯朴素贝叶斯分类器在鸢尾花数据集上的性能。准确率表示测试集中正确预测的目标变量值的比例。在这种情况下，准确率表示正确分类的鸢尾花品种的比例。

总结

在本实验中，我们完成了一个使用 scikit-learn 中的高斯朴素贝叶斯分类器的示例。我们加载了鸢尾花数据集，将其拆分为训练集和测试集，在训练集上训练分类器，并在测试集上评估其性能。所获得的准确率让我们了解到该分类器在预测鸢尾花品种方面的表现如何。朴素贝叶斯分类器是用于分类任务的简单而有效的算法，并且在各种实际应用中都很常用。