Scikit-learn 安装与设置指南

介绍

欢迎来到你的第一个 scikit-learn 实验！Scikit-learn 是 Python 中最流行、最强大的开源机器学习库之一。它提供了广泛的数据挖掘和数据分析工具，构建在 NumPy、SciPy 和 matplotlib 之上。

在开始本课程之前，你应该具备基本的 Python 编程技能，并确保 Python 已正确配置在你的系统 PATH 中。如果你还没有学习 Python，可以从我们的 Python 学习路径开始。此外，你应该安装 NumPy 和 Pandas，因为它们是 scikit-learn 操作的基本先决条件。如果你需要学习这些库，可以探索我们的 NumPy 学习路径和 Pandas 学习路径。

在本实验中，你将学习在 LabEx 环境中开始使用 scikit-learn 的基本步骤。我们将引导你完成验证安装、导入模块以及加载 scikit-learn 的内置数据集。这将确认你的环境已为未来的机器学习实验正确配置。

使用 pip install scikit-learn 安装 scikit-learn

在本步骤中，我们将讨论如何安装 scikit-learn 库。在本地机器的典型 Python 环境中，你会使用 pip（Python 的包安装器）来安装新库。安装 scikit-learn 的命令是：

pip install scikit-learn

安装 scikit-learn 的命令

然而，为了让你的学习体验更顺畅，LabEx 环境已经预装了 scikit-learn 及其依赖项。因此，你无需在此处运行安装命令。我们展示它是为了供你参考，以便你知道如何在自己的计算机上设置 scikit-learn。

让我们继续下一步，开始使用该库。

导入 scikit-learn，使用 `from sklearn import datasets`

在本步骤中，你将编写第一行 Python 代码来与 scikit-learn 库进行交互。在 Python 中，在你可以在脚本中使用库中的任何函数或对象之前，必须先将其导入。

Scikit-learn 包含一个名为 datasets 的模块，其中包含加载和获取流行参考数据集的实用工具。我们将导入此模块，以便在后续步骤中使用它。

首先，在 WebIDE 左侧的文件浏览器中找到 main.py 文件。点击它在编辑器中打开。现在，将以下代码行添加到 main.py 文件中：

from sklearn import datasets

导入 scikit-learn 数据集的 Python 代码

这行代码告诉 Python 查找 sklearn 库，并从中导入 datasets 模块，使其函数可供我们使用。添加代码后，保存文件。我们将在接下来的步骤中添加更多代码并运行脚本。

使用 `sklearn.version` 验证安装

在本步骤中，我们将通过检查其版本号来验证 scikit-learn 是否已正确安装并可访问。这是确保库在你的环境中正确设置的常用做法。每个 scikit-learn 安装都有一个名为 __version__ 的特殊属性，其中包含此信息。

让我们向 main.py 文件添加代码以打印版本。我们还需要导入顶级的 sklearn 包本身。将你的 main.py 文件修改为如下所示：

import sklearn
from sklearn import datasets

print(sklearn.__version__)

现在，让我们运行此脚本。在你的 WebIDE 中打开一个终端（通常可以找到一个 + 图标或一个“Terminal”菜单）。在终端中（它应该在 /home/labex/project 目录中打开），执行以下命令：

python3 main.py

终端中 scikit-learn 的版本输出

你应该会在控制台中看到已安装的 scikit-learn 版本。输出将与此类似（确切的版本号可能会有所不同）：

1.x.x

这证实了 Python 可以成功导入并使用 scikit-learn 库。

使用 `datasets.load_iris()` 加载鸢尾花（iris）数据集

在本步骤中，我们将使用之前导入的 datasets 模块来加载一个样本数据集。Scikit-learn 包含几个小型、标准的数据集，无需从外部网站下载。这些数据集对于入门和测试算法非常有用。

我们将加载 Iris 数据集，这是机器学习领域一个经典且非常著名的数据集。它包含了 150 朵来自三个不同物种的鸢尾花测量数据。

要加载它，我们使用 datasets.load_iris() 函数。让我们修改 main.py 文件来加载数据集并将其存储在一个名为 iris 的变量中。我们还将添加一个打印语句来确认数据集已加载。

使用以下内容更新你的 main.py 文件：

import sklearn
from sklearn import datasets

## 加载 iris 数据集
iris = datasets.load_iris()

print("Iris dataset loaded successfully.")

建议: 你可以将上面的代码复制到你的代码编辑器中，然后仔细阅读每一行代码以理解其功能。如果你需要进一步的解释，可以点击“Explain Code”按钮 👆。你可以与 Labby 互动以获得个性化帮助。

保存文件并再次从终端运行它：

python3 main.py

输出现在应该是：

Iris dataset loaded successfully.

这表明 load_iris() 函数已成功执行，并且数据集现在在我们的脚本中的 iris 变量中可用。

使用 `print(iris.keys())` 打印数据集的键

在本步骤中，我们将检查刚刚加载的 Iris 数据集的结构。load_iris() 返回的对象是一个 Bunch 对象，它类似于 Python 字典。它包含描述数据集的键和值。

要查看有哪些可用信息，我们可以使用 .keys() 方法打印它的键。这将向我们展示数据集的所有组成部分，例如数据本身、目标标签以及描述性名称。

修改你的 main.py 文件以打印 iris 对象的键。你的最终脚本应如下所示：

import sklearn
from sklearn import datasets

## 加载 iris 数据集
iris = datasets.load_iris()

## 打印数据集的键
print(iris.keys())

保存文件并最后一次从终端运行它：

python3 main.py

输出将显示数据集对象的不同部分：

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

以下是对最重要的键的简要说明：

data: 包含特征数据（花卉测量值）的数组。
target: 包含标签（每朵花的物种）的数组。
feature_names: 特征的名称（例如，“sepal length (cm)”）。
target_names: 目标物种的名称（例如，“setosa”）。
DESCR: 数据集的完整描述。

通过打印这些键，你已成功加载并检查了数据集，完成了基本设置过程。

总结

恭喜你！你已成功完成了这个关于设置和验证 scikit-learn 环境的入门实验。

在这个实验中，你学会了如何：

理解 scikit-learn 的安装过程。
验证库的版本以确认安装成功。
从 scikit-learn 库导入模块。
加载内置样本数据集 Iris。
检查 scikit-learn 数据集对象的基本结构。

你现在已准备好进行更令人兴奋的实验，在这些实验中，你将使用 scikit-learn 提供的强大工具来探索数据预处理、模型训练和评估。

Scikit-learn 安装与设置

介绍

使用 pip install scikit-learn 安装 scikit-learn

导入 scikit-learn，使用 from sklearn import datasets

使用 sklearn.__version__ 验证安装

使用 datasets.load_iris() 加载鸢尾花（iris）数据集

使用 print(iris.keys()) 打印数据集的键

总结

导入 scikit-learn，使用 `from sklearn import datasets`

使用 `sklearn.version` 验证安装

使用 `datasets.load_iris()` 加载鸢尾花（iris）数据集

使用 `print(iris.keys())` 打印数据集的键