在本课程中,我们将学习如何使用 scikit-learn 从数据中构建预测模型。我们将探索机器学习的基本概念,并了解如何使用 scikit-learn 解决监督学习和无监督学习问题。我们还将学习如何评估模型、调整参数以及避免常见陷阱。我们将通过使用真实世界数据集的机器学习问题示例来进行学习。
在本实验中,我们将探索 scikit-learn 中的线性模型。线性模型是用于回归和分类任务的一组方法。它们假设目标变量是特征的线性组合。由于其简单性和可解释性,这些模型在机器学习中被广泛使用。
线性判别分析和二次判别分析(LDA 和 QDA)是机器学习中使用的两种经典分类器。LDA 使用线性决策面,而 QDA 使用二次决策面。这些分类器很受欢迎,因为它们有闭式解,在实践中效果良好,并且没有超参数需要调整。
在本实验中,我们将探索 scikit-learn(Python 中一个流行的机器学习库)中的数据集设置和估计器对象。我们将了解数据集(表示为二维数组)以及如何为 scikit-learn 对其进行预处理。我们还将探索估计器对象的概念,这些对象用于从数据中学习并进行预测。
在本实验中,我们将学习核岭回归(KRR)及其在 Python 中使用 scikit-learn 库的实现。KRR 将岭回归与核技巧相结合,以在核诱导的空间中学习线性函数。它是一种非线性回归方法,可以处理输入和输出变量之间的非线性关系。
在监督学习中,我们想要学习两个数据集之间的关系:观测数据 X 和我们想要预测的外部变量 y。
在机器学习中,模型选择是为给定数据集选择最佳模型的过程。它涉及选择合适的估计器并调整其参数以实现最佳性能。本教程将指导你完成 scikit-learn 中的模型选择过程。
在本教程中,我们将学习支持向量机(SVM),它是用于分类、回归和异常值检测的一组监督学习方法。SVM 在高维空间中很有效,并且当维度数量大于样本数量时仍然可以表现良好。
在本实验中,我们将探索随机梯度下降(SGD),它是机器学习中常用的一种强大的优化算法,用于解决大规模和稀疏问题。我们将学习如何使用 scikit-learn 库中的 SGDClassifier 和 SGDRegressor 类来训练线性分类器和回归器。
在本实验中,我们将探索无监督学习的概念,特别是聚类和分解。无监督学习是一种机器学习类型,我们没有标记数据来进行训练。相反,我们尝试在没有任何先验知识的情况下在数据中找到模式或结构。聚类是一种常见的无监督学习技术,用于将相似的观测值分组在一起。另一方面,分解用于通过提取最重要的特征或组件来找到数据的低维表示。
随机梯度下降(SGD)是机器学习中常用的一种优化算法。它是梯度下降算法的一种变体,在每次迭代时使用训练数据的随机选择子集。这使得它在计算上高效,并且适合处理大型数据集。在本实验中,我们将逐步介绍使用 scikit-learn 在 Python 中实现 SGD 的步骤。
在本实验中,我们将探索如何使用 scikit-learn(Python 中一个流行的机器学习库)处理文本数据。我们将学习如何加载文本数据、对其进行预处理、提取特征、训练模型以及评估其性能。
在本实验中,我们将探索高斯过程(GP),这是一种用于回归和概率分类问题的监督学习方法。高斯过程用途广泛,可以对观测值进行插值、提供概率预测,并处理不同类型的核。在本实验中,我们将重点使用 scikit-learn 库进行高斯过程回归(GPR)和高斯过程分类(GPC)。
scikit-learn 中的 cross_decomposition 模块包含用于降维和回归的监督估计器,特别是用于偏最小二乘法(PLS)算法。这些算法通过将两个矩阵投影到一个低维子空间中,找到它们之间的基本关系,使得变换后的矩阵之间的协方差最大。
在本实验中,我们将通过一个示例学习如何在 Python 中使用 scikit-learn 库中的朴素贝叶斯分类器。朴素贝叶斯分类器是一组常用于分类任务的监督学习算法。这些分类器基于应用贝叶斯定理,并假设在给定类变量值的情况下,每对特征之间存在条件独立性。
在本实验中,我们将学习如何使用 scikit-learn 使用决策树进行分类。决策树是一种用于分类和回归的非参数监督学习方法。它们易于理解和解释,并且可以处理数值和分类数据。