数据科学快速入门 | 实践实验

Beginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版


Skills Graph

数据科学快速入门

NumPy 快速入门

NumPy 快速入门

本课程将教授你 NumPy 的基础知识,NumPy 是一个支持许多数学运算的库。

你的第一个 NumPy 实验 01

你的第一个 NumPy 实验

嗨,欢迎来到 LabEx!在这个第一个实验中,你将学习 NumPy 中的经典 “你好,世界!” 程序。

你的第一个 Linux 实验 02

数组属性和数据类型

本教程将探索 NumPy 数组属性,重点是数据类型(dtype)属性。NumPy 是 Python 中用于数值计算的强大库,NumPy 数组是该库的核心数据结构。

你的第一个 Linux 实验 03

NumPy 数组和数据类型

NumPy 是一个用于 Python 编程语言的库,用于在 Python 中执行数值运算。NumPy 通过使用多维数组提供了一种方便的方式来处理数值数据。在本教程中,我们将讨论如何创建、访问和修改 NumPy 数组,以及探索可用的不同数据类型。

你的第一个 Linux 实验 04

太空中的 NumPy

你是一组宇航员中的一员,正在执行探索遥远星球的任务。当你开始旅程时,你意识到你的宇宙飞船导航系统出现故障,让你迷失在太空中!回到正轨的唯一方法是使用你目前收集的数据并进行一些数学计算。幸运的是,你对 NumPy 库有一些了解,它可以帮助你快速准确地进行这些计算。

你的第一个 Linux 实验 05

NumPy 数组数据类型转换器

NumPy 是 Python 中用于科学计算的强大库。numpy 的功能之一是能够高效地处理数组。然而,有时需要将整数列表转换为具有指定数据类型的 numpy 数组。在这个挑战中,你将被要求编写一个 Python 函数,将整数列表转换为具有指定数据类型的 numpy 数组。这将测试你对 numpy 和 Python 中数据类型的理解。

你的第一个 Linux 实验 06

NumPy 数组操作

NumPy 是一个用于数值计算的 Python 库。它旨在处理数组和矩阵,使其成为科学计算的强大工具。在这个实验中,你将学习与 NumPy 数组操作相关的以下三个主题:

你的第一个 Linux 实验 07

NumPy 数组操作

在这个挑战中,你是一名为零售公司工作的数据科学家。你的公司有一个大型客户交易数据集,他们希望你使用 NumPy 库从中提取一些信息。具体来说,他们希望你对数据集执行一系列数组操作,以提取有关客户购买行为的一些统计信息。

你的第一个 Linux 实验 08

NumPy 切片和索引

NumPy 是一个用于科学计算的流行 Python 库。它提供了高性能的数组操作和数学函数,对数值数据分析很有用。在这个实验中,你将学习 NumPy 的切片和索引功能。

你的第一个 Linux 实验 09

数组索引和切片

在这个 Python 程序挑战中,我们将探索使用索引和切片对 numpy 数组进行一些复杂操作。这个挑战将测试你操作 numpy 数组和使用高级编程技术解决问题的技能。

你的第一个 Linux 实验 10

高效的 NumPy 数组乘法操作

NumPy 是 Python 中用于科学计算的强大库。NumPy 最重要的功能之一是能够高效地执行各种类型的数组乘法。

你的第一个 Linux 实验 11

NumPy 形状操作

在这个实验中,你将学习 NumPy 形状操作函数,这些函数允许你操作 NumPy 数组的形状。

你的第一个 Linux 实验 12

将 NumPy 数组变成你想要的形状

在这个挑战中,你将面临不同的子挑战,这些挑战将要求你将 NumPy 数组操作成你想要的形状。这些子挑战将测试你重塑数组、连接和堆叠数组以及将数组拆分为多个子数组的能力。通过完成这些子挑战,你将更深入地了解如何操作 NumPy 数组及其维度。

你的第一个 Linux 实验 13

NumPy 文件输入输出

在这个实验中,你将学习如何使用 NumPy 读取和写入数组到文件。NumPy 提供了几个用于文件输入输出的函数,这使得处理大型数据集变得容易。

你的第一个 Linux 实验 14

NumPy 高级主题

这个实验将涵盖 NumPy 的一些高级功能,包括线性代数、随机数生成和掩码数组。

你的第一个 Linux 实验 15

NumPy 数学游戏

这个挑战将帮助你理解如何在 Python 中使用 NumPy 模块以及如何处理 NumPy 数组

Pandas 快速入门

Pandas 快速入门

本课程是为想要开始使用 Pandas 分析数据的初学者设计的。它涵盖了 Pandas 的基础知识,包括数据结构、数据操作和数据可视化。

你的第一个 Pandas 实验 01

你的第一个 Pandas 实验

嗨,欢迎来到 LabEx!在这个第一个实验中,你将学习 Pandas 中的经典 “你好,世界!” 程序。

使用 Pandas 进行操作 02

使用 Pandas 进行操作

Pandas 是 Python 开发的一个强大的数据操作工具。它常用于数据分析和清理,因为它灵活且易于使用。在这个实验中,我们将学习如何使用 Pandas 执行基本操作,如加载数据、创建数据框、访问数据和执行简单统计。

Pandas 数据操作 03

Pandas 数据操作

本实验将指导你如何使用 Pandas 读取、写入和操作数据,Pandas 是一个用于 Python 的强大数据分析和操作库。我们将使用泰坦尼克号沉船数据集进行此练习。

Pandas 中的数据选择 04

Pandas 中的数据选择

在这个实验中,我们将学习如何使用 Pandas 从数据框中选择特定数据,Pandas 是 Python 中一个流行的数据分析和操作库。我们将在本教程中使用泰坦尼克号数据集。

用于空气质量分析的 Pandas 绘图 05

用于空气质量分析的 Pandas 绘图

在这个实验中,我们将学习如何使用 Pandas 创建绘图,Pandas 是 Python 中一个强大的数据操作库。我们将使用实际空气质量数据进行实际演示。在本实验结束时,你应该能够使用 Pandas 创建折线图、散点图、箱线图,并自定义你的图表。

在 Pandas 中处理列 06

在 Pandas 中处理列

在这个实验中,我们将学习如何在 Pandas 中处理列。我们将探索如何从现有列创建新列,对列应用数学和逻辑运算,重命名列标签,以及使用 apply 方法执行按列操作。

使用 Pandas 进行泰坦尼克号乘客数据分析 07

使用 Pandas 进行泰坦尼克号乘客数据分析

在这个实验中,我们将学习如何使用 Python 的 Pandas 库计算数据的汇总统计信息。我们将使用泰坦尼克号数据集,其中包含泰坦尼克号沉船乘客的数据。我们将学习如何计算汇总统计信息、聚合统计信息以及按类别统计记录数量。

使用 Pandas 重塑数据 08

使用 Pandas 重塑数据

在这个实验中,我们将探索如何使用各种函数(如 sort_values、pivot、pivot_table 和 melt)在 pandas 中重塑数据。我们将使用泰坦尼克号和空气质量数据集来演示重塑技术。

在 Pandas 中合并数据表 09

在 Pandas 中合并数据表

在这个实验中,我们将使用空气质量数据来探索如何使用 Python 的 Pandas 库合并多个表。我们将使用 concat 和 merge 函数执行这些操作。这个实验将帮助你理解如何有效地连接和合并数据框。

处理时间序列数据 10

处理时间序列数据

本实验将指导你使用 Python 包 Pandas 处理时间序列数据。我们将在本教程中使用空气质量数据。你将学习如何将字符串转换为日期时间对象,对这些日期时间对象执行操作,将时间序列重采样到另一个频率等等。

Pandas 文本数据 11

Pandas 文本数据

在这个实验中,我们将探索如何使用 Python 的 Pandas 库操作文本数据。你将学习如何将字符串字符转换为小写,提取字符串的部分内容,使用各种内置的 Pandas 方法替换字符串值等等。

Matplotlib 快速入门

Matplotlib 快速入门

本课程是关于 Matplotlib 的快速教程,Matplotlib 是一个用于绘制 2D 和 3D 图形的 Python 库。它旨在帮助你快速上手 Matplotlib。

你的第一个 Matplotlib 实验 1

你的第一个 Matplotlib 实验

嗨,欢迎来到 LabEx!在这个第一个实验中,你将学习 Matplotlib 中的经典 “你好,世界!” 程序。

使用 Matplotlib 创建折线图 2

使用 Matplotlib 创建折线图

在这个实验中,我们将学习如何使用 Matplotlib 创建折线图。折线图是一种基本的可视化方式,可用于表示由直线段连接的数据点。我们将使用 Python 中的 Matplotlib 库创建折线图。

Matplotlib Pyplot 接口教程 3

Matplotlib Pyplot 接口教程

本教程提供了使用 Matplotlib 中 pyplot 接口的逐步指南。pyplot 模块是一组函数,使 Matplotlib 的工作方式类似于 MATLAB,允许你轻松创建和自定义图表。本教程假设你对 Matplotlib 及其概念有基本的了解。

使用 Matplotlib 绘制图像 4

使用 Matplotlib 绘制图像

在这个实验中,你将学习如何使用 Python 中的 Matplotlib 库绘制和操作图像。你将学习如何将图像数据导入 NumPy 数组,将 numpy 数组绘制为图像,应用伪彩色方案,添加颜色刻度参考,检查特定数据范围,以及探索不同的插值方案。

图表的生命周期 5

图表的生命周期

在这个实验中,我们将使用 Matplotlib 探索图表的生命周期。我们将从原始数据开始,最终保存一个自定义的可视化。我们将学习如何创建图表、控制其样式、自定义其外观、组合多个可视化以及将图表保存到磁盘。

自定义 Matplotlib 可视化 6

自定义 Matplotlib 可视化

本实验将指导你使用样式表和 rcParams 自定义 Matplotlib 的过程。Matplotlib 是一个用于在 Python 中创建可视化的强大库。通过自定义 Matplotlib 的属性和默认样式,你可以创建独特且视觉上吸引人的图表。

scikit-learn 快速入门

scikit-learn 快速入门

在本课程中,我们将学习如何使用 scikit-learn 从数据构建预测模型。我们将探索机器学习的基本概念,并了解如何使用 scikit-learn 解决监督学习和无监督学习问题。我们还将学习如何评估模型、调整参数以及避免常见陷阱。我们将通过使用真实世界数据集的机器学习问题示例来进行学习。

scikit-learn 中的线性模型 01

scikit-learn 中的线性模型

在这个实验中,我们将探索 scikit-learn 中的线性模型。线性模型是用于回归和分类任务的一组方法。它们假设目标变量是特征的线性组合。由于其简单性和可解释性,这些模型在机器学习中被广泛使用。

判别分析分类器解释 02

判别分析分类器解释

线性判别分析(LDA)和二次判别分析(QDA)是机器学习中使用的两个经典分类器。LDA 使用线性决策表面,而 QDA 使用二次决策表面。这些分类器很受欢迎,因为它们有闭式解,在实践中效果良好,并且没有超参数需要调整。

探索 scikit-learn 数据集和估计器 03

探索 scikit-learn 数据集和估计器

在这个实验中,我们将探索 scikit-learn 中的设置和估计器对象,scikit-learn 是 Python 中一个流行的机器学习库。我们将了解数据集,它们以二维数组表示,以及如何为 scikit-learn 对其进行预处理。我们还将探索估计器对象的概念,它们用于从数据中学习并进行预测。

核岭回归 04

核岭回归

在这个实验中,我们将学习核岭回归(KRR)及其在 Python 中使用 scikit-learn 库的实现。KRR 将岭回归与核技巧相结合,以在核诱导的空间中学习线性函数。它是一种非线性回归方法,可以处理输入和输出变量之间的非线性关系。

使用 scikit-learn 进行监督学习 05

使用 scikit-learn 进行监督学习

在监督学习中,我们希望了解两个数据集之间的关系:观察到的数据 X 和我们想要预测的外部变量 y。

模型选择:选择估计器及其参数 06

模型选择:选择估计器及其参数

在机器学习中,模型选择是为给定数据集选择最佳模型的过程。它涉及选择合适的估计器并调整其参数以实现最佳性能。本教程将指导你完成 scikit-learn 中的模型选择过程。

使用支持向量进行监督学习 07

使用支持向量进行监督学习

在本教程中,我们将学习支持向量机(SVM),它是一组用于分类、回归和异常值检测的监督学习方法。SVM 在高维空间中很有效,并且当维度数量大于样本数量时仍然可以表现良好。

探索 scikit-learn SGD 分类器 08

探索 scikit-learn SGD 分类器

在这个实验中,我们将探索随机梯度下降(SGD),它是一种强大的优化算法,常用于机器学习中解决大规模和稀疏问题。我们将学习如何使用 scikit-learn 库中的 SGDClassifier 和 SGDRegressor 类来训练线性分类器和回归器。

无监督学习:寻找数据的表示 09

无监督学习:寻找数据的表示

在这个实验中,我们将探索无监督学习的概念,特别是聚类和分解。无监督学习是一种机器学习类型,我们没有标记数据来训练。相反,我们尝试在没有任何先验知识的情况下在数据中找到模式或结构。聚类是一种常见的无监督学习技术,用于将相似的观察分组在一起。另一方面,分解用于通过提取最重要的特征或组件来找到数据的低维表示。

实现随机梯度下降 10

实现随机梯度下降