Pandas DataFrame Dropna | 数据清理教程

介绍

在本实验中，我们将学习 pandas 的 dropna() 方法，该方法用于通过删除包含 null 或 NaN 值的行或列来移除 DataFrame 中的缺失值。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到 Notebook 标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟，直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，可以随时向 Labby 寻求帮助。请在实验结束后提供反馈，我们将及时为你解决问题。

导入 pandas 库

在开始之前，我们需要导入 pandas 库。我们将使用 pd 作为该库的别名。

import pandas as pd

创建一个 DataFrame

让我们创建一个包含一些缺失值的 DataFrame。

df = pd.DataFrame([
    ['Abhishek', 100, 'Science', None],
    ['Anurag', 101, 'Science', 85],
    ['Chetan', 103, 'Maths', None]
], columns=['Name', 'Roll No', 'Subject', 'Marks'])

使用 dropna() 方法删除包含缺失值的行

我们可以使用 dropna() 方法来删除包含缺失值的行。默认情况下，它会删除任何包含至少一个 null 或 NaN 值的行。

df_dropped = df.dropna()

显示结果

让我们打印原始 DataFrame 以及删除包含缺失值的行后的结果 DataFrame。

print("Original DataFrame:")
print(df)

print("DataFrame after dropping rows with missing values:")
print(df_dropped)

总结

在本实验中，我们学习了 pandas 的 dropna() 方法，它用于删除 DataFrame 中包含缺失值的行或列。通过删除这些缺失值，我们可以清理 DataFrame，使其适合进一步分析。需要注意的是，此方法默认会修改 DataFrame 并返回一个新的 DataFrame，但我们也可以通过将 inplace 参数设置为 True 来选择原地修改 DataFrame。

Pandas DataFrame Dropna 方法

介绍

虚拟机使用提示

导入 pandas 库

创建一个 DataFrame

使用 dropna() 方法删除包含缺失值的行

显示结果

总结