介绍
在本实验中,我们将学习 pandas 的 dropna() 方法,该方法用于通过删除包含 null 或 NaN 值的行或列来移除 DataFrame 中的缺失值。
虚拟机使用提示
虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。
有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。
如果你在学习过程中遇到问题,可以随时向 Labby 寻求帮助。请在实验结束后提供反馈,我们将及时为你解决问题。
导入 pandas 库
在开始之前,我们需要导入 pandas 库。我们将使用 pd 作为该库的别名。
import pandas as pd
创建一个 DataFrame
让我们创建一个包含一些缺失值的 DataFrame。
df = pd.DataFrame([
['Abhishek', 100, 'Science', None],
['Anurag', 101, 'Science', 85],
['Chetan', 103, 'Maths', None]
], columns=['Name', 'Roll No', 'Subject', 'Marks'])
使用 dropna() 方法删除包含缺失值的行
我们可以使用 dropna() 方法来删除包含缺失值的行。默认情况下,它会删除任何包含至少一个 null 或 NaN 值的行。
df_dropped = df.dropna()
显示结果
让我们打印原始 DataFrame 以及删除包含缺失值的行后的结果 DataFrame。
print("Original DataFrame:")
print(df)
print("DataFrame after dropping rows with missing values:")
print(df_dropped)
总结
在本实验中,我们学习了 pandas 的 dropna() 方法,它用于删除 DataFrame 中包含缺失值的行或列。通过删除这些缺失值,我们可以清理 DataFrame,使其适合进一步分析。需要注意的是,此方法默认会修改 DataFrame 并返回一个新的 DataFrame,但我们也可以通过将 inplace 参数设置为 True 来选择原地修改 DataFrame。