はじめに
この実験では、Pandas DataFrame の drop_duplicates() メソッドを使用して重複行を削除する方法を学びます。このメソッドを使用するための手順を例を交えて説明します。
VM のヒント
VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。
時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題がある場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
必要なライブラリをインポートする
まず、必要なライブラリをインポートする必要があります。この実験では、Pandas ライブラリを使用します。
import pandas as pd
DataFrame を作成する
次に、重複行を含む DataFrame を作成する必要があります。DataFrame を作成するには pd.DataFrame() 関数を使用します。
df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)
重複行を削除する
これで、DataFrame から重複行を削除するために drop_duplicates() メソッドを使用できます。このメソッドは、重複行が削除された新しい DataFrame を返します。
df = df.drop_duplicates()
print("After removing duplicate rows:")
print(df)
まとめ
この実験では、Pandas DataFrame の drop_duplicates() メソッドを使用して重複行を削除する方法を学びました。対象とする列や残す重複行を指定することで、このメソッドが重複行を処理する方法をカスタマイズできます。
これらの手順に従えば、drop_duplicates() メソッドを使って Pandas DataFrame から効果的に重複行を削除できます。