はじめに
この実験では、scikit-learn のさまざまな手法を使ってデータセットの欠損値を補完する方法を示します。ここで使用するデータセットは、10 個の特徴量を持つ糖尿病データセットと、8 個の特徴量を持つカリフォルニア住宅データセットです。欠損値は、SimpleImputer を使って平均値、中央値、または最頻値で置き換えることができます。この実験では、定数値による補完、各特徴量の平均値と欠損データの指標補助変数を組み合わせた補完、k 近傍法による補完、および反復補完など、さまざまな補完手法を調査します。
VM のヒント
VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替えて、Jupyter Notebook を使った練習を行います。
時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題が発生した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。