はじめに
新奇性検出とアウトライア検出は、新しい観測値が既存の観測値と同じ分布に属するか、それとも異なると考えられるかを識別するために使用される手法です。これらの手法は、異常または不尋常な観測値を識別することにより、実際のデータセットをクリーニングするために一般的に使用されます。
この文脈において、2 つの重要な区別があります:
- アウトライア検出:学習データにはアウトライアが含まれており、これは他のデータから離れた観測値です。アウトライア検出推定器は、学習データが最も集中している領域にフィットさせようとし、逸脱した観測値を無視します。
- 新奇性検出:学習データはアウトライアに汚染されておらず、目的は新しい観測値がアウトライアであるかどうかを検出することです。この文脈では、アウトライアはまた新奇性と呼ばれます。
scikit-learn プロジェクトは、新奇性検出とアウトライア検出の両方に使用できる一連の機械学習ツールを提供しています。これらのツールは、教師なし学習アルゴリズムを使用して実装されており、これはラベル付きの例が必要なく、データからパターンを学習することを意味します。
VM のヒント
VM の起動が完了した後、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。
時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。
学習中に問題に直面した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。そうすれば、迅速に問題を解決します。