クラス尤度比で分類性能を測定する

はじめに

この実験では、scikit-learn を使用して、二値分類器の予測能力を評価するために正および負の尤度比 (LR+, LR-) を計算する方法を実証します。これらの指標は、テストセット内のクラス間の比率に依存しないため、研究に利用可能なデータのクラス比率がターゲットアプリケーションと異なる場合に非常に有用です。以下の手順を実行します。

VM のヒント

VM の起動が完了したら、左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を開いて練習を行います。

場合によっては、Jupyter Notebook の読み込みが完了するまで数秒待つ必要があることがあります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題が発生した場合は、いつでも Labby に質問してください。セッション終了後にフィードバックを提供していただければ、迅速に問題を解決します。

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"]) sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/linear_model("Linear Models") sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/dummy("Dummy Estimators") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/inspection("Inspection") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/linear_model -.-> lab-49196{{"分類性能を測定するためのクラス尤度比"}} sklearn/dummy -.-> lab-49196{{"分類性能を測定するためのクラス尤度比"}} sklearn/model_selection -.-> lab-49196{{"分類性能を測定するためのクラス尤度比"}} sklearn/metrics -.-> lab-49196{{"分類性能を測定するためのクラス尤度比"}} sklearn/inspection -.-> lab-49196{{"分類性能を測定するためのクラス尤度比"}} sklearn/datasets -.-> lab-49196{{"分類性能を測定するためのクラス尤度比"}} ml/sklearn -.-> lab-49196{{"分類性能を測定するためのクラス尤度比"}} end

データの準備

scikit-learn の make_classification 関数を使用して合成データセットを生成します。このデータセットは、少数の被験者が病気を持っている母集団をシミュレートします。

検査前と検査後の分析

データにロジスティック回帰モデルを適合させ、ホールドアウトテストセットでその性能を評価します。正の尤度比を計算して、この分類器を疾病診断ツールとしての有用性を評価します。

尤度比の交差検証

交差検証を使用して、特定のケースにおけるクラスの尤度比の測定値の変動性を評価します。

有病率に対する不変性

クラスの尤度比が疾病の有病率に依存せず、クラスの不均衡があっても母集団間で外挿できることを示します。