머신러닝 | 확률 보정 | 합성 데이터셋

소개

분류 작업에서는 종종 클래스 레이블뿐만 아니라 관련 확률을 예측하는 것이 중요합니다. 확률은 예측의 신뢰도를 나타냅니다. 그러나 모든 분류기가 잘 보정된 확률을 제공하는 것은 아니며, 일부는 과신하는 반면 다른 일부는 과소신뢰합니다. 예측 확률의 별도 보정은 종종 사후 처리 단계로 바람직합니다. 이 실습에서는 이러한 보정을 위한 두 가지 다른 방법을 보여주고 Brier 점수를 사용하여 반환된 확률의 품질을 평가합니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근할 수 있습니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.

학습 중 문제가 발생하면 Labby 에 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

합성 데이터셋 생성

먼저, 두 개의 클래스를 가진 세 개의 블롭으로 구성된 합성 데이터셋을 생성합니다. 두 번째 블롭은 양성 샘플과 음성 샘플을 각각 절반씩 포함하고 있습니다. 따라서 이 블롭의 확률은 0.5 입니다.

가우시안 나이브 베이즈

분류에 가우시안 나이브 베이즈를 사용합니다. 가우시안 나이브 베이즈 분류기는 종종 확률이 잘 보정되지 않습니다. 보정 없이, 시그모이드 보정을 사용하고, 비모수적 등온 보정을 사용한 가우시안 나이브 베이즈 분류기를 사용하여 추정된 확률을 비교합니다.

데이터 및 예측 확률 시각화

데이터와 예측 확률을 시각화합니다.

요약

이 실험에서는 합성 데이터를 생성하고, 가우시안 나이브 베이즈를 분류에 사용했습니다. 가우시안 나이브 베이즈 분류기를 보정 없이, 시그모이드 보정을 사용하고, 비모수적 등온 보정을 사용하여 추정된 확률을 비교했습니다. 그런 다음 데이터와 예측 확률을 시각화했습니다. 브리어 점수 손실을 비교한 결과, 비모수적 모델만이 중간 클러스터에 속하는 다양한 레이블을 가진 대부분의 샘플에 대한 기대 확률 0.5 에 가까운 확률 보정을 제공할 수 있었습니다. 이는 브리어 점수의 상당한 개선으로 이어졌습니다.

분류기의 확률 보정

소개

VM 팁

합성 데이터셋 생성

가우시안 나이브 베이즈

데이터 및 예측 확률 시각화

요약