소개
이 실습에서는 여러 추정기를 결합하여 예측을 수행하는 스태킹 (Stacking) 방법을 사용합니다. 이 전략에서 일부 추정기는 훈련 데이터에 개별적으로 적합되고, 최종 추정기는 이러한 기본 추정기의 스택된 예측을 사용하여 훈련됩니다. Ames 주택 데이터 세트를 사용하여 주택의 최종 로그 가격을 예측할 것입니다. 3 개의 학습기 (선형 및 비선형) 를 사용하고, 리지 회귀자를 사용하여 그 출력을 결합할 것입니다. 또한 각 개별 예측기의 성능과 회귀자 스택의 성능을 비교할 것입니다.
VM 팁
VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근할 수 있습니다.
때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.
학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.
데이터셋 다운로드
Ames 주택 데이터셋을 사용할 것입니다. 이 데이터셋은 처음 Dean De Cock 에 의해 컴파일되었으며, Kaggle 챌린지에서 사용된 후 더 잘 알려지게 되었습니다. 이 데이터셋은 아이오와주 아메스에 있는 1460 개의 주택을 나타내며, 각 주택은 80 개의 특징으로 설명됩니다. 이 예제에서는 GradientBoostingRegressor() 를 사용하여 선택된 20 개의 가장 중요한 특징만 사용하고, 레코드 수를 제한할 것입니다.
데이터 전처리 파이프라인 생성
Ames 데이터셋을 사용하기 전에 먼저 전처리를 수행해야 합니다. 먼저, 데이터셋의 범주형 및 수치형 열을 선택하여 파이프라인의 첫 번째 단계를 구성합니다. 그런 다음, 최종 회귀자에 따라 전처리 파이프라인을 설계해야 합니다. 최종 회귀자가 선형 모델인 경우, 범주를 원 - 핫 인코딩해야 합니다. 최종 회귀자가 트리 기반 모델인 경우 순서형 인코더가 충분합니다. 또한, 선형 모델의 경우 수치 값을 표준화해야 하지만, 트리 기반 모델의 경우 원시 수치 데이터를 그대로 사용할 수 있습니다. 그러나 두 모델 모두 결측값을 처리하기 위한 임퓨터가 필요합니다.
단일 데이터셋에 대한 예측기 스택
이제 Ames 주택 데이터셋을 사용하여 예측을 수행할 수 있습니다. 각 개별 예측기의 성능과 회귀자 스택의 성능을 확인합니다. 3 개의 학습자 (선형 및 비선형) 를 결합하고, 그 출력을 결합하기 위해 릿지 회귀자를 사용합니다. 스택형 회귀자는 서로 다른 회귀자의 강점을 결합합니다. 그러나 스택형 회귀자를 학습하는 데는 계산 비용이 훨씬 더 많이 듭니다.
결과 측정 및 플롯
스택형 회귀자의 결과를 개별 예측기와 비교하여 측정하고 플롯합니다.
요약
이 실습에서는 여러 추정기를 결합하여 예측을 수행하는 스태킹 (Stacking) 방법에 대해 배웠습니다. Ames 주택 데이터셋을 사용하여 주택의 최종 로그 가격을 예측했습니다. 또한, 최종 회귀자에 따라 전처리 파이프라인을 설계하는 방법과 각 개별 예측기의 성능뿐만 아니라 회귀자 스택의 성능을 측정하는 방법을 배웠습니다.