소개
이 실습에서는 scikit-learn 의 다양한 기법을 사용하여 데이터 세트에서 누락된 데이터를 대체하는 방법을 보여줍니다. 여기서 사용된 데이터 세트는 10 개의 특징을 가진 당뇨병 데이터 세트와 8 개의 특징을 가진 캘리포니아 주택 데이터 세트입니다. 누락된 값은 SimpleImputer 를 사용하여 평균, 중앙값 또는 가장 빈번한 값으로 대체될 수 있습니다. 이 실습에서는 상수 값으로 대체하는 방법, 각 특징의 평균 값으로 대체하고 누락 여부를 나타내는 보조 변수를 결합하는 방법, k-최근접 이웃 대체, 반복 대체와 같은 다양한 대체 기법을 조사할 것입니다.
VM 팁
VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근할 수 있습니다.
때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.
학습 중 문제가 발생하면 Labby 에 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.