Введение
В этом практическом занятии показано, как заполнять пропущенные значения в наборе данных с использованием различных методов в scikit-learn. В качестве наборов данных здесь используются наборе данных о диабете с 10 признаками и набор данных о жилье в Калифорнии с 8 признаками. Пропущенные значения можно заменить средним значением, медианой или наиболее часто встречаемым значением с использованием SimpleImputer. В этом практическом занятии будут исследованы различные методы заполнения пропусков, такие как заполнение константным значением, заполнение средним значением каждого признака в сочетании с вспомогательной переменной индикатора отсутствия данных, заполнение методом k ближайших соседей и итеративное заполнение.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами при обучении, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.