Введение
В этом лабораторном занятии мы узнаем о методе DataFrame.nunique() библиотеки Python pandas. Этот метод используется для подсчета количества различных или уникальных наблюдений в DataFrame pandas.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится полностью. Валидацию операций невозможно автоматизировать из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импортировать библиотеку pandas
Прежде чем начать, нам нужно импортировать библиотеку pandas, которая используется для манипуляции данными и их анализа. Мы можем импортировать ее с помощью следующего кода:
import pandas as pd
Создать DataFrame
Создадим примерный DataFrame для работы. Мы будем использовать функцию pd.DataFrame(), чтобы создать DataFrame с тремя столбцами A, B и C и тремя строками данных. В каждом столбце будут некоторые повторяющиеся значения.
df = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 1, 1], 'C': [2, 5, 5]})
Подсчитать уникальные значения в DataFrame
Теперь давайте используем метод DataFrame.nunique(), чтобы подсчитать количество уникальных значений в DataFrame. Мы можем указать параметр оси как "0", чтобы подсчитать уникальные значения по оси индекса (столбцы), или "1", чтобы подсчитать уникальные значения по оси столбца (строки).
print("Number of unique values in each column:")
print(df.nunique(axis=0))
print("Number of unique values in each row:")
print(df.nunique(axis=1))
Обработка пустых значений
По умолчанию метод DataFrame.nunique() не включает пустые значения в подсчетах. Если в столбце есть пустые значения, они будут считаться как "0". Создадим еще один DataFrame с некоторыми пустыми значениями и подсчитаем уникальные значения снова.
df = pd.DataFrame({'A': [1, None, 3], 'B': [1, None, 1], 'C': [2, None, 5]})
Подсчитать уникальные значения, включая пустые значения
Подсчитаем уникальные значения в этом новом DataFrame, включая пустые значения.
print("Number of unique values in each row with null values:")
print(df.nunique(axis=1))
Резюме
В этом практическом занятии мы узнали, как использовать метод DataFrame.nunique() в pandas для подсчета количества уникальных значений в DataFrame. Мы также узнали, как обрабатывать пустые значения и подсчитывать уникальные значения, включая пустые. Этот метод полезен для анализа наборов данных и понимания распределения значений в DataFrame.