Описательная статистика Pandas: Руководство для начинающих

Введение

Добро пожаловать в лабораторию по описательной статистике Pandas. Описательная статистика является основой анализа данных, предоставляя простые сводки о выборке и мерах. С помощью Pandas, мощной библиотеки для манипулирования данными в Python, расчет этих статистик становится простым и эффективным.

В этой лаборатории вы научитесь:

Рассчитывать среднее (average) значение набора данных.
Находить медиану (median) (среднее значение).
Определять минимальное и максимальное значения.
Генерировать полную сводку статистик одной командой.
Подсчитывать уникальные значения в категориальной колонке.

Вы выполните эти операции на примере DataFrame, написав и выполнив код Python в WebIDE. Приступим!

Вычисление среднего с помощью метода mean

На этом шаге вы научитесь вычислять среднее (average) значение числовой колонки в Pandas DataFrame. Среднее значение — это сумма значений, деленная на количество значений, и это одна из наиболее распространенных мер центральной тенденции.

Pandas предоставляет метод .mean(), который можно вызвать для Series (колонки DataFrame) для вычисления ее среднего значения.

Сначала откройте файл main.py в файловом проводнике слева от WebIDE. Вы увидите начальный код, который создает наш пример DataFrame.

Добавьте следующий код в конец файла main.py для вычисления среднего значения колонки score и его вывода.

## Calculate the mean of the 'score' column
score_mean = df['score'].mean()
print(f"Mean Score: {score_mean}")

Теперь давайте запустим скрипт. Откройте терминал в WebIDE (Terminal -> New Terminal) и выполните следующую команду:

python3 main.py

Вы должны увидеть исходный DataFrame, разделитель и вычисленное среднее значение оценки.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2

Расчет медианы с помощью метода median

На этом шаге вы вычислите медиану числовой колонки. Медиана — это среднее значение набора данных, отсортированного в порядке возрастания. Часто это лучшая мера центральной тенденции, чем среднее, когда данные содержат выбросы (outliers).

Pandas упрощает это с помощью метода .median().

Продолжите редактирование файла main.py. Добавьте следующие строки в конец скрипта для вычисления и вывода медианы колонки score.

## Calculate the median of the 'score' column
score_median = df['score'].median()
print(f"Median Score: {score_median}")

Сохраните файл и снова запустите скрипт из терминала:

python3 main.py

Вывод теперь будет включать как среднее значение, так и медиану.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0

Поиск минимального и максимального значений

На этом шаге вы найдете минимальное и максимальное значения в колонке. Эти статистические показатели полезны для понимания диапазона и распределения ваших данных. Pandas предоставляет для этой цели методы .min() и .max().

Найдем наименьшие и наибольшие оценки в нашем наборе данных. Добавьте следующий код в конец вашего скрипта main.py.

## Find the minimum and maximum scores
score_min = df['score'].min()
score_max = df['score'].max()
print(f"Minimum Score: {score_min}")
print(f"Maximum Score: {score_max}")

Сохраните файл и выполните его из терминала:

python3 main.py

Ваш вывод теперь покажет среднее значение, медиану, минимальное и максимальное значения оценок.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0
Minimum Score: 78
Maximum Score: 95

Генерация сводной статистики с помощью describe

На этом шаге вы используете мощный метод .describe(). Этот единственный метод генерирует исчерпывающую сводку описательных статистик для всех числовых колонок в вашем DataFrame, включая количество (count), среднее (mean), стандартное отклонение (standard deviation), минимум (min), максимум (max) и значения квартилей (quartile values).

Это значительно экономит время при получении быстрого обзора ваших данных. Добавьте следующий код в конец файла main.py.

## Generate a summary of descriptive statistics
summary_stats = df.describe()
print("Descriptive Statistics Summary:")
print(summary_stats)

Сохраните файл и запустите скрипт:

python3 main.py

Вы увидите хорошо отформатированную таблицу, содержащую сводные статистики для колонок age и score.

... (previous output) ...

Descriptive Statistics Summary:
             age      score
count   5.000000   5.000000
mean   26.800000  87.200000
std     4.024922   6.379655
min    22.000000  78.000000
25%    24.000000  85.000000
50%    27.000000  88.000000
75%    29.000000  90.000000
max    32.000000  95.000000

Подсчет уникальных значений с помощью value_counts

На этом шаге вы узнаете, как подсчитывать количество вхождений уникальных значений в колонке, что особенно полезно для категориальных данных. Метод .value_counts() возвращает Series, содержащий количество уникальных значений.

Подсчитаем, сколько студентов получили каждую оценку. Добавьте следующий код в конец файла main.py.

## Count the occurrences of each grade
grade_counts = df['grade'].value_counts()
print("Grade Counts:")
print(grade_counts)

Сохраните файл и запустите скрипт в последний раз.

python3 main.py

Финальный вывод будет включать количество для каждой уникальной оценки.

... (previous output) ...

Grade Counts:
grade
B    2
A    2
C    1
Name: count, dtype: int64

Это показывает, что оценки 'A' и 'B' встречаются по два раза, а оценка 'C' — один раз.

Резюме

Поздравляем с завершением лабораторной работы! Вы успешно освоили основы описательного статистического анализа с использованием библиотеки Pandas.

В этой лабораторной работе вы практиковались в использовании нескольких ключевых методов Pandas:

.mean() для расчета среднего значения.
.median() для нахождения центрального значения.
.min() и .max() для определения диапазона данных.
.describe() для получения быстрой и всесторонней статистической сводки.
.value_counts() для подсчета уникальных значений в категориальной колонке.

Эти функции являются незаменимыми инструментами для любого аналитика данных или специалиста по данным и составляют основу разведочного анализа данных (EDA). Продолжайте практиковать эти навыки, чтобы стать более опытным в своем пути анализа данных.