Метод corr() для DataFrame в Pandas

PythonPythonBeginner
Практиковаться сейчас

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом практическом занятии мы научимся использовать метод corr() из библиотеки pandas для вычисления корреляции между столбцами в DataFrame. Корреляция - это мера линейной связи между двумя переменными, и она помогает нам понять, как изменения одной переменной влияют на другую.

Советы по работе с ВМ

После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и приступить к практике в Jupyter Notebook.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится полностью. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт необходимых библиотек

Сначала нам нужно импортировать необходимые библиотеки. В этом случае нам нужна только библиотека pandas.

import pandas as pd

Создание DataFrame

Далее создадим DataFrame для работы. Создадим простой DataFrame с столбцами, представляющими имена людей, их возраст, рост и вес.

chart = {
    'Name':['Chetan','yashas','yuvraj'],
    'Age':  [20, 25, 30],
    'Height': [155, 160, 175],
    'Weight': [55, 60, 75]
}

df = pd.DataFrame(chart)

Вычисление корреляции

Теперь мы можем вычислить корреляцию между столбцами DataFrame с использованием метода corr(). Мы можем указать необязательный параметр method, чтобы определить метод корреляции (pearson, kendall или spearman). Если метод не указан, по умолчанию используется корреляция Пирсона.

Вычислим корреляцию Пирсона между столбцами нашего DataFrame:

pearson_corr = df.corr(method='pearson')
print("Pearson Correlation:")
print(pearson_corr)

Визуализация корреляции

Можем визуализировать матрицу корреляции с использованием тепловой карты. Библиотека seaborn предоставляет удобный способ создания тепловых карточек.

import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title("Pearson Correlation Heatmap")
plt.show()

Вычисление корреляции с использованием других методов

Мы также можем вычислить корреляцию с использованием методов Кендалла или Спирмена. Для этого достаточно указать параметр method соответственно. Вычислим корреляцию Кендалла нашего DataFrame:

kendall_corr = df.corr(method='kendall')
print("Kendall Correlation:")
print(kendall_corr)

Визуализация тепловой карты корреляции с использованием других методов

Аналогично, мы можем создать тепловую карту, чтобы визуализировать корреляции Кендалла и Спирмена:

sns.heatmap(kendall_corr, annot=True, cmap='coolwarm')
plt.title("Kendall Correlation Heatmap")
plt.show()

Повторите процесс с использованием корреляции Спирмена

Наконец, давайте вычислим и визуализируем корреляцию Спирмена:

spearman_corr = df.corr(method='spearman')
print("Spearman Correlation:")
print(spearman_corr)
sns.heatmap(spearman_corr, annot=True, cmap='coolwarm')
plt.title("Spearman Correlation Heatmap")
plt.show()

Резюме

В этом практическом занятии мы узнали, как вычислять и визуализировать корреляцию между столбцами DataFrame с использованием метода corr() в pandas. Мы изучили различные методы корреляции, включая Пирсона, Кендалла и Спирмена, и использовали тепловые карты для визуализации матриц корреляции. Анализ корреляции помогает нам выявлять связи между переменными и полезен в многих областях, таких как анализ данных, машинное обучение и финансы.