Построение гистограмм с использованием Matplotlib

PythonPythonBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом практическом занятии мы научимся строить гистограммы с использованием Matplotlib. Мы сгенерируем данные и построим простую гистограмму, обновим цвета гистограммы, построим двумерную гистограмму и настроим гистограмму по своему вкусу.

Советы по работе с ВМ

После запуска виртуальной машины кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и приступить к практике в Jupyter Notebook.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Генерация данных и построение простой гистограммы

Для построения одномерной гистограммы нам нужен только один вектор чисел. Для двумерной гистограммы потребуется второй вектор. Мы сгенерируем оба ниже и покажем гистограмму для каждого вектора.

import matplotlib.pyplot as plt
import numpy as np

## Create a random number generator with a fixed seed for reproducibility
rng = np.random.default_rng(19680801)

N_points = 100000
n_bins = 20

## Generate two normal distributions
dist1 = rng.standard_normal(N_points)
dist2 = 0.4 * rng.standard_normal(N_points) + 5

fig, axs = plt.subplots(1, 2, sharey=True, tight_layout=True)

## We can set the number of bins with the *bins* keyword argument.
axs[0].hist(dist1, bins=n_bins)
axs[1].hist(dist2, bins=n_bins)

plt.show()

Обновление цветов гистограммы

Метод гистограммы возвращает (между прочим) объект patches. Это позволяет нам получить доступ к свойствам нарисованных объектов. Используя это, мы можем отредактировать гистограмму по нашим предпочтениям. Давайте изменим цвет каждой полосы в зависимости от ее значения y.

## N is the count in each bin, bins is the lower-limit of the bin
N, bins, patches = axs[0].hist(dist1, bins=n_bins)

## We'll color code by height, but you could use any scalar
fracs = N / N.max()

## we need to normalize the data to 0..1 for the full range of the colormap
norm = colors.Normalize(fracs.min(), fracs.max())

## Now, we'll loop through our objects and set the color of each accordingly
for thisfrac, thispatch in zip(fracs, patches):
    color = plt.cm.viridis(norm(thisfrac))
    thispatch.set_facecolor(color)

## We can also normalize our inputs by the total number of counts
axs[1].hist(dist1, bins=n_bins, density=True)

## Now we format the y-axis to display percentage
axs[1].yaxis.set_major_formatter(PercentFormatter(xmax=1))

plt.show()

Построение двумерной гистограммы

Для построения двумерной гистограммы достаточно иметь два вектора одинаковой длины, соответствующих каждой оси гистограммы.

fig, ax = plt.subplots(tight_layout=True)
hist = ax.hist2d(dist1, dist2)

plt.show()

Настройка гистограммы

Настройка двумерной гистограммы аналогична настройке одномерной гистограммы. Вы можете контролировать такие визуальные компоненты, как размер ячеек или нормализацию цвета.

fig, axs = plt.subplots(3, 1, figsize=(5, 15), sharex=True, sharey=True,
                        tight_layout=True)

## We can increase the number of bins on each axis
axs[0].hist2d(dist1, dist2, bins=40)

## As well as define normalization of the colors
axs[1].hist2d(dist1, dist2, bins=40, norm=colors.LogNorm())

## We can also define custom numbers of bins for each axis
axs[2].hist2d(dist1, dist2, bins=(80, 10), norm=colors.LogNorm())

plt.show()

Резюме

В этом практическом занятии мы узнали, как строить гистограммы с использованием Matplotlib. Мы сгенерировали данные и построили простую гистограмму, обновили цвета гистограммы, построили двумерную гистограмму и настроили нашу гистограмму. Мы можем использовать эти методы для визуализации и анализа данных в различных контекстах.