Введение
В этом практическом занятии мы научимся строить гистограммы с использованием Matplotlib. Мы сгенерируем данные и построим простую гистограмму, обновим цвета гистограммы, построим двумерную гистограмму и настроим гистограмму по своему вкусу.
Советы по работе с ВМ
После запуска виртуальной машины кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и приступить к практике в Jupyter Notebook.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Генерация данных и построение простой гистограммы
Для построения одномерной гистограммы нам нужен только один вектор чисел. Для двумерной гистограммы потребуется второй вектор. Мы сгенерируем оба ниже и покажем гистограмму для каждого вектора.
import matplotlib.pyplot as plt
import numpy as np
## Create a random number generator with a fixed seed for reproducibility
rng = np.random.default_rng(19680801)
N_points = 100000
n_bins = 20
## Generate two normal distributions
dist1 = rng.standard_normal(N_points)
dist2 = 0.4 * rng.standard_normal(N_points) + 5
fig, axs = plt.subplots(1, 2, sharey=True, tight_layout=True)
## We can set the number of bins with the *bins* keyword argument.
axs[0].hist(dist1, bins=n_bins)
axs[1].hist(dist2, bins=n_bins)
plt.show()
Обновление цветов гистограммы
Метод гистограммы возвращает (между прочим) объект patches. Это позволяет нам получить доступ к свойствам нарисованных объектов. Используя это, мы можем отредактировать гистограмму по нашим предпочтениям. Давайте изменим цвет каждой полосы в зависимости от ее значения y.
## N is the count in each bin, bins is the lower-limit of the bin
N, bins, patches = axs[0].hist(dist1, bins=n_bins)
## We'll color code by height, but you could use any scalar
fracs = N / N.max()
## we need to normalize the data to 0..1 for the full range of the colormap
norm = colors.Normalize(fracs.min(), fracs.max())
## Now, we'll loop through our objects and set the color of each accordingly
for thisfrac, thispatch in zip(fracs, patches):
color = plt.cm.viridis(norm(thisfrac))
thispatch.set_facecolor(color)
## We can also normalize our inputs by the total number of counts
axs[1].hist(dist1, bins=n_bins, density=True)
## Now we format the y-axis to display percentage
axs[1].yaxis.set_major_formatter(PercentFormatter(xmax=1))
plt.show()
Построение двумерной гистограммы
Для построения двумерной гистограммы достаточно иметь два вектора одинаковой длины, соответствующих каждой оси гистограммы.
fig, ax = plt.subplots(tight_layout=True)
hist = ax.hist2d(dist1, dist2)
plt.show()
Настройка гистограммы
Настройка двумерной гистограммы аналогична настройке одномерной гистограммы. Вы можете контролировать такие визуальные компоненты, как размер ячеек или нормализацию цвета.
fig, axs = plt.subplots(3, 1, figsize=(5, 15), sharex=True, sharey=True,
tight_layout=True)
## We can increase the number of bins on each axis
axs[0].hist2d(dist1, dist2, bins=40)
## As well as define normalization of the colors
axs[1].hist2d(dist1, dist2, bins=40, norm=colors.LogNorm())
## We can also define custom numbers of bins for each axis
axs[2].hist2d(dist1, dist2, bins=(80, 10), norm=colors.LogNorm())
plt.show()
Резюме
В этом практическом занятии мы узнали, как строить гистограммы с использованием Matplotlib. Мы сгенерировали данные и построили простую гистограмму, обновили цвета гистограммы, построили двумерную гистограмму и настроили нашу гистограмму. Мы можем использовать эти методы для визуализации и анализа данных в различных контекстах.