Создайте гистограммы с штриховкой и заливкой с использованием Matplotlib

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом лабе мы узнаем, как создавать гистограммы с штриховкой с использованием Matplotlib. Гистограмма - это графическое представление данных, в котором используются столбцы для отображения частоты числовых данных. Гистограмма с штриховкой - это гистограмма, в которой столбцы заполнены рисунком из линий, точек или других символов.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортируем необходимые библиотеки

Для этого лабы мы импортируем необходимые библиотеки. Нам нужны следующие библиотеки:

  • numpy для генерации случайных данных
  • matplotlib.pyplot для создания графиков
  • matplotlib.ticker для настройки расположения делений на осях
  • cycler для создания циклов стилей
  • functools.partial для создания частичной функции
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as mticker
from cycler import cycler
from functools import partial

Определяем функцию для гистограммы

Мы определим функцию для рисования гистограммы в виде ступенчатой области. Функция будет принимать следующие параметры:

  • ax: оси для рисования
  • edges: массив длиной n+1, задающий левые края каждого интервала и правый край последнего интервала
  • values: массив длиной n с количеством элементов в каждом интервале или значениями
  • bottoms: число или массив, необязательный, массив длиной n с нижними краями столбцов. Если None, используется ноль.
  • orientation: строка, необязательная, ориентация гистограммы. 'v' (по умолчанию) означает, что столбцы возрастают в положительном направлении оси y.
def filled_hist(ax, edges, values, bottoms=None, orientation='v', **kwargs):
    """
    Draw a histogram as a stepped patch.

    Parameters
    ----------
    ax : Axes
        The axes to plot to

    edges : array
        A length n+1 array giving the left edges of each bin and the
        right edge of the last bin.

    values : array
        A length n array of bin counts or values

    bottoms : float or array, optional
        A length n array of the bottom of the bars.  If None, zero is used.

    orientation : {'v', 'h'}
       Orientation of the histogram.  'v' (default) has
       the bars increasing in the positive y-direction.

    **kwargs
        Extra keyword arguments are passed through to `.fill_between`.

    Returns
    -------
    ret : PolyCollection
        Artist added to the Axes
    """
    if orientation not in 'hv':
        raise ValueError(f"orientation must be in {{'h', 'v'}} not {orientation}")

    kwargs.setdefault('step', 'post')
    kwargs.setdefault('alpha', 0.7)
    edges = np.asarray(edges)
    values = np.asarray(values)
    if len(edges) - 1!= len(values):
        raise ValueError(f'Must provide one more bin edge than value not: {len(edges)=} {len(values)=}')

    if bottoms is None:
        bottoms = 0
    bottoms = np.broadcast_to(bottoms, values.shape)

    values = np.append(values, values[-1])
    bottoms = np.append(bottoms, bottoms[-1])
    if orientation == 'h':
        return ax.fill_betweenx(edges, values, bottoms, **kwargs)
    elif orientation == 'v':
        return ax.fill_between(edges, values, bottoms, **kwargs)
    else:
        raise AssertionError("you should never be here")

Определяем функцию для накопленной гистограммы

Мы определим функцию для создания накопленной гистограммы. Функция будет принимать следующие параметры:

  • ax: оси, на которые будут добавлены элементы графика
  • stacked_data: массив формы (M, N). Первая размерность будет итерироваться для вычисления гистограмм по строкам
  • sty_cycle: Cycler или итерируемый объект словарей, стиль, который будет применяться к каждой группе
  • bottoms: массив, по умолчанию: 0, начальные позиции нижних частей столбцов
  • hist_func: вызываемая функция, необязательная. Должен иметь сигнатуру bin_vals, bin_edges = f(data). bin_edges ожидается на один элемент длиннее, чем bin_vals
  • labels: список строк, необязательный, метка для каждой группы. Если не задано и stacked_data - это массив, по умолчанию используется 'default set {n}'. Если stacked_data - это словарь и labels равен None, по умолчанию используются ключи. Если stacked_data - это словарь и labels задан, то будут нарисованы только перечисленные столбцы
  • plot_func: вызываемая функция, необязательная, функция, которая будет вызываться для рисования гистограммы. Должен иметь сигнатуру ret = plot_func(ax, edges, top, bottoms=bottoms, label=label, **kwargs)
  • plot_kwargs: словарь, необязательный, любые дополнительные именованные аргументы, которые будут переданы в функцию рисования. Это будет одинаково для всех вызовов функции рисования и будет переопределять значения в sty_cycle
def stack_hist(ax, stacked_data, sty_cycle, bottoms=None, hist_func=None, labels=None, plot_func=None, plot_kwargs=None):
    """
    Parameters
    ----------
    ax : axes.Axes
        The axes to add artists too

    stacked_data : array or Mapping
        A (M, N) shaped array.  The first dimension will be iterated over to
        compute histograms row-wise

    sty_cycle : Cycler or operable of dict
        Style to apply to each set

    bottoms : array, default: 0
        The initial positions of the bottoms.

    hist_func : callable, optional
        Must have signature `bin_vals, bin_edges = f(data)`.
        `bin_edges` expected to be one longer than `bin_vals`

    labels : list of str, optional
        The label for each set.

        If not given and stacked data is an array defaults to 'default set {n}'

        If *stacked_data* is a mapping, and *labels* is None, default to the
        keys.

        If *stacked_data* is a mapping and *labels* is given then only the
        columns listed will be plotted.

    plot_func : callable, optional
        Function to call to draw the histogram must have signature:

          ret = plot_func(ax, edges, top, bottoms=bottoms,
                          label=label, **kwargs)

    plot_kwargs : dict, optional
        Any extra keyword arguments to pass through to the plotting function.
        This will be the same for all calls to the plotting function and will
        override the values in *sty_cycle*.

    Returns
    -------
    arts : dict
        Dictionary of artists keyed on their labels
    """
    ## deal with default binning function
    if hist_func is None:
        hist_func = np.histogram

    ## deal with default plotting function
    if plot_func is None:
        plot_func = filled_hist

    ## deal with default
    if plot_kwargs is None:
        plot_kwargs = {}

    try:
        l_keys = stacked_data.keys()
        label_data = True
        if labels is None:
            labels = l_keys

    except AttributeError:
        label_data = False
        if labels is None:
            labels = itertools.repeat(None)

    if label_data:
        loop_iter = enumerate((stacked_data[lab], lab, s) for lab, s in zip(labels, sty_cycle))
    else:
        loop_iter = enumerate(zip(stacked_data, labels, sty_cycle))

    arts = {}
    for j, (data, label, sty) in loop_iter:
        if label is None:
            label = f'dflt set {j}'
        label = sty.pop('label', label)
        vals, edges = hist_func(data)
        if bottoms is None:
            bottoms = np.zeros_like(vals)
        top = bottoms + vals
        sty.update(plot_kwargs)
        ret = plot_func(ax, edges, top, bottoms=bottoms, label=label, **sty)
        bottoms = top
        arts[label] = ret
    ax.legend(fontsize=10)
    return arts

Настраиваем функцию гистограммы с фиксированными интервалами

Мы настроим функцию гистограммы с фиксированными интервалами с использованием numpy.histogram. Мы создадим 20 интервалов, ranging от -3 до 3.

edges = np.linspace(-3, 3, 20, endpoint=True)
hist_func = partial(np.histogram, bins=edges)

Настраиваем циклы стилей

Мы настроим циклы стилей для гистограмм с использованием cycler. Мы создадим три цикла стилей: один для цвета заливки, один для метки и один для шаблона штриховки.

color_cycle = cycler(facecolor=plt.rcParams['axes.prop_cycle'][:4])
label_cycle = cycler(label=[f'set {n}' for n in range(4)])
hatch_cycle = cycler(hatch=['/', '*', '+', '|'])

Генерируем случайные данные

Мы будем генерировать случайные данные с использованием numpy.random.randn. Мы сгенерируем 4 набора данных по 12250 точек каждый.

np.random.seed(19680801)
stack_data = np.random.randn(4, 12250)

Создаем гистограмму с штриховкой и заливкой

Мы создадим гистограмму с штриховкой и заливкой с использованием функции stack_hist, которую мы определили ранее. Мы будем использовать stack_data, color_cycle и hist_func, которые мы определили ранее. Мы также настроим plot_kwargs для включения цвета границ и ориентации.

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(9, 4.5), tight_layout=True)
arts = stack_hist(ax1, stack_data, color_cycle + label_cycle + hatch_cycle, hist_func=hist_func)

arts = stack_hist(ax2, stack_data, color_cycle, hist_func=hist_func, plot_kwargs=dict(edgecolor='w', orientation='h'))
ax1.set_ylabel('counts')
ax1.set_xlabel('x')
ax2.set_xlabel('counts')
ax2.set_ylabel('x')

Создаем гистограмму с штриховкой и заливкой с метками

Мы создадим гистограмму с штриховкой и заливкой с метками с использованием функции stack_hist, которую мы определили ранее. Мы будем использовать dict_data, color_cycle и hist_func, которые мы определили ранее. Мы также установим labels в ['set 0','set 3'], чтобы нарисовать только первый и последний набор.

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(9, 4.5), tight_layout=True, sharey=True)
dict_data = dict(zip((c['label'] for c in label_cycle), stack_data))
arts = stack_hist(ax1, dict_data, color_cycle + hatch_cycle, hist_func=hist_func)

arts = stack_hist(ax2, dict_data, color_cycle + hatch_cycle, hist_func=hist_func, labels=['set 0','set 3'])
ax1.xaxis.set_major_locator(mticker.MaxNLocator(5))
ax1.set_xlabel('counts')
ax1.set_ylabel('x')
ax2.set_ylabel('x')

Резюме

В этом практическом занятии мы узнали, как создавать гистограммы с штриховкой и заливкой с использованием Matplotlib. Мы определили две функции: filled_hist для рисования гистограммы в виде ступенчатой наклеек и stack_hist для создания накопленной гистограммы. Мы также настроили функцию гистограммы с фиксированными интервалами с использованием numpy.histogram и определили три цикла стилей для гистограмм с использованием cycler. Наконец, мы сгенерировали случайные данные и создали две гистограммы с штриховкой и заливкой с использованием функции stack_hist.