Анализ географических данных | Оценка плотности ядра | Запрос на основе соседей

Введение

В этом практическом занятии демонстрируется пример запроса на основе соседей (в частности, оценка плотности ядра) для географических данных с использованием Ball Tree, построенного на основе метрики расстояния Хаверсину — то есть расстояния между точками в градусах широты и долготы. Датасет предоставлен Phillips et. al. (2006). В примере используется библиотека basemap для построения海岸线 и национальных границ Южной Америки.

Советы по использованию ВМ

После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Notebook, чтобы приступить к практике в Jupyter Notebook.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь задавать вопросы Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортировать необходимые библиотеки

Первым шагом является импорт необходимых библиотек для этого практического занятия. В этом практическом занятии мы будем использовать библиотеки numpy, matplotlib, fetch_species_distributions и KernelDensity.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_species_distributions
from sklearn.neighbors import KernelDensity

Загрузить данные

Следующим шагом является загрузка данных, предоставленных Phillips et. al. (2006). В наборе данных есть два вида, которые мы будем использовать для демонстрации оценки плотности ядра.

data = fetch_species_distributions()
species_names = ["Bradypus Variegatus", "Microryzomys Minutus"]

Подготовить данные

Теперь мы подготовим данные для оценки плотности ядра. Мы извлечем информацию о широте и долготе из набора данных и преобразуем их в радианы.

Xtrain = np.vstack([data["train"]["dd lat"], data["train"]["dd long"]]).T
ytrain = np.array(
    [d.decode("ascii").startswith("micro") for d in data["train"]["species"]],
    dtype="int",
)
Xtrain *= np.pi / 180.0  ## Convert lat/long to radians

Построить сетки

Теперь мы построим сетку карты из объекта пакета. Для этого мы будем использовать функцию construct_grids.

def construct_grids(batch):
    """Construct the map grid from the batch object

    Parameters
    ----------
    batch : Batch object
        The object returned by :func:`fetch_species_distributions`

    Returns
    -------
    (xgrid, ygrid) : 1-D arrays
        The grid corresponding to the values in batch.coverages
    """
    ## x,y coordinates for corner cells
    xmin = batch.x_left_lower_corner + batch.grid_size
    xmax = xmin + (batch.Nx * batch.grid_size)
    ymin = batch.y_left_lower_corner + batch.grid_size
    ymax = ymin + (batch.Ny * batch.grid_size)

    ## x coordinates of the grid cells
    xgrid = np.arange(xmin, xmax, batch.grid_size)
    ## y coordinates of the grid cells
    ygrid = np.arange(ymin, ymax, batch.grid_size)

    return (xgrid, ygrid)

## Call the function and store the results in xgrid and ygrid
xgrid, ygrid = construct_grids(data)

Подготовить сетку данных

Мы настроим сетку данных для карты уровня. Для этого мы будем использовать функцию construct_grids.

X, Y = np.meshgrid(xgrid[::5], ygrid[::5][::-1])
land_reference = data.coverages[6][::5, ::5]
land_mask = (land_reference > -9999).ravel()

xy = np.vstack([Y.ravel(), X.ravel()]).T
xy = xy[land_mask]
xy *= np.pi / 180.0

Построить карту Южной Америки

Теперь мы построим карту Южной Америки с распределениями каждого вида.

fig = plt.figure()
fig.subplots_adjust(left=0.05, right=0.95, wspace=0.05)

for i in range(2):
    plt.subplot(1, 2, i + 1)

    print(" - computing KDE in spherical coordinates")
    kde = KernelDensity(
        bandwidth=0.04, metric="haversine", kernel="gaussian", algorithm="ball_tree"
    )
    kde.fit(Xtrain[ytrain == i])

    Z = np.full(land_mask.shape[0], -9999, dtype="int")
    Z[land_mask] = np.exp(kde.score_samples(xy))
    Z = Z.reshape(X.shape)

    levels = np.linspace(0, Z.max(), 25)
    plt.contourf(X, Y, Z, levels=levels, cmap=plt.cm.Reds)

    if basemap:
        print(" - plot coastlines using basemap")
        m = Basemap(
            projection="cyl",
            llcrnrlat=Y.min(),
            urcrnrlat=Y.max(),
            llcrnrlon=X.min(),
            urcrnrlon=X.max(),
            resolution="c",
        )
        m.drawcoastlines()
        m.drawcountries()
    else:
        print(" - plot coastlines from coverage")
        plt.contour(
            X, Y, land_reference, levels=[-9998], colors="k", linestyles="solid"
        )
        plt.xticks([])
        plt.yticks([])

    plt.title(species_names[i])

plt.show()

Резюме

В этом практическом занятии мы научились выполнять оценку плотности ядра для географических данных. Мы использовали набор данных Филипсса и др. (2006) для демонстрации этой техники. Мы также научились строить карту Южной Америки с распределениями каждого вида с использованием библиотеки basemap.

Оценка плотности ядра распределений видов