Использование пространственных метрик для сравнения и кластеризации игроков

Этот пост написан пользователем Sports.ru, начать писать может каждый болельщик (сделать это можно здесь).

Перевод статьи Business Analytic.

Такие трекинг-данные как преодолённая дистанция и максимальная скорость уже давно используются футбольными клубами для измерения физической активности игроков во время матча. В этом посте я покажу, как данные пространственного местоположения TRACAB могут быть подсчитаны и визуализированы, а также как их можно использовать для сравнения футболистов.

Точечные карты

Первым очевидным шагом является отображение местоположений игрока на поле. В качестве примера взяты три футболиста, участвовавших в матче “Халл Сити”-”Манчестер Юнайтед”, состоявшемся в последний день сезона 2014/2015. “Халл” всеми силами пытался избежать вылета, но встреча завершилась безголевой ничьей.

Загружаю...

На рисунке 1 показаны точечные карты местонахождений трёх игроков в этом матче (направление поля - слева направо):

Figure 1. Точечные карты местоположения

Мы видим, что Доусон (центральный защитник “Халл Сити” - примечание SFT) действовал в центральной зоне на своей половине поля, но также он был активен в штрафной “МЮ”. Мата и Валенсия играли справа, и разница между ними не очень заметна.

Точечные карты являются полезными, но не особенно показательными визуализациями. В следующем разделе я покажу, как эти карты могут использоваться для более контекстных визуализаций и метрик.

Диапазон игрока

Я определяю “диапазон” как область, охватывающую большинство точек местонахождения игрока. Критерий ‘Большинства’ можно определить на свой вкус - 80%, 85% или 90%, например. В этом посте я буду в основном использовать 80%. Важно отметить, что Диапазон не ограничивается одной непрерывной зоной. Как мы увидим, у некоторых игроков он состоит из нескольких областей.

В следующем наборе диаграмм я нарисовал вычисленные Диапазоны поверх точечных карт. В каждом случае Диапазон охватывает 80% местоположений игрока на поле.

Загружаю...

Figure 2. Точечные карты и Диапазоны

Здесь мы видим, что Диапазон Доусона состоит из двух областей: основная - центральная зона на половине поля “Халла”, вторая - штрафная соперника. Также, после выделения Диапазонов более чётко проявляется разница между Матой и Валенсией: испанец был активен на фланге и центре на чужой половине поля, а Валенсия - на фланге и в центре собственной штрафной.

На этом этапе вы можете задаться вопросом - а почему бы просто не использовать тепловые карты? Дело в том, что тепловые карты подходят, если вы хотите выделить активность одного игрока, но они не позволяют визуализировать статистику по нескольким футболистам и их невозможно перевести в статистические метрики. О двух этих идеях далее.

Визуализация активности нескольких игроков

Если мы хотим представить совместную активность двух и более игроков, мы можем наложить их Диапазоны друг на друга. На карте ниже приведены Диапазоны четвёрки защитников “Ливерпуля” в матче со “Сток Сити” (на этот раз граница выборки составляет 60%).

Figure 3a. Защитники "Ливерпуля" в матче со "Стоком"

Также можно использовать Диапазоны для отображения активности всей команды:

Загружаю...

Figure 3b. "Халл Сити" vs "Юнайтед"

Важно, что мы можем пойти ещё дальше и количественно измерить значения Диапазонов и степень их взаимодействия.

Измерение Диапазонов. Числовое значение

Одна из основных метрик, которую мы можем получить - это площадь Диапазона. В таблице ниже указаны площади (в метрах квадратных) 80%-Диапазонов уже рассмотренных ранее игроков:

Таблица 1. Площади Диапазонов

Также возможно количественно измерить степень взаимодействия между игроками. Например:

а) расстояние между игроками;

Мы можем рассчитать процент времени, когда любая пара футболистов находится на определённом расстоянии друг от друга. На примере оборонительной четвёрки "Ливерпуля":

Таблица 2. Процент времени, когда защитники "Ливерпуля" находились в пределах 10 метров друг от друга

Загружаю...

б) наложение Диапазонов;

Мы также можем вычислить степень совмещения (наложения) различных Диапазонов:

Таблица 3. Процент пересечения 80%-Диапазонов защитников "Ливерпуля"

Сравнение игроков

Возможно, одним из самых значимых направлений практического применения пространственных данных является сравнение игроков. За параметр сходства возьмём процент наложения Диапазонов. На карте ниже сравниваются Варди и Агуэро:

Figure 4. Сравнение игроков: Варди vs Агуэро

По карте видно, что площадь Диапазона Варди несколько больше (1999 кв.м), чем у оппонента (1734 кв.м), но степень наложения (82%) намекает на сходство и показывает, что игроки действуют в практически одних и тех же зонах поля.

Мы также можем накладывать Диапазоны с меньшим процентом большинства - например 40%:

Загружаю...

Figure 5. Сравнение игроков: Варди vs Агуэро: 40%-Диапазоны

Теперь степень наложения составляет 68%, и мы видим, что в штрафной Агуэро предпочитает центральную зону, а Варди помимо центра использует фланговые области на границе штрафной.

Аналогичным образом мы можем сравнить активность конкретного игрока в отдельных матчах и даже в разных фазах одного и того же матча. В сочетании с данными OPTA KPI, выведенные пространственные метрики предоставляют дополнительную информацию о производительности отдельных команд и игроков.

Некоторые особенности Диапазонов

Так как Диапазон является показательной концепцией, мы ожидаем, что его метрики будут последовательно различаться в зависимости от позиций. Так и есть. В таблице ниже приведены средние значения площадей Диапазонов и стандартные отклонения для вратарей, защитников, полузащитников и нападающих (‘Std dev.’ в таблице - от “standard deviation”. “Стандартное отклонение” - определение разброса полученных значений вблизи их среднего арифметического значения, которое вычисляется как корень квадратный из отклонений значений выборки - примечание SFT).

Таблица 4. Средняя площадь Диапазонов для разных позиций

Вратари ожидаемо имеют гораздо меньшие Диапазоны, нежели полевые игроки. Более интересно, насколько значения защитников меньше чисел полузащитников и нападающих (разница в ≈38% статистически значима). Однако существуют также различия в каждой конкретной позиции, что и показано в следующей таблице.

Загружаю...

Таблица 5. Топ-3 наибольших и наименьших значений Диапазонов для каждой линии

Как видно из таблицы, самые “активные” нападающие Премьер-лиги охватывают более чем в два раза бóльшую площадь, чем наименее “активные” (значимость этой “активности” - предмет будущих исследований).

Использование Диапазонов для кластеризации игроков

Наконец, мы можем использовать Диапазоны для сравнения и кластеризации. Для графике ниже я использовал метод кластеризации, называемый многомерным масштабированием. Этот метод располагает объекты на двумерной карте в соответствии с их сходством по заданному критерию. В нашем случае критерием является Диапазон активности. То есть, игроки, Диапазоны которых схожи (т. е. пересекаются в значительной степени), размещены на графике в одной области. Соответственно, игроки, чьи Диапазоны не пересекаются, расположились далеко друг от друга.

Загружаю...

Figure 7. Карта кластеризации игроков

На графике видна организованность: голкиперы собраны в левом нижнем углу, нападающие, в основном, - в правом верхнем, а группы защитников и полузащитников чередуются, когда мы двигаемся по графику по диагонали снизу слева направо вверх. При этом футболисты, играющие на правом фланге, расположились справа от линии воображаемой диагональной траектории, а играющие на левом - слева.

Заключение

В этом посте было показано, как пространственные данные могут быть использованы при разработке весьма полезных метрик для оценки и классификации игроков. Определение взаимодействия Диапазонов игроков друг с другом также может иметь значительный потенциал для дальнейшего анализа.

Оригинал статьи BA

Читайте SFT в других соцсетях: VK / Телеграм

Этот пост опубликован в блоге на Трибуне Sports.ru. Присоединяйтесь к крупнейшему сообществу спортивных болельщиков!
Другие посты блога
Simbirskiy Football Tears