37 мин.

Пространственные метрики в футболе, теория зон, модель автономного игрока и симуляция игровых моментов

 

В основе данной статьи лежит работа под названием “Взгляд в будущее: использование моделей автономных частиц для помощи игрокам в принятии решений на футбольном поле”, представленная впервые на международной конференции по спортивной аналитике (MIT Sloan Sports Analytics Conference) в марте 2020. Среди авторов работы фигурируют такие люди как Хавьер Эрнандес (глава департамента спортивной аналитики Барселоны) и Дэвид Самптер (профессор математики университета Uppsala, более известен как автор книги Soccermatics). Оба автора принимают активное участие в развитие и популяризации математических методов и моделей, применяемых в футбольной аналитике. На youtube канале Friends of tracking можно найти много интересного и качественного контента от вышеупомянутых специалистов (правда только на английском языке).

Первоочередная цель данной статьи – предложить читателю адаптированный и несколько переработанный перевод оригинальной работы с дополнением некоторых деталей из других работ по данной тематике и выделением ключевых моментов и выводов, полученных авторами, основываясь на которых можно обозначить намечающиеся тренды в мире футбольной аналитики.

Ну что, поехали.

Среди всех командных видов спорта футбол занимает 1ое место по сложности паттернов движения игроков

Основная задача футбольной аналитики – это понимание коллективного перемещения футболистов и мяча. С одной стороны, футбол является более “текучим” (плавно меняющимся) видом спорта, в сравнении с американским футболом и бейсболом или крикетом, которые являются более “дискретными” играми. (т. е. прерывистыми, разбитыми на множество отдельных эпизодов). С другой стороны, по количеству игроков на поле, вовлеченных в коллективное движение, футбол значительно превосходит хоккей и баскетбол. С точки зрения математического моделирования это означает, что футбол имеет больше степеней свободы, чем другие виды спорта, делая довольно сложным возможность оценивания игровой ситуации используя одну или небольшое число метрик. До недавнего времени указанная особенность усложнялась еще и отсутствие внутриигровых (in-game) данных.

Здесь стоит отметить, что всю информацию, собираемую во время футбольных матчей, можно разделить на три типа данных.

Типы данных футбольных матчей

  • Статистика матча – верхнеуровневая информация о матче (составы, расстановка, замены, карточки, голы и т д)

  • Данные о событиях (Events Data) – упорядоченный набор данных, описывающий последовательность действий игроков с мячом (пасы, обводки, перехваты, подкаты, удары и т д). Эти данные собираются специалистами по разметке (аннотаторами), которые анализируют видеозаписи футбольных матчей и формируют соответствующие датасеты, которые далее продаются такими компаниями как Opta Sports, Wyscout и StatsBomb.

  • Трекинговые данные (Tracking data) – точные пространственные координаты всех игроков и мяча в каждый момент времени матча. Эти данные собираются специализированными оптическими системами отслеживания перемещений футболистов на основе камер, которые устанавливаются на стадионе. Самыми известными поставщиками таких решений являются компании: ChyronHego, STATS Perform, BallJames и Second Spectrum.

 Перечисленные типы данных отличаются своей детализацией и степенью доступности. В то время как общая статистика матча, являющаяся представлением основных игровых эпизодов на футбольном поле, доступна почти для всех профессиональных и полупрофессиональных матчей по всему миру, трекинговые данные, предоставляющие самый высокий уровень детализации, сегодня доступны только для ограниченного числа команд, в основном из топ европейских дивизионов.

На сегодняшний день данные о событиях стали наиболее распространенным источником информации для разработки аналитических моделей по нескольким причинам.

  • Простота анализа в сравнении с трекинговые данные (меньший объем, более простая структура)

  • Охват большого диапазона матчей позволяет использовать их для поиска новых игроков по всему миру.

  • Доступность для всех в индустрии

  • Постоянное обогащение данных новыми типами событий. (В дополнение к событиям, описывающим действия игроков с мячом, компании, собирающие данные, недавно начали фиксировать позиции других игроков в момент совершения ключевого действия, такого как удар, например)

 

Данные о событиях и соответствующие метрики

Данные о событиях, основанные на координатах игроков с мячом и их действиях, доступны уже почти десятилетие благодаря таким компаниям Opta. Анализ данных о событиях дал нам одну из самых популярных метрик на сегодняшний день – xG (ожидаемые голы), которая позволяет измерять качество моментов, создаваемых игроками, и оценивает непосредственно вероятность гола после каждого удара в диапазоне от 0 до 1. В качестве других, более продвинутых метрик, основанных на все тех же данных о событиях, можно выделить xA (ожидаемые ассисты/голевые), которая оценивает вероятность того, что игрок, которому был отдан пас, забьет гол (вероятность также оценивается от 0 до 1 и далее суммируется по всем ассистам за весь матч), более сложные метрики, определяющие ценность каждой передачи в некоторой последовательности пасов с точки зрения того, насколько сильно каждый пасс увеличивает или уменьшает вероятность забить гол в конце соответствующие последовательности, такие как xT (ожидаемая угроза) или VAEP (Valuing Actions by Estimating Probabilities), которая оценивает значимость действий каждого игрока, находящегося с мячом, в процессе владения).

Однако, из-за ограничений, обусловленных природой данных о событиях, эти метрики по факту измеряют только небольшую часть игрового процесса и не позволяют проводить полноценный анализ. Для наглядного примера можно привести тот факт, что для типового матча общее время владения мячом для Луиса Суареса составляло менее 90 секунд из 90+ игровых минут (когда он выступал за Барселону). Для того чтобы оценить вклад Суареса или любого другого игра в конечный результат, зачастую недостаточно только базовых метрик, т. к. они не отражают качество прессинга, открываний, тактического расположения по ходу матча и ряд других полезных действий на футбольном поле.

Трекинговых данные и соответствующие метрики

Последние научные работы в области футбольной аналитики сосредоточены на отслеживании пространственно-временных данных, представленных в виде координат всех игроков на поле и мяча. Более продвинутые подходы пытаются учесть в своих моделях в том числе пространственное положение тела на основе анализа видеозаписей. Как было отмечено выше, трекниговые данные позволяют учитывать значительно больше информации, чем данные о событиях. (Возможность перехвата всех потенциальных пасов, расположение игроков относительно оборонительной линии соперника, степень контроля пространства в каждой конкретной позиции, скорость игроков)

Одним из подходов к использованию трекинговых данных является расширение существующих метрик для оценки значимости пасов, основанных на данных о событиях. Например, Вильям Спирмен (ведущий data scientist в Ливерпуле) разработал модель, предлагающую довольно комплексное представление различных состояний футбольного матча используя трекинговые данные. Его модель сочетает вероятность гола из конкретной точки поля, вероятность команды контролировать данную точку и вероятность того, что мяч может быть доставлен в эту точку, предоставляя на выходе объективный способ оценки ожидаемой долгосрочной значимости от владения мячом. В оригинале, предложенная им метрика называется OBSO (off-ball scoring opportunities – возможность голов из владения) и предлагается для использования в качестве одного из основных аналитических инструментов для прогнозирования голов, определения наиболее уязвимых зон в обороне и определения талантливых игроков, обладающих пространственным футбольным интеллектом (способность читать игру).

Другой подход заключатся в создании самостоятельных моделей на основе сырых, необработанные трекинговые данных, применяя нейронных сети и другие алгоритмы машинного обучения для вычленения тех или иных закономерностей. Такие подходы сегодня называются data-driven, т. е. данные подходы позволяют строить модели, которые опирается исключительно на имеющиеся данные, без использования априорных знаний о процесс, имеющегося опыта (экспертизы) и интуиции.

Для того чтобы понять, что такое data-driven подход, и чем он отличается от альтернативных, стоит добавить пару пояснений.

  • Существует Physics-based подход, т. е. подход, когда математическая модель строится исходя из нашего знания о каком-то процессе и выражается в виде какого-то уравнения (системы уравнений). Например, если взять уравнение, которое описывает движение футболиста, подставить в такое уравнение текущие координаты игрока и его скорость, то можно рассчитать наиболее вероятные координаты игрока в следующий момент времени (т. е. мы используем математические уравнения, описывающие траекторию игрока, опираясь на базовые законы физики)

  • Сегодня мы живем во время всеобъемлющей цифровизации, одним из основных продуктов, который генерирует наше общество, являются данные. Некоторые визионеры и видные деятели современности называют данные – золотом 21 века. Сами по себе накопленные данные не представляют большого интереса, но развитие компьютерные технологий и рост вычислительных мощностей в последнее десятилетие сделали возможным применения определенных классов математических моделей (нейронные сети и другие алгоритмы машинного обучения) к накопленным данным для вычленения закономерностей и дополнительных знаний о различных процессах окружающего мира. Подход, при котором мы берем набор данных, обучаем на нем нейронную сеть или другой алгоритм (в первом приближении считаем, что подаем наши данные в некий черный ящик) и получаем на выходе модель, которая может находить оптимальные решения или делать предсказания о процессах, физические свойства которых мы не рассматривали, называется data-driven. (если возвращаться к предыдущему примеру с Physics-based подходом, то получается, мы берем всю накопленную статистику о перемещениях игроков и мяча, представленную в виде изменения координат, и кладем в нейронную сеть, которая определяет наиболее точные существующие закономерности этого сложного движения (сложного с точки зрения классического математического моделирования) и позволяет нам предсказывать наиболее вероятные координаты игроков в следующие моменты времени, т.е. мы не описываем физику процесса, это за нас делает алгоритм на основе имеющихся данных)

Data-driven подход уже был успешно адаптирован для таких видов спорта как баскетбол и футбол. Данные модели могут выдавать реалистичные траектории движения игроков и использоваться для автоматической идентификации наиболее оптимальных игровых схем. (номинальная расстановка, расстановка при атаке, обороне, прессинге и т д).

Модель движения рыб, как основа для описания движения футболистов

Несмотря на то, что data-driven подход, в котором используется машинное обучение, имеет свои преимущества, в парадигме Physics-based подхода существуют классы моделей, которые хорошо подходят для моделирования сложного коллективного движения и могут оказаться более подходящими для футбола.

При изучении коллективного движения в группах животных одним из самых успешных подходов моделирования считается – моделирование автономных (самодвижущихся) частиц (self-propelled particles). Под автономными частицами подразумеваются индивидуальные объекты (рыбы, птицы или животные), взаимодействие которых со своими соседями может быть описано небольшим числом принципов.

Самые ранние модели из данной области описывали рыб, как объекты, которые взаимодействуют со своими соседями в трех зонах:

  • небольшая зона отталкивания, в которой они стараются избежать столкновений

  • более широкая зона, в которой они движутся в одном направлении со своими соседями

  • внешняя зона притяжения, в которой они движутся по направлению к своим соседям

 Симуляции этих физических принципов продемонстрировала как набор простых правил взаимодействия внутри группы может описывать достаточно сложные паттерны движения. В биологии данная модель оказались довольно состоятельной и обеспечила фундамент для объединения моделирования и экспериментов, чтобы раскрыть правила взаимодействия индивидуальных объектов более детально. При подобном подходе к изучению поведения сложных систем изначальная (наивная) модель в последствии может быть заменена на более реалистичную, охватывающую другие более сложные правила взаимодействий, в том числе с применением методов машинного обучения. Именно такой подход в моделировании движения футболистов на поле на основе трекинговых данных был предложен авторами.

Теория зон

Есть весомые причины, по которым процесс моделирования, основанный на зонном взаимодействии автономных объектов, может быть довольно успешным в футболе. Многие тренеры часто делят футбольное поле на три зоны относительно позиции мяча. Франциско Сейруло из департамента методологии Барселоны выделяет следующие три зоны:

  • Зона перехвата (Intervention zone) – зона покрывает точки непосредственно вокруг мяча. Она включает в себя игрока с мячом и защитников, которые могут отобрать или перехватить мяч мгновенно.

  • Зона взаимопомощи (mutual help zone) – игроки данной зоны находятся на относительно близких позициях к мячу, но дальше, чем игроки из зоны перехвата. Партнеры игрока с мячом рассматриваются как находящиеся внутри данной зоны, если они могут получить пас в течение нескольких секунд. Защитники противоположной команды считаются находящимися внутри зоны, если они могут отобрать или перехватить мяч в течение нескольких следующих секунд после паса.

  • Зона взаимодействий (cooperation zone) – игроки данной зоны находятся значительно дальше от игрового эпизода, чем игроки других зон. Предполагается, что они не смогут получить мяч в течение нескольких следующих секунд после паса. В фазе атаки эти игроки стремятся занять наиболее опасные для противников зоны поля и контролировать пространство. В защите они нацелены минимизировать пространство, которое использует соперник.

В качестве примера для демонстрации данного подхода предлагается рассмотреть игровой эпизод из футбольного матча Барселона – Бетис сезона 2017-2018 Ла Лиги. Ниже приведен стоп-кадр с отрисовкой соответствующих зон и схематичное отображение данного эпизода, на котором красные кружки - игроки Барселоны, зеленые - Бетиса, черный кружок - мяч, стрелкой изображен вектор скорости футболиста, который указывает направление движения, длина вектора пропорциональна скорости футболиста в данный момент времени.

 В рассматриваемом моменте игрок с мячом (Серхи Роберто) и два игрока Бетиса (один за спиной, второй - встречающий) находятся в зоне перехвата. Левый вингер Барселоны (Пако Алькасер), Жорди Альба и опекающие их игроки Бетиса находятся в зоне взаимопомощи. Остальные игроки находятся в зоне взаимодействий.

Ключевым игроком в данном эпизоде, действия которого далее будут сравниваться с оптимальным прогнозом модели автономного игрока, является Пако Алькасер, который делает ложное открывание в сторону штрафной, освобождая за своей спиной пространство, в которое открывается Жорди Альба.

Модель автономного игрока (МАИ) и пространственные метрики

Большая часть мастерства футбольного тренера связана с инструктированием игроков относительно того, как они должны взаимодействовать в этих трех зонах. Цель, которую ставили перед собой авторы работы, – найти отправную точку для реализации МАИ, в основе которой будет лежать модель трех зон. Базовое предположение разрабатываемой модели заключается в следующем – когда команда владеет мячом и находится в фазе атаки, то игроки пытаются найти оптимальный баланс между тремя следующими критериями (метриками):

1. PP (Pass probability - Вероятность паса): Игрок всегда движется так, чтобы максимизировать вероятность паса, т. е. вероятность того, что он или его партнеры, смогут получить пасс. (вероятность “успешности” паса).

 PP - первая пространственная метрика, используемая в МАИ. В ней учитываются:

  •  Движение мяча – отдельно рассматривается движение мяча по траве, с учетом силы трения, отдельно – движение мяча по воздуху, с учетом аэродинамического сопротивление воздуха.

  • Движение игроков – для каждого игрока, зная его исходную точку на поле и начальную скорость, можно рассчитать все возможные точки, в которых он может оказаться через заданное время.

В итоге PP - вероятность пересечения траектории игрока и траектории движения мяча в течение времени T (длительность паса)

На рисунке ниже (рассматривается все тот же эпизод в фазе атаки из матча Барселона - Бетис) представлена тепловая карта вероятности успешности паса, на которой все поле раскрашено в соответствии с рассчитанной вероятностью того, что пасс из текущей точки нахождения мяча в любую точку поля может пройти. (Зеленый цвет – высокая вероятность того, что пас пройдет, Красный – наоборот)

 

В исходной позиции, до рывка Пако, зона, выделенная голубым овалом, имеет преимущественно желтый окрас (вероятность того, что пас пройдет в эту зону – средняя). Во время рывка Пако, данная область начинает окрашиваться в зеленый цвет, что свидетельствует о том, что модель оценивает вероятность успешность паса в данную зону как довольно высокую. Динамику изменения вероятности паса для данного эпизода можно наблюдать на видео ниже (19:49).

2. PI (Pitch impact/Pass impact/impact - Потенциальное влияние паса): Игрок старается занять такую точку на поле, которая является наиболее опасной для соперника, с точки зрения вероятности забить гол. (т. е. открывающийся игрок старается максимизировать потенциальное воздействие паса от игрока с мячом)

На рисунке ниже представлена тепловая карта данной метрики, которая помогает лучше понять ее смысл. Синие точки на рисунках – игрок с мячом в двух различных начальных точках. Тепловая карта отражает распределение вероятностей забить гол из соответствующей точки поля, при получении паса из синей точки. Т. е. для более бледных точек вероятность забить гол из соответствующих позиций ниже, чем для более ярких точек, при условии, что пас будет отдан игроком из синей точки. Получается, для каждой конкретной точки поля в которой находится мяч, МАИ рассчитывает потенциальное влияние паса (Pass impact) в любую другую точку поля, что тоже самое, что вероятность забить гол из соответствующих конечных точек (Impact), или же ценность конечной точки, в которой будет получен пас (Pitch impact). Последнее предложение отражает различные способы трактовки данной метрики. Оно приведено для того, чтобы объяснить, почему для обозначения данной метрики в текущей работе и в ряде других используются чуть разные обозначения.

 

Данная метрика была разработана компанией Twelve на основе исторических данных Английской Премьер-лиги, Чемпионата Испании и Лиги чемпионов. Реализована на двух моделях логистической регрессии (являются классическими алгоритмами машинного обучения, т. е. данную метрику можно рассматривать как data-driven подход). Весь матч разбивается на цепочки владения мячом, цепочкой владения является любая непрерывная последовательность пасов без остановок (офсайд, фол, аут). Если команда противника совершает хотя бы 2 касания, то цепочка рассматривается как разорванная и начинается рассмотрение новой цепочки. Первая регрессионная модель считает вероятность того, что текущее владение мячом приведет к удару по воротам, вторая регрессионная модель рассчитывает вероятность гола, т. е. ни что иное как xG. Перемножение двух этих вероятностей дает итоговую метрику – потенциальное влияние паса (здесь можно обратить внимание на то, что широко используемые сегодня метрики (например xG) используются как составляющие в более сложных метриках – PI (влияние паса), которая в свою очередь является одной из составляющих модели МАИ, т. е. мы получаем довольно комплексную метрику и вместе с тем можем наблюдать как методы, используемые в футбольной аналитике, становятся все более сложными).

3. PC (Pitch control - Владение) – Игроки стараются двигаться так, чтобы максимизировать площадь поля, контролируемого командой (максимизировать суммарное владение).

Данная метрика была предложена Хавьером Эрнандесом и Люком Борном (вице-президент департамента стратегии и аналитики баскетбольного клуба Сакраменто Кингз). Они предложили подход, называемый “область влияния игроков”, в то время как существует альтернативный подход к моделированию владения, предложенный все тем же Спирменом (не будет рассмотрен в данной статье). Область влияния игрока в каждой конкретной точке поля, в каждый момент времени определяется его текущей позицией (расстояние до мяча) и скоростью движения.

  • Влияние позиции:

Если принимающий игрок находится далеко от игрока с мячом, то его область влияния на поле (область контроля) рассматривается как более широкая, основываясь на предположение, что если мяч будет отправлен в его сторону, то он будет иметь больше времени чем другие игроки, чтобы завладеть мячом внутри широкой области пространства (высокая вероятность, что он завладеет мячом, т.к. он находится далеко от игрового эпизода в более разряженном пространстве), и наоборот, чем ближе к игроку с мячом находится игрок без мяча, тем меньше вероятность завладеть им, в случае паса от игрока с мячом (чем ближе к мячу, тем более высокая плотность игроков, тем уже потенциальная область контроля у игрока без мяча).

  • Влияние скорости:

Чем больше скорость игрока, тем больше область влияния на поле (область влияния направлена в сторону направления движения), т. е. ускоряющийся игрок увеличивает вероятность владения, в сравнении с игроком, перемещающийся пешком или трусцой.

В результате владение в каждой точке поля в каждый в каждый момент времени рассчитывается с учетом области влияния каждого игрока каждой из команд, путем вычитания суммарного влияния одной команды из суммарного влияния другой команды, и применения логистической функции, чтобы полученную разность перевести в диапазон от 0 до 1 и оперировать ей.

Владение (в точке x, в момент времени t) – это вероятность того, что мячом завладеет одна из команд, если мяч будет направлен в соответствующую точку x из текущей точки нахождения в момент времени t.

На схемах ниже представлена игровая ситуация из матча Барселона - Бетис, которая уже рассматривалась ранее. Цветом размечено пространство, которое контролируется каждой из команд, (Красное – Барселона, зеленое – Бетис). Данная цветовая карта является визуальной демонстрацией метрики PC.

  • На первой схеме – Серхио Роберто с мячом в центре, его накрывают 2 игрока Бетиса.

  • На второй схеме – фактическое расположение игроков Барселоны на поле, после открывания Пако Алькасера (в работе его роль обозначатся как – disruptive runner – игрок, совершающий разрушающие ускорения, которое освободило зону для Жорди Альбы).

Основные гипотезы о поведении игроков и допущение МАИ

Как было указано ранее, модель МАИ была построена на основе концепции трех зон. Далее авторы проводят проверку гипотезы о том, что

  • В зоне взаимопощи игроки действуют преимущественно так, чтобы максимизировать комбинацию двух метрик: вероятности паса (PP) и влияние паса (PI)

  • В зоне взаимодействия максимизируется владение (PC)

Данные гипотезы будут проверяться на основе сравнений реальных положений игроков на футбольном поле и оптимальных с точки зрения МАИ. Безусловно, первоочередная задача – понять, насколько точно можно моделировать движения игроков на основе зонного подхода с использованием трех пространственных метрик, но также довольно важно, чтобы предлагаемая модель была полезна в контексте тренерской деятельности, помогая тренерскому штабу принимать более эффективные решения. Для этого необходимо, чтобы результаты работы модели по оценке значимости тех или иных действий на поле были легко интерпретируемы и удобны для представления на после матчевом анализе. Таким образом, вторая цель – взглянуть на инсайты, полученные из модели и обсудить их с игроками при поддержке тренерского состава.

Работа МАИ заключается в следующем – на основе исходных позиций игроков, их скоростей и положения мяча модель проводит симуляцию развития атаки и определяет оптимальные положения атакующей группы игроков на основе взвешенной комбинации трех пространственных критериев (вероятность паса, влияние паса и владение)

Для реализации модели авторы приняли допущение: все атакующие игроки могут “заглядывать” несколько вперед в будущее. (важность этого допущения подчеркивается в названии работы). В футболе (и других командных видах спорта) игроки постоянно стараются предугадать последующие действия соперника и возможную траекторию движения мяча для того, чтобы получить преимущество. Действительно, в футбольном мире очень ценится навык, называемый – “чтение игры” или “видение поля”, и игроки зачастую хвалят своих партнеров и игроков других команда за данную способность. Более того, существуют научные исследования о коллективном движении пешеходов, которые указывают на то, что люди принимают решения о движении, основываясь на оценке позиций других участников движения (под оценкой понимается процесс предугадывания – т. е. проигрывание в голове потенциально возможного развития ситуации) и исследования когнитивных способностей во время спортивных активностей, которые добавляют уверенности в целесообразности используемого допущения.

Предложенное допущение сказывается на том, что модель МАИ оценивает оптимальное положение для каждого игрока не на основе текущих позиций всех остальных игроков в данный момент времени, а на их будущих позициях.

То есть, для каждого игрока как бы задается вопрос – получив понимание относительно расположения его партнеров в будущем, где будет его оптимальная позиция, чтобы взвешенная комбинация PP, PI, PC была максимальной.

 Демонстрация работы МАИ / Симуляция игровых эпизодов

На 1ой схеме (приведенной выше) – фактическое расположение игроков Барселоны на поле, после открывания Пако Алькасера, которое освободило зону для Жорди Альбы.

На 2ой схеме – оптимальное положение игроков Барселоны, которое было предложено моделью МАИ с точки зрения общего взвешенного произведения всех трех пространственных критериев (PP * PI * PC), т. е. положение, которое учитывает все приведенные критерии. Ниже представлен сравнительный анализ фактических и оптимальных позиций.

  • Фактическое расположение Семеду, крайнего правого защитника, (желтый кружок) отличается от оптимального, предложенного моделью. Данный игрок находится в зоне взаимодействия согласно предложенной ранее зонной модели, в которой он не ожидает получения мяча от игрока, находящегося с мячом в данном моменте (Жорди Альба). Для данного игрока модель предлагает позицию, в которой общее владение Барселоны несколько увеличиться. Для игрока в данной позиции, преобладающая метрика – владение (PC), именно она будет вносить наибольший вклад в произведение вероятностей. Данный игрок – pitch controller.

  • Фактическое расположение Деулофеу (оранжевый кружок), который является в данном эпизоде вторым нападающим и находится рядом с Месси у дуги штрафной, давольно сильно отличается от оптимальной позиции, предложенной моделью. В данном случае модель располагает игрока в точке, где он будет максимально сильно влиять на контроль пространства (владение, PC) в зоне подбора, которая является чрезвычайно важной в футболе. В случае отскока, вероятность завладеть мячом в позиции, предложенной моделью, значительно выше, чем в фактической позиции, где вокруг него большая плотность игроков Бетиса. Модель отводит данному игроку роль – pitch controller.

  • Фактическое расположение Месси (фиолетовый кружок), который является центральным нападающим в данном эпизоде, несколько отличается от оптимального, относительно модели. МАИ предсказывает наиболее оптимальную току на границе штрафной, в то время как Месси находится перед дугой штрафной. Для игрока в данной позиции, преобладающей является метрика PI (влияние), которая будет вносить наибольший вклад в итоговое произведение, т. е. модель размещает данного игрока на позиции, в которой он будет иметь максимальное преимущество перед защитниками противоположной команды, и наибольшую вероятность забить гол, если мяч будет быстро отправлен ему сразу после получения Жорди Альбой. Т. е. модель размещает его в той точке, в которой будет максимизировано влияние от потенциального паса от игрока с мячом.

  • Особе внимание на данном моменте выделяется к положению Пако Алькасера (голубой кружок) после открывания. Можно наблюдать, что Алькасер занял почти оптимальное положение, относительно предложенного МАИ, с точки зрения владения (площадь, отмеченная красным). На видеозаписи момента можно видеть, что где-то на середине паса в сторону Альбы, Алькасер остановился и даже сделал один шаг назад, чтобы сохранить свою позицию за штрафной площадью, вместо того чтобы продолжить открывание в опасную зону в штрафной и попытаться получить пас перед воротами. Данный маневр может показаться несколько странным с первого взгляда, но по факту, его поведение полностью соответствует точке, которая является наиболее оптимальной, с точки зрения учета всех пространственных критериев.

 

Количественная оценка симуляции игровых эпизодов

Изначальная гипотеза была в том, что движение игроков, находящихся на различных расстояниях от мяча (в различных зонах), будет предсказываться на основе различных оптимизационных критериев. Также ожидалось, что игроки в разных игровых амплуа (атакующие игроки, вингеры, центральные полузащитники и т д) имеют различные преобладающие критерии.

Для того чтобы количественно оценить результаты работы модели, были рассмотрены все пасы в финальной трети поля в течение двух домашних матчей Хаммарбю (против Мальме и Гетеборга) сезона 2019 высшей шведской футбольной лиги (Аллсвенскан). Для каждого игрока в момент каждого сделанного паса рассчитывались предсказания семи метрик:

Отметим, т. к. базовые критерии – это вероятности, то производные критерии – тоже вероятности. Для примера PP * PI – это вероятность того, что пас будет получен и результатом этого паса будет гол.

Для контроля полученных результатов была введена еще одна метрика – нахождение в текущей позиции (CP - current position), т. е. данная метрика для каждого игрока в качестве оптимальной позиции выбирает текущую. Все указанные метрики максимизировались во время паса. Наиболее интересные результаты удалось получить для трех метрик - PC, PP*PI and CP. На графиках ниже приведены полученные результаты.

Ось x – порядковый номер игрока относительно расстояния до игрока, принимающего мяч. Т. е. 1ый игрок – принимающий пас, 2ой игрок – ближайший к принимающему пас, 10 игрок – дальше всего от принимающего пасс. (т. к. рассматриваются передачи в последней трети поля относительно атакующие команды, то вероятнее всего – это всегда вратарь). Игрок, который отдает пас исключается из рассмотрения – имеем 10 отсчетов.

Ось y – дистанция в метрах между реальной позицией игрока после завершения паса и наиболее оптимальной с точки зрения МАИ до того, как пас был отдан. Т. е. по сути – то, насколько наша модель ошибается.

Красная линия отражает насколько оптимальная позиция по метрике PP * PI отличается от реальной позиции, в которой находился игрок после паса. (для 1ого игрока – примерно 3 метра)

Синяя линия – насколько оптимальная позиция с точки зрения владения PC отличается от реальной, в которой находится игрок после паса. (для 1ого игрока – чуть более 8 метров)

Черная линия показывает, насколько отличается реальная позиция после паса от реальной позиции до паса, т. е. если бы модель предлагала оставаться в исходной позиции – как наиболее оптимальной для развития атаки. (для 1ого игрока – чуть более 6 метров, т. е. 1ый игрок за время паса переместился на 6 метров.

В матче против Мальме для 3 ближайших игроков к пасующему наилучшие результаты показала метрика PP * PI (авторы работы отмечают, что данную комбинированную метрику можно рассматривать как аналог EPV - expected possession value - ожидаемая значимость владения или вероятность гола из владения - изначально была представлена в баскетболе, сейчас довольно активно используется в футбольной аналитике). Для остальных игроков наилучший результат показала контрольная модель (черный график). В матче против Гетеборг – произведение PP * PI было лучше предсказаний контрольной модели только для игрока, получающего мяч.

С точки зрения модели трех зон, полученные результаты свидетельствуют о том, что игроки в зоне взаимопомощи стремятся максимизировать PP * PI.  Это значит, что игроки, находящиеся ближе всего к мячу, максимизируют обе вероятности – получить пас и забить гол после получения паса. Полученные результаты также отражают тот факт, что зона взаимопомощи обычно включает от одного до трех игроков (обыно 2 или 3, но для игры Хаммарбю - Гетеборг - только один)

Другие метрики (не показанные на рисунке) дают более худшие предсказания чем PP * PI в большинстве случаев. По результатам работы можно считать метрику PP * PI – как наилучшую модель для зоны взаимопомощи.

Оптимальные пространственные метрики относительно игрового амплуа

На графике ниже приведен анализ наиболее оптимальных метрик относительно игровой позиции игрока в матчах Хаммарбю, рассмотренных ранее.

В целом можно выделить закономерность, что атакующие игроки (10, LF, RW) имеют тенденцию выбирать позицию, которая максимизирует PP * PI, т. е. модель, оптимизирующая данную метрику, показывает наилучшие результаты в предсказании оптимальной позиции игрока на поле. На графике выше можно наблюдать, что наилучшие результаты в матче с Мальме соответствуют 10 и RW (здесь рассматриваются как абсолютная величина красного столбца – разница между фактическим и предсказанным значением позиции, так и разница между красным и черным, т. е. доля ошибки относительно всего перемещения. Т. е. для 10 (в матче с Мальме) – в среднем позиция между пасами изменялась на 4.5 метра (черный столбец), а ошибка модели, оптимизирующей метрику PP*PI, составляла примерно 2.5 метра в среднем (красный столбец).

Также можно отметить, что в обоих матчах атакующие игроки были лучше предсказаны по PP*PI чем игроки обороны. Например, если сравнить 10, RW, CF, LW и CB1, CB2, GK. (В матче с Мальме для 10, LF, RW красные столбики ниже черных и соответствующая разница между столбиками выше, чем для других игроков, хотя для некоторых позиций мы также наблюдаем то, что красные столбики ниже, т.е. PP * PI показывает более точные результаты чем контрольная модель. В матче с Гетеборгом красные столбики ниже черных только для атакующих игроков 10/CF, CF, LW, но не для всех, например, для RW - контрольная модель показывает более точные результаты, чем PP * PI)

Несмотря на то, что на графиках есть позиции, по которым нельзя сделать однозначных выводов, данный подход демонстрирует некоторые важные закономерности.

Общие выводы после количественной оценки

  • Одна из гипотез авторов предполагала, что метрика – владение (PC) будет хорошо соотноситься с действиями игроков в зоне взаимодействия, но полученные результаты не нашли тому подтверждений. Предсказание текущей позиции (CP) в качестве оптимальной для игроков на любых расстояниях от принимающего мяч оказалось более точным, чем предсказания на основе метрики – владение (PC).

  • Текущая позиция (CP) в том числе показала более точные результаты в сравнении с PC * PI для большинства случаев, за исключением наиболее близко расположенных партнеров к принимающему игроку, находящихся в зоне взаимопомощи.

Полученный результата не в коем случае не предполагает, что оставаться на месте это оптимальная модель для игроков к зоне взаимодействий, наоборот, он свидетельствует о том, что мы все еще не определили модель, которая будет превосходить метрику PC в зоне взаимодействий.

 

Качественная оценка симуляции игровых эпизодов и консультационные мероприятия

Представленная в данной работе модель МАИ использовалась для анализа матчей Хаммарбю чемпионата Швеции в течение сезона 2019. Авторы работы строили симуляции игровых ситуаций и обсуждали получаемые результаты с первой командой и тренерским составом. В основном разбирались действия футболистов при атакующих фазах игры. В первую очередь авторы хотели получить “реальную” обратную связь от профессиональных игроков и тренеров, относительно корректности выдаваемых прогнозов разработанной модели и понять, рассматривают ли футболисты предлагаемые варианты действий на поле – как допустимые с профессиональной точки зрения. Данная процедура является необходимой, чтобы продемонстрировать полезность данного инструмента и заработать кредит доверия у игроков и тренерского штаба относительно качества выдаваемой информации разработанного аналитического инструмента. Также авторы хотели получить понимание того, может ли данный инструмент быть интегрирован в процедуру послематчевого анализа.

1. Оценка метрики вероятность паса PP и влияние паса PI в игровом эпизоде

В работе демонстрируется ряд примеров, на которых сравнивались фактические зоны, в которые футболисты сделали передачу и зоны, которые были оптимальными с точки зрения метрики – вероятность паса и влияние паса (PP * PI). Я приведу только один пример для демонстрации ситуации, когда игрок выбрал не оптимальное решение с точки зрения модели, что при дальнейшем анализе было подтверждено тренерским штабом и самим игроком.

На левой схеме рассматривается игровой эпизод матча Хаммарбю - Кальмар сезона 2019 чемпионата Швеции и тепловая карта метрики PP. В данном игровом эпизоде 20 номер Хаммарбю сделал передачу открывающемуся за спину защитникам в штрафную 22 номеру, в то время как у него был альтернативный вариант – передача в зону (куда вбегает 17 номер) с наибольшей вероятностью паса, т.е. модель оценивает шансы получить мяч в штрафной для 17 номера значительно выше чем для 22 номера. Для 22 номера модель выдавала PP = 22 %, а для 17 номера – PP = 90%.

Так как профессиональный футболист в момент передачи оценивает как возможность того, что пас пройдет, так и то, что позиция, в которой принимающий игрок получит мяч будет оптимальной с точки зрения угрозы воротам, то из этого следует, что не всегда более низкая вероятность паса является определяющим фактором. Игрок, отдающий передачу, может взять на себя риск того, что передача может не пройти, но в успешном исходе – его партнер может получить мяч в точке, вероятность гола в которой очень высока. Поэтому, для более полной картины на правой схеме приводится визуализация произведения двух метрик (PP * PI) для того же эпизода, чтобы учесть влияние паса.

Произведение данных метрик для данного эпизода может рассматриваться как способ оценки вероятности гола. Полученные результаты также дали более высокое значение комбинированной метрики для паса на игрока с номером 17, в сравнении с пасом 22 номеру (PP * PI - 4.5% против 1.8%). Предложенный пример демонстрирует как с помощью пространственных метрик можно проводить детальный анализ правильности принятого решения на поле в момент передачи с точки зрения разных факторов.

2. Оценка метрики владение

В соответствии с зональной моделью, предложенной в начале статьи, в зоне взаимодействий находятся все игроки, которые не могут мгновенно получать мяч из текущей игровой ситуации. Правильность позиционирования в этой зоне определяется тренерами путем выбора той или иной тактической установки. Авторы данной работы в процессе тестирования модели совместно с тренерским штабом Хаммарбю разработали методику для определения тактической схемы в защите для различных игровых ситуаций используя комбинацию метрик – влияние (PI) и контроль (PC). Подробные детали относительно разработанного подхода авторы раскрыть не могут, но предлагают несколько примеров, на которых можно показать отдельное использование метрики PC для демонстрации неправильного расположения игроков на поле в соответствующих игровых моментах (в статье данные примеры опускаются).

3. Оценка симуляции будущих позиции

Как было указано ранее, модель МАИ оценивает взвешенную комбинацию трех пространственных метрик. В разработанной модели веса у метрик выбирались вручную в зависимости от зоны, в которой находится игрок. Автоматическое определение зон довольно трудная задача, т. к. очень часто включение игрока в какую-то конкретную зону зависит от деталей игрового эпизода. Авторы считают, что определение зоны может быть автоматизировано с помощью алгоритма, основанного на оценке игрового амплуа для каждого из игроков, но для того, чтобы получить работоспособную модель на данном этапе, авторы вручную размечали игроков в соответствии с их игровой позицией. (здесь имеется в виду, что МАИ на выходе  для каждого игрока выдает численное значение произведения трех вероятностей с некоторыми коэффициентами для некоторой области точек, точка с наибольшим значением данного произведения – оптимальная позиция, коэффициенты (веса) должны быть выбраны в зависимости от того, в какой зоне находится игрок, а для того, чтобы определить принадлежность к зоне, необходимо помимо конкретного местоположения игрока на поле, его скорости и расстояния до мяча – знать его амплуа в конкретном игровом моменте)

Несмотря на то, что роли игроков определялись для каждого конкретного эпизода вручную, авторам удалось выделить некоторые общие правила, по которым они принимали решения, какие метрики должны оптимизироваться в той или иной ситуации.

  • Атакующие игроки в зоне взаимопомощи действую так, чтобы максимизировать произведение PP * PI.

  • Игроки в зоне взаимодействия стремятся действовать так, чтобы максимизировать как PI, так и PC. Причем, в большинстве случаев, одного или двух игроков в зоне взаимодействий можно отнести к нападающим, и для них характерно поведение, направленное на максимизацию PI (ищут наиболее опасные позиции). Оставшиеся игроки в зоне взаимодействия либо стараются максимизировать PC, либо не максимизируют ни один из предложенных критериев.

Предложенная модель была очень полезна для игроков, т. к. позволила им исследовать более детально альтернативные решения, относительно тех, которые они приняли на футбольном поле, особенно для игроков, находящихся в зоне взаимопомощи. В работе приводится несколько примеров с симуляцией оптимальных позиций и сравнением с фактическими для матчей Хаммарбю в сезоне 2019, по аналогии с разобранным эпизодом матча Барселона - Бетис.

Эффект от аналитических консультаций

До недавного времени в футболе не было примеров, чтобы в тренировочном процессе использовались модели, симулирующие будущие действия игроков на поле. Поэтому, по ходу консультационной работы с игроками и тренерским штабом было важно оценить степень готовности игроков воспринимать анализ игровых эпизодов с точки зрения предложенных метрик, доступность их визуализации для понимания и готовность игроков и тренерского штаба к совместной дискуссии относительно результатов работы модели МАИ.

Совместно с анализом симуляций прошедших матчей аналитические сессии, проводимые авторами работы с первой командой Хаммарбю, были дополнены разборами атакующих действий футболистов Барселоны, изучением особенностей комбинационной игры Манчестер сити во время продолжительных атак и анализом карты ударов, на основе которой строится метрика xG и оценивается вероятность забить гол с различных позиций вокруг штрафной площади.

Авторы отмечают, что по мере вовлечения игроков в данные аналитические сессии, игра Хаммарбю стала улучшаться, по результатам всего сезона команда стала первой по результативности, забив на 33.9% больше голов, ее ближайший конкурент – Мальме, плюс ко всему побила рекорд чемпионата Швеции по средней результативности за игру с показателем 2.5 гола за матч. Никола Джурич был выбран в качестве лучшего нападающего в чемпионате (забил 13 – на 2 меньше, чем лучший бомбардир, по системе гол + пас разделил первое место со своим одноклубником Муамером Танковичем, с которым они набрали по 21 результативному действию). При этом аналитические разборы с применением МАИ не были слишком интенсивны и занимали только небольшую часть тренировочного процесса, так что это не может быть рассмотрено как основная причина перечисленных достижений.

Однако, полученные результаты указывают на то, что имеется взаимосвязь между открытостью тренерского штаба к оценке решений, принимаемых игроками на футбольном поле, с помощью анализа данных, готовностью игроков к обсуждению и анализу своей собственной эффективности на поле с использованием описанной методики и успехами команды в атакующей игре. В конце сезона руководство клуба предложило одному из автором данной работы постоянный контракт в клубе, посчитав, что игроки и тренерский состав могут получит пользу от использования описанных инструментов анализа на постоянной основе.

Заключение

Данная работа является первым шагом в моделировании автономного движения футболистов. Предложенный авторами подход может быть использован совместно с чистыми data-driven решениями, когда движения игроков предсказываются с помощью нейронной сети. Преимущество подхода, предложенного в данной работе, заключается в том, что он основан на существующих тренерских знаниях и предположениях, которые могут быть легко объяснены тренерскому составу и игрокам. (В случае использования нейронных сетей интерпретация получаемых результатов становится гораздо более сложной задачей, зачастую невозможной в принципе; например, мы можем получить ответ на то, какая позиция будет наиболее оптимальной, но на вопрос почему, мы не сможем ответить)

В дальнейшем состоятельность модели, предложенной в данной работе, должна быть проверена на большом объеме данных.

Мы выяснили, что подход с разбиением футбольного поля на несколько зон, может быть основой для построения модели, предсказывающей оптимальное расположение футболистов на поле. В частности, игрокам, находящимся в зоне взаимопомощи, свойственно стремление занять такую точку на поле, которая максимизирует совокупную вероятность получить пас (PP) и вероятность влияния паса (PI), т. е. вероятность забить гол, после того как пас будет получен. Количественная оценка результатов симуляции, фактические данные и совместные дискуссии с игроками подтверждают предположение, что два или три игрока, находящихся ближе всего к получающему мяч, могут рассматриваться, как находящиеся в одной зоне взаимопомощи.

В обсуждения с тренерами и игроками пространственная метрика – владение (PC) доказала свою полезность для анализа тактики и позиционирования в зоне взаимодействий, но оказалось не точной, с точки зрения модели, предсказывающей оптимальное положение игроков в данной зоне, во время атакующих действий в финальной трети поля. В действительности, ни одна из рассмотренных метрик не смогла продемонстрировать результаты лучше контрольной модели, которая рекомендует игрокам в качестве оптимального действия – оставаться на том же месте. Обсуждение с игроками показало, что метрика владение – может быть полезной при анализе движений в зоне взаимодействий во время прессинга. (но данную гипотезу еще предстоит проверить).

Предложенный в данной работе подход является первым шагом на пути к построению комплексной модели, которая сможет точно определять оптимальные решения игроков на футбольном поле в любом игровом эпизоде. Модель МАИ и используемые в ней пространственные метрик, должны рассматриваться как инструмент, помогающий понять и оценить действия игроков на поле и предлагающий альтернативные варианты. Предложенная модель должна итеративно улучшаться и дополняться на основе анализа своей состоятельности на новых данных. Данный процесс будет идти более эффективно, как в рассмотренном случае, если будет проходить на базе профессиональных футбольных клубов.

Со своей стороны хочу выделить ключевые моменты еще раз:

  • В данной работе и ряде других работ, опубликованных за последние пару лет, часто упоминаются специалисты по data science из Барселоны и Ливерпуля в качестве авторов работы или же авторов методов (первые ввели ту или иную метрику), на основе которых предлагаются другие (улучшенные или несколько альтернативные) концепции для использования в футбольном анализе. Т.е. мы видим, что представители ведущих мировых клубов активно участвуют в развитие инструментов футбольного анализа (инновации идут не из вне, а изнутри самой индустрии, что указывает на то, что клубы понимают важность и большой потенциал продвинутых методов анализа для увеличения эффективности команд)

  • появление трекинговых данных в совокупности с параллельным развитием продвинутых методов аналитики на основе машинного обучения запустило активный процесс разработки новых способов оценки всего игрового процесса на футбольном поле (разработка новых метрик, моделей, оценивающих оптимальные действия и т. д.), которые позволяют оценивать более широкий спектр действий футболистов и делать это более эффективно, чем раньше

  • новые методы анализа становятся более сложными, на примере рассмотренных пространственных метрик мы видим, что относительно простая метрика xG является составной частью метрики PI (влияние), которая используется совместно с другой метрикой PP (вероятность паса), для эффективной оценки действий футболистов в атакующей фазе игры и находящихся в определенной зоне поля (зоне - взаимопомощи) и определния итоговой вероятности гола (PP * PI)

  • с увеличением качества и эффективности разрабатываемых метрик и моделей будет увеличиваться количество решений, принимающихся на основе прогнозов аналитических моделей и роль последних в футбольном процессе (мне кажется, мы застанем с вами время, когда оптимальный состав на игру, игроки выполняющие стандарты, тренерский состав и сам тренировочный процесс будет определятся преимущественно на основе работы аналитических моделей)

P.s. Если интересно следить за обновлениями, но вы не зарегистрированы на sports.ru, то подписывайтесь на инстаграм блога.

Шаг 1