13 мин.

Netherlands Sports Data Global Training Camp - опыт поездки

Уже на протяжении двух лет меня мучила мысль о том, чтобы найти сообщество людей, работающих в европейском спорте и хотя бы немного узнать, как применяются Big Data / AI / Statistics в спорте и пообщаться с живыми людьми из индустрии. Ещё в прошлом году я нашёл серию конференций под названием Sports Analytics World Series (https://www.analyticsinsport.com), которые проводит KPMG по всему миру, но из-за экзаменов на работе, к сожалению,не смог поехать ни на одну из них. 

Сразу же дисклеймер: я работаю в KPMG, но это ни в коем случае не реклама конференций. Во-первых, я работаю в не имеющем к ним отношения немецком KPMG, а во-вторых, те отделения KPMG, которые их организовывают, не оказывают никакой поддержки даже своим коллегам, так что вся поездка была построена только на энтузиазме и собственных финансах :)

Где-то в начале января я решил снова посмотреть, когда будет проведена следующая конференция, и копаясь по сайту голландской части, я наткнулся на объявление о кэмпе в области Data Science: (http://gtc.analyticsinsport.com/netherlands)Подождав открытие регистрации до февраля, я сразу же зарегистрировался и начинал ждать до конца марта. Первоначально планировалось 2 дня кэмпа, но организаторы сократили количество выступлений до одного дня. Сначала это насторожило, но билеты уже были куплены и деваться было некуда. 

В середине марта была выложена следующая агенда: участникам можно было посетить 6 презентаций, выбирая из двух секций наиболее интересные материалы для них.

Agenda

Для себя я выбрал выделенные 6 презентаций, которые более-менее соответствовали моим интересам. Расскажу подробно о двух, которые были мне реально интересны и вкратце опишу остальные четыре. Заранее извиняюсь, если мои наблюдения будут немного разрозненными, так как они написаны основываясь на заметках, сделанных на конференции.

Remiqz – How predictive data helps scouting and recruiting.

Remiqz

Презентовал её Алекс Шрам, и начал он с простых мыслей, о которых можно легко догадаться: данные стоит использовать лишь как дополнение к решениям скаутов и не стоит давить на футбольных функционеров тем, что только выводы по данным имеют смысл для принятия решений. Проблема простая – зачастую тренеры и скауты не понимают сложные выводы по данным, потому боятся принимать решения, основываясь только на них. К тому же, человеческий фактор, который можно описать многолетним опытом работы в футболе, и как следствие, уверенностью в своих знаниях / понимании игры, зачастую играют определяющую роль в принятии решений. Поэтому  – keep it simple.

Начал Алекс с рассказа про Global Club Index. Это индекс,показывающий «успешность» клуба. Логика простая – клубу начисляются очки индекса за победы, снимаются за поражения. Чем сильнее разница в классе соперника – тем больше очков начисляется / отнимается. Перед матчем рассчитываются ожидаемые вероятности победы и поражения (учитывая фактор домашнего поля), и на основе них рассчитывается финальное значение прироста индекса по итогу матча.  Самый большой скачок в количестве очков индекса, кстати, был получен Аяксом после победы на Реалом на Бернабеу. Аналогично рассчитывется Global Player Index – показатель, который характеризует вклад игрока в успехи команды. Логика также простая – оценивается вклад игрока в победу / над тем или иным соперником на основе его «полезных» действий на протяжении матча – голы, ассисты, количество жёлтых / красных карточек, точность пасов и так далее. Алекс не остановился подробно на методолгогии этой модели, но как он сказал мне после конференции – там учитывается около 70 показателей, и они не advanced (то есть, не учитываются PPDA, Packing и прочее). Данные Remiqz покупает у вендора (в их случае это Gracenote). На основе этих индексов, а также других базовых показателей (возраст, членство в сборной своей страны, гражданство и т.п.) за сезон, они также оценивают и прогнозируют трансферную стоимость игрока с помощью градиентного бустинга. К сожалению, я не успел спросить подробнее про методологию всех расчетов (например, как учитываются вклады голкиперов при расчете GPI или как считается accuracy rate для трансферных стоимостей, так как как минимум неясно, что именно считать правильной стоимостью), но мы договорились, что я могу здадать ему все вопросы по e-mail.

Далее Алекс рассказал о реальном кейсе, с которым они столкнулись – подбор игроков для одного небольшого голландского клуба середины таблицы Эрдивизии. Как это происходит – сперва скауты просматривают игроков и просят проверить их «подходимость» с помощью данных. Параллельно скауты вместе с тренером формулируют критерии, по которым оценивается «подходимость» игрока, передают их аналитику, и затем аналитик переводит эти критерии в статистические величины. Для упрощения понимания интерпретации величин, они делятся на группы (например, атакующие метрики, защитные метрики и т.п). Каждой из величин, принадлежащих группе, присваивается некоторый вес, считается итоговая аггрегированная метрика, которая присваивается конкретному игроку. Для сравнения этих метрик считается z-score: строятся распределния как аггрегированной, так и составляющих её метрик по всем релевантным игрокам (например, все защитники в лиге) и указывается «место» игрока в данном распределении. После этого скауты, тренер и аналитик снова собираются вместе: аналитик приносит результаты по топ-10 игрокам, скауты приносят свои кандидатуры, и затем первое решение принимается с тренером. Какие бывают варианты этого решения:

 1) Игрок выбран и аналитиками, и скаутами, и тренером – кандидатура принимается и обсуждается со спортивным директором

 2) Игрок выбран аналитиком, но не выбран кем-либо из скаутов / тренера – кандидатура идет в мусорку

 3) Игрок не выбран аналитиком, но выбран скаутом / тренером - кандидатура принимается и обсуждается со спортивным директором

Реальный пример: за январьское трансферное окно этот клуб подписал трех новичков – одного защитника, напдающего и полузащитника. Первый вариант решения имел место для защитника – он понравился и скаутам, и тренеру, и численным выводам аналитиков. Но был и другой пример – Алекс сказал, что был подписан нападающий, который на свои атакующие показатели, совершенно не подходил клубу со статистической точки зрения, был всё равно подписан, как одобренный скаутами. Как мне кажется, сыграло свою роль то, что он оказался бесплатным для клуба.

В конце, ещё несколько тезисов и общей информации, которая прозвучала от Алекса: -  Remiqz также сотрудничает с агентами, например, они используют GCI и GPI как меры «подходимости» игрока клубу.

 - В Эредивизии на каждом матче используется по 6 камер, которые собирают данные по действиям  / передвижениям игроков во время матча, что составляет примерно 6 миллионов строчек за матч. Такая же система применяется в АПЛ, первой и второй Бундеслиге. Данные по всем матчам находятся в свободном доступе у всех клубов турнира (как минимум, это точно для чемпионата Голландии), что позволяет клубам анализировать как свои результаты, так и результаты оппонентов.

 - Интересно: собирать данные игрока можно лишь только тогда, когда ему исполняется 17 лет. Его согласие на сбор данных специально прописывается в контракте.

 - Данные, на основе которых Remiqz считает свои взвешенные показатели, предоставляет Wyscout. Но в то же время, клуб не делится данными с тренировок с аналитиками, так как степень доверия всё ещё низкая.

 - Ещё раз: в общении с сотрудниками клуба лучше не настаивать на том, что данные – истина в последней инстанции

 - Не каждый технический директор понимает информацию, отображённую с помощью scatterplot :)

Ortec Sports – Analysing the effectivity of players and teams

Рассказчиком был Бертус Талсма – человек, который уже больше 10 лет работает в Sports Data Science, имеет Ph.D по эконометрике, и его презентация впечатлила меня больше всего.

Ortec Sports

Ortec Sports – одна из частей компании Ortec, которая занимается консалтингом в области Data Science для разных индустрий. Один из их главных продкутов – Ortec Sports Pro Portal, который собирает информацию по 60 футбольным турнирам и рассчитывает разнообразные метрики для игроков и команд. По сути – это BI-Tool, позволяющий строить красивые отчётики, используемые тренерами и скаутами. Нам был дан доступ до конца дня к данным по АПЛ сезона 2017/2018, поэтому мне удалось сделать несколько скриншотов данного тула.

Ortec1
Ortec2
Ortec3
Phil Jones

Ortec Sports собирает свои данные следующим образом: у них есть 2 команды – одна в Европе и одна в Африке, где группы по 4 человека отсматривают матчи и заносят каждое действие в специальные формы. Один человек смотрит за командой хозяев, второй – за комнадой гостей, а третий и четвертый соответственно записывают действия, которые называют первые двое. В день одной такой командой отсматривается 2-3 матча и вбивается в среднем 1500 – 2000 действий за матч. Все эти данные хранятся в централизованой базе данных, и тут начинается самое интересное. Клубы-партнеры контактируют с аналитиками и в зависимости от предпочтений тренеров и скаутов, Ortec высчитывает уникальные метрики на основе оговорённых терминов. Например, даётся конкретное определение ассисту, где разбираются все случаи, как может произойти ассист, и от этого считаются остальные метрики. Метрики делятся на 3 класса:

 - Статистики, основанные на конкретном событии: например: количество кроссов в 75-90 минуты матча с правого фланга, которые окончились попыткой забить гол

 - Статистики, основанные на владении (вот тут я не успел записать пример)

 - Специфические статистики, основанные на тактике: например, тренер одного итальянского клуба хотел, чтобы защитники / опорники соперника могли пересекать центр поля только с помощью лонгболлов, поэтому нужно было посмотреть, какое положения / действия игроков приводили к этим ситуациям

Ещё некоторые отдельные заметки:  

-  Опять же, многие тренеры не понимают важность данных в своей работе, приходится учить их и учиться вместе с ними

 - Резкое увеличение объёмов данных приведет как к полной переоценке показателей, так и к необходимости перестраивать техническую инфраструктуру: имея данные с видеокамер, количество наблюдений увелиичится с двух тысяч до шести миллионов за матч

mycujoo - Streaming Analytics: Democratising football all over the world

mycujoo

mycujoo – это сервис, транслирующий по матчи любительского уровня (так называемый long tail football), а также некоторые мачти молодёжных и женских турниров. Если вы хотите провести турнир «Кожаный мяч» и у вас есть смартфон с пусть даже плохонькой камерой, то вы можете стримить этот матч на mycujoo. Сервис довольно популярен в странах Латинской Америки и Азии, порядка 70 процентов матчей оттуда транслируются на платформе. Презентация была по большей степени о технических аспектах: хранении данных в централизованной БД, переход к AVRO и использовании Apache Kafka, GoogleBigQuery и GoogleDataStudio.

Ряд улучшений, которые компания хочет внедрить в свой продукт:

-       Как определять хайлайты матча? Сейчас хайлайты вводятся транслирующим вручную, из-за чего возникают около 5-минутные лаги, поэтому сложно использовать платформу для монетизации (беттинга). Здесь могут помочь алгоритмы deep learning’a

-       Как определить размер поля, чтобы иметь возможность наносить рекламу и зарабатывать на этом в том числе

JOHAN Sports: Developing algorithms for automatically calculating the probability of football injuries

Это была презентация, в которой презентующий больше интересовался мнением о продукте, чем рассказывал про него. Было такое ощущение, что нужно было просто собрать фидбэк и возможные улучшения. JOHAN Sports создали свой датчик для трекинга активности спротсмена и написали приложение, в котором спортсмен отмечает свои ощущения по 10-бальной шкале после тренировки, и  на основе этих данных выдаётся рекоммендация для тренера о необходимых упражнениях.

Возвращаясь к названию доклада, вероятности травм пока что не оцениваются никак, потому что в базе данных всего есть информация о 20 травмах. В то же время, мне было непонятно, почему не использовать информацию о тренировках, которые не принесли травм, чтобы как минимум увеличить выборку и попытаться построить хоть какую-нибудь слабенькую логит/пробит модель. В общем, невнятный доклад. Ну, хотя бы рассказали про тренировки Барселоны: о том, что основные нагрузки в недельных игровых циклах ставятся на третий день после матча. 

JOHAN Sports

Catapult Sports - The added value of sport scientists to build & improve performance using athlete tracking technology

Это была первая презентация на конференции, и я на неё опоздал примерно на 3/4 из-за задержки самолёта, поэтому буду совсем краток. Catapult Sports производит датчики трекинга физического состояния спортсмена. Они уже давно на рынке (компания существует с 1999 года) и её клиенты - различные топ-клубы (ПСЖ, Реал, Боруссия Дортмунд и многие другие). Из интересных разработок - они используют датчики, которые измеряют данные пульса с помощью ЭКГ (во время тренировки на спортсмене одет специальный жилет), и эти данные передаются на мобильные устройства с помощью wi-fi ресиверов. Данные хранятся в облаке и анализировать их можно с помощью специальной платформы, которая по сути является неплохим BI-tool'ом. 

SAS -  Analytics for gold medal results: speed skating case study

Это была последняя презентация на конференции, и это было, скажем так, довольно странно. Был  рассказыван опыт прогнозирования результатов забегов в конькобежном спорте на прошедшей Олимпиаде в Пхенчхане. В чем состоял кейс: федерация конькобежного спорта Голландии попросила попытаться предсказать результаты различных гонок. Это подняло некоторый шум в медиа - SAS позвал журналистов смотреть гонку живьем, и в итоге предсказания модели оказалось верным. Медиа написали несколько хвалебных статей, федерация конькобежного спорта позвала команду SAS на празднование, олимпийский чемпион в беге на 1000 метров (Кьелд Нёйс) даже поговорил и сделал фото с предсказавшим его победу аналитиком. 

Какого же было моё удивление, когда нам показали, что представляла из себя эта модель. Примером были результат гонок на 10 километров, которые предсказывались в зависимости от результатов гонок на 5 километров. Регрессия была построена всего лишь для двух фаворитов гонки и не учитывала никаких дополнительных факторов - ни других спортсменов, ни результатов по другим соревнованиям, ни временной разницы между гонками, ни какой-либо сезонности в результатах спортсменов, в общем, ровно ничего. Я буду рад ошибиться, если я что-то пропустил в презентации, или же что-то недопонял, но на наши замечания и вопросы была примерно одна и та же реакция "Ну да, это можно было бы включить в модель, но у нас не было времени и как вы видите, наша модель сработала верно. Но спасибо за ваши замечания, мы учтем".

Ещё пара наблюдений в конце:

-  Было удивительно встретить участников из России: два человека из компании Инспорт прилетели в Амстердам всего на один день специально на конференцию, но их интересы были немного другими и более техническими (датчики движения, сенсоры)

- Из посетителей конференции мне удалось познакомиться с интересным человеком: его зовут Янник Зибен, и он основал свою компанию по сбору данных в action sports (скейтбординг, сноубординг и сёрфинг). Он немец, но его компания базируется на Мальте. Сейчас они активно ищут инвестора, и я очень надеюсь, что найдут, так как идея использовать данные и в этих видах спорта тоже довольно крутая. Вот сайт его компании, если интересно (правда, там всего лишь стартовая страница :)): https://wyldata.com

В целом, конференция очень понравилась и хотелось бы иметь возможность посещать больше подобных мероприятий. Например, statsbomb скоро будет проводить интересные тренинги в Лондоне ( https://statsbomb.com/resource-centre/ ), но для этого нужна английская виза и довольно большое количество денег.

Я написал эту статью буквально по горячим следам и до сих пор не получил все презентации с пятницы, так что, возможно, какие-то моменты в статье дополнятся или изменятся (безусловно, это будет указано в тексте статьи).