Ты не пройдёшь! Защитные рейтинги НБА
Современный баскетбол не страдает от нехватки разнообразных метрик. Конечно, это не бейсбол, где рассчитано влияние на игру каждого чиха, но и не ламповые времена, когда кроме блоков да перехватов (событий, которые даже у лучших баскетболистов в этих компонентах игры случаются ~2,5 раза за игру) оценить игру в защите было никак нельзя.
Перекос в сторону нападения есть и сейчас. Во времена трекинг-систем параметров для оценки нападения всё равно больше. Все любят данки и никого не интересует, что тебя не обмануть кроссовером.
В данной статье будет две части. Первая это краткое описание и взаимосвязь трёх выбранных защитных метрик, вторая, это показатели игроков.
DRPM, DBPM, DWS. Описание метрик и их взаимосвязь.
Описание дано для общего показателя, а не только его защитной части.
Во всех сферах и знаниях люди стремятся к двум, казалось бы, противоположным вещам: с одной стороны увеличить с помощью новой информации (новых теорий, параметров) знания об объекте, а с другой свести эту разросшуюся гидру к какому-то суперпоказателю, глядя на который мы могли бы точно рассчитать и оценить систему. Пусть научный детерминизм Лапласа в нашем мире недостижим, но мы всё равно стремимся к нему максимально приблизиться. Так, например, физические законы, описывающие нашу Вселенную сильно разрослись с момента эпизода Ньютона с яблоком, но при этом нас не удовлетворяет, что для разных объектов (макро и микроскопических) мы пользуемся разными частными теориями, поэтому множество учёных бьются над так называемой "теорией всего", которая бы объединила все известные взаимодействия. В баскетбольной статистике точно также: постоянно добавляются какие-то новые параметры оценки игры спортсменов, но при этом возникают показатели, в которых делается попытка оценить эту самую производительность одной цифрой. О них и пойдёт речь дальше.
Первый из них, Defensive Real Plus-Minus (DRPM) от ESPN. DRPM является развитием xRAPM (Regularized Adjusted Plus Minus), который является улучшением RAPM, который является улучшением APM (Adjusted Plus Minus). Такая вот матрёшка. Эта статистика ведётся Джеремаей Энгельманном (автором RAPMа) и Стивом Иларди (автором APM). Метод, основанный на построениях регрессий (здесь можно прочитать подробнее) имеет цель(впрочем как и другие метрики) как можно точнее оценить ИНДИВИДУАЛЬНЫЙ вклад игрока в результаты команды, избавившись от "шума" в виде партнёров и оппонентов баскетболиста. Также стоит заметить, что RPM является прогностической метрикой, а не описательной, т.е. RPM на основе прошлых данных показывает какую игру стоит ждать от игрока в дальнейшем. Но, например, при прогнозе большого минуса несложно догадаться, что и до этого момента играл человек не ахти. Как обычно для продвинутых метрик ЕСПН формулы нет в открытом доступе, поэтому мы можем только приблизительно прикидывать, как RPM и его часть про защиту считаются.
Следующий показатель это Defensive Box Plus-Minus (DBPM), который был создан Даниэлем Майерсом для basketball-reference.com. Этот показатель является развитием Advanced Statistical Plus/Minus (ASPM) и в статье-описании DBPM прописными буквами указывается, что это не модифицированная версия APM. Собственно говоря, показатель Statistical Plus/Minus (SPM) был разработан Дэном Розенталем как альтернатива APM Иларди. Создатели BPM были гораздо менее скрытны, поэтому в статье можно увидеть формулы для его расчёта и значения коэффициентов параметров. В отличии от предыдущих версий, нынешний BPM уменьшает влияние случайной ошибки, рассчитывает не только линейные регрессии, а главное использует продвинутые метрики и бокс-скор, которые дают более точное описание событий на площадке.
Последний показатель выбивается из ряда метрик плюс-минус и называется Defensive Win Shares (DWS). Эта адаптированная Джастином Кубатко для баскетбола версия бейсбольного Win Shares от отца сабметрики Билла Джеймса. Этот показатель оценивает вклад игрока в игру команды во вполне понятных величинах, которые можно "потрогать" - в победах. Рассчитывается с использованием статистики игрока, команды и Лиги в целом. Суммарный WS каждого игрока команды приблизительно равен WS команды. В статье есть алгоритм расчёта. Но т.к. DWS накопительная статистика и считается за весь сезон, она очень подвержена отклонениям в виде травм игроков, когда сильный защитный игрок может быть довольно средним по DWS из-за пропуска большого количества игр. Поэтому здесь я включил в сравнение не показатель DWS, а DEF WS от stats.nba, который считается в расчёте на одну игру. Суть его такая же, но из-за разницы в формулах, значения DEF WS и DWS отличаются друг от друга.
Несмотря на разные названия и авторов этих показателей, они имеют одинаковую конечную цель: сделать ранжирование по уровню защиты, где положительные/бОльшие(для DEF WS) значения это хорошо, а отрицательные/меньшие плохо. Т.к. цель одна интересно посмотреть на то, как эти показатели коррелируют между собой, а также на выбросы и отклонения, когда хороший защитник по одной метрике является плохим по другой.
Методика: для статистики взяты игроки, которые провели на 16 марта 2018 г. 600 и более минут в сезоне 2017/2018. Позиция им присвоена такая же, как на сайте ЕСПН в разделе про RPM.
(статистику я собирал в начале апреля и именно поэтому данные на определённое число, а не просто за сезон 2017/18).
Итак, у меня получилась выборка из 319 игроков, которые соответствуют условиям отбора. И первое что надо сказать: ВСЕ ТРИ ПОКАЗАТЕЛИ КОРРЕЛИРУЮТ ДРУГ С ДРУГОМ. Корреляция эта разной силы, но во всех случаях она статистически значима (p гораздо меньше 0,05), так что нулевую гипотезу, что эти показатели никак между собой не связаны, мы можем откинуть. В принципе, ничего удивительного в этом нет. Набор возможных действий игрока в защите является конечным, а тех, которые мы можем посчитать, ещё меньшим. Соответственно, все три метрики по-большому счёту "крутят" одни и те же показатели игрока, строя разного вида регрессии. Грубо говоря, слагаемые (блоки, перехваты и др.) являются одними и теми же, но здесь при перемене их мест меняется сумма.
Что касается цифр, то вот коэффициенты корреляции для каждой пары:
DRPM/DBPM: 0,77
DRPM/DEF WS: 0,54
DBPM/DEF WS: 0,36
Коэффициенты сильно разнятся по таблице Чеддока(оценивает силу связи переменных): от высокой до нижней границы умеренной корреляции, где одна переменная объясняет только 13% дисперсии другой. Корреляция между показателями плюс-минус самая высокая, что и логично: они оба строятся на бокс-скоре игрока. DEF WS здесь в роли третьего брата из русских сказок, т.к. принцип его построения отличается от двух других. Разница в силе связи хорошо видна на трёх графиках, где в паре с сильной корреляцией значения "выстраиваются" вдоль линии тренда, а где она меньше, наоборот, расходятся от неё, прям как в море корабли.
Можно ещё заметить, что DRPM имеет с "рейтингом по победам" DEF WS больше общего, чем DBPM. К сожалению, из-за закрытости формул для DRPM и DEF WS, даже приблизительно прикинуть почему так получается не выйдет.
Теперь рассмотрим корреляцию показателей внутри каждой из пяти позиций (позиция игрока определены в соответствии с таблицей Real Plus-Minus на сайте ESPN):
PG:
DRPM/DBPM: 0,73
DRPM/DEF WS: 0,65
DBPM/DEF WS: 0,63
DRPM/DBPM, DRPM/DEF WS, DBPM/DEF WS
SG:
DRPM/DBPM: 0,72
DRPM/DEF WS: 0,62
DBPM/DEF WS: 0,34
DRPM/DBPM, DRPM/DEF WS, DBPM/DEF WS
SF:
DRPM/DBPM: 0,72
DRPM/DEF WS: 0,61
DBPM/DEF WS: 0,45
DRPM/DBPM, DRPM/DEF WS, DBPM/DEF WS
PF:
DRPM/DBPM: 0,71
DRPM/DEF WS: 0,53
DBPM/DEF WS: 0,41
DRPM/DBPM, DRPM/DEF WS, DBPM/DEF WS
C:
DRPM/DBPM: 0,64
DRPM/DEF WS: 0,73
DBPM/DEF WS: 0,42
DRPM/DBPM, DRPM/DEF WS, DBPM/DEF WS
Сводная таблица связей:
По этой таблице видно, что лучше всего связаны показатели у поинт-гардов (произведение 3 связей равно 0,3. У других позиций и в общем оно не превышает 0,2). Главным образом это происходит из-за очень хорошей корреляции между DBPM/DEF WS: PG единственная позиция на которой она выше 0,5. В этой таблице так же легко увидеть самое слабое звено: это DBPM/DEF WS. Общая связь и связь по позициям кроме поинт-гардов этих двух показателей занимают 5 последних мест в этом рейтинге. Из позиций выбиваются центровые: эта единственная позиция, где связь DRPM/DBPM не является самой сильной. Общие связи DRPM/DEF WS и DBPM/DEF WS в сравнении с ними же при разделении по позициям являются слабыми (обе сильнее только одной самой слабой корреляции по позициям), а вот общая корреляция DRPM/DBPM сильнее любой из пяти связей по позициям и вообще это самая сильная связь в таблице.
Почему так получилось? Потому что средние и суммы всех значений для общей выборки и только для центровых в них отличаются. Если в общем случае они приблизительно нулевые (средние значения DRPM-0,011, DBPM-0,027; Суммы DRPM-3,65, DBPM-8,7), то у центровых они значительно больше нуля (средние значения DRPM-1,374, DBPM-1,739; Суммы DRPM-76,96, DBPM-97,4). И тут мы приходим к тому, что не все овощи игроки одинаково полезны. Если коротко, то чем ближе игрок играет в защите к кольцу, тем в среднем будет выше его защитный показатель DRPM или DBPM. Это хороши видно на диаграмме средних значений по позициям: гарды в приличном минусе, лёгкие форварды примерно в нуле, тяжелые форварды в плюсе, а центровые в плюсе очень сильном. Это показывает важность защиты кольца перед защитой периметра (но это не значит, что ей можно пренебрегать), а также, что нельзя одним числовым диапазоном оценивать поинт-гарда и центрового. PG с показателем DBPM 0,5 будет защитник выше среднего для своей позиции, в то время как центровой с таким же значением DBPM, скорее всего, в комментариях на спортсе будет иметь звание "мешок".
В конце, как бы забрасывая мостик во вторую часть, посмотрим среднюю разницу в Z-оценках разных параметров. Z-показатель демонстрирует насколько стандартных отклонений измеряемая величина отличается от среднего значения. Если Z=0, при том что распределение в нашей выборке нормальное или близкое к нему, игрок по измеряемому показателю лучше половины других игроков и хуже тоже ровно половины. На графике ниже представлены средние значение разницы Z-оценки по пяти позициям. На нём видно, что разница в Z в большинстве случаях колеблется от 0,6 до 0,8 с всплеском разницы между Z-оценками показателей DBPM/DEF WS.
(на графике Net RB - это ∑(Z-scoreDRPM - Z-scoreDBPM)/игроков данной позиции
Net RW тоже самое для пары DRPM/DEF WS, а Net BW для DBPM/DEF WS).
На этом первую часть про общие принципы и параметры трёх выбранных защитных метрик можно считать завершённой. Во второй части материала, будет оценка защиты игроков, как эта оценка разнится от показателя к показателю, также с помощью общей суммы по трём показателям посмотрим кого защитные метрики ценят больше всего и кто лучший, если сделать "поправку центрового".