Влияет ли сила команды на реализацию моментов?

В этом материале мы проверим гипотезу о том, что на реализацию команды и ее соперников влияет общий уровень команды, а также качество защиты и нападения.

Переменные и выборка

В терминах модели ожидаемых голов реализация определяется отношением nPG/xG. При хорошей реализации значение будет выше единицы, при плохой - меньше. Уровень защиты и нападения определяется как xGa_0per90 (ожидаемые голы соперника без учета пенальти за 90 минут при равном счете) и xG_0per90 соответственно. Общий уровень зададим как разность последних двух переменных: xGdiff_0per90 = xG_0per90 - xGa_0per90.

Загружаю...

В качестве выборки используются данные за этот сезон по топ-5 + РФПЛ - всего 114 команд, проведших 1160 матчей.

Почему мы выдвигаем такие гипотезы?

Кажется логичным, что условная Бавария, где уровень исполнителей явно выше, чем у условного Анжи, должна реализовывать на более высоком уровне. Для обороны уже неочевидно, нужно ли соперникам условного Атлетико больше моментов, чтобы забить, чем оппонентам какой-нибудь Гранады.

Проверка гипотез

Используя самый обычный МНК (все предпосылки выполняются), сначала проверим следующие регрессии:

Модель 1 - влияние уровня атаки на собственную реализацию.

Казалось бы, связь должна быть положительной. Но нет же, коэффициент b отрицателен, причем верхняя граница 90% доверительного интервала лежит в нуле, R^2 = 0,02.

Ось X - качество атаки, ось Y - реализация 

Следовательно, точно об обратной зависимости мы говорить не можем, но (в среднем случае) уровень атаки гарантированно не влияет положительно на реализацию. Как ни странно, Левандовски, Бейл и другие игроки топ-клубов в среднем случае должны реализовывать также, как и аутсайдеры. Для подтверждения вывода следует проверить регрессию для отдельных игроков, но это может говорить о том, что уровень нападающего определяет в первую очередь качество его моментов, а не их реализация (по ссылке статья Бобби Гардинера, в которой он делает аналогичное утверждение; обязательно к прочтению, если для вас Кавани - плохой нападающий).

Загружаю...

Модель 2 - влияние уровня обороны на реализацию соперника

Вычисления показали, что уровень обороны практически не зависит от реализации - значение коэффициента b при переменной отрицательно, но середина 95% доверительного интервала ближе к нулю, чем оба его конца, R^2 = 0,006.

Модель 3 - влияние общего уровня на свою реализацию

После результатов Модели 1 кажется, что коэффициент также должен быть отрицателен. Но теперь уже он положителен, хоть и не сильно. Это наталкивает на мысль, что следует проверить влияние качества защиты на свою реализацию у чужих ворот.  

Модель 4 - влияние общего уровня на реализацию соперника

Загружаю...

В данном случае коэффициент при регрессоре близок к нулю и совсем не значим. Делаем вывод о независимости реализации соперника как от качества обороны, так и от общего уровня команды.

Модель 5 - влияние обороны на свою реализацию

В данной регрессии коэффициент b отрицателен, 99% доверительный интервал целиком меньше нуля, R^2 = 0,07. Так как высокое качество обороны означает низкое значение xGa_0per90, можно с высокой долей уверенности утверждать, что в среднем случае лучше защищающаяся команда будет лучше реализовывать моменты у чужих ворот. Вероятно, это можно связать с тем, что и уровень обороны, и в несколько меньшей степени реализация определяются степенью организованности команды.

Загружаю...

Что получилось в итоге?

Итак, мы сделали следующие выводы:

  1. Качество атаки отрицательно влияет на реализацию моментов (этот и последующие выводы действуют только в среднем случае).

    UPD: Правильнее сказать не "отрицательно влияет", а "не влияет положительно"

  2. Реализация не является главным критерием оценки нападающего.

  3. На уровень реализации соперника не влияет ни качество обороны, ни общий уровень команды.

  4. Чем лучше команда обороняется, тем лучше она реализует моменты у ворот соперника.

Любите математику и не забывайте о трех видах лжи.

Этот пост опубликован в блоге на Трибуне Sports.ru. Присоединяйтесь к крупнейшему сообществу спортивных болельщиков!
Другие посты блога
Без лжи об xG
Популярные комментарии
Арсений Столяров
Исследование полная фикция (не выполнены 3 предпосылки из 5, 4 из 6). Тут нельзя пользоваться методом МНК. Предпосылки 4 (о нулевой ковариации с ошибкой не выполняется). Уверен на 100%, что случайности выборки у вас тоже нет. Как и гетероскедастичности. Статистика, как наука, не лжёт. Лгут те, кто презентует такие штуки.
Алексей Чмыхов
Простите, но R квадрат этих парных регрессий 2%...доверительные интервалы включают нули, боюсь F-stat моделей покажет их незначимость, так же как не значимы скорее всего и все коэффициенты моделей...у вас наверное крутые данные, но попробуйте над моделями подумать все-таки и включить какие-нибудь дополнительные факторы, или попробовать разные спецификации. Тогда повысите качество результатов значительно и мб получить интересные выводы! сама идея прикольная в данной статье, но в текущем варианте реализации расчетов это не совсем корректно выполненное исследование.
Ответ на комментарий JohnnyJohn
Это не научная статья, чтобы еще и результаты регрессий приводить. Эконометрику я знаю нормально, можете не беспокоиться
Mikhail Zhukovskii
JohnnyJoh, спасибо Вам за интересную статью, очень любопытные и объемные данные, также нельзя не отметить идею. Но соглашусь с Алексеем по части эконометрики. Коэффициент не значим если в его доверительные интервалы входит 0, неважно как, посередине либо ближе к границе, просто входит или нет. По модели 1 - разные команды делают ставку на (простите за повторение и банальность) разные стили. Быстрый контратакующий предполагает более высокую реализацию, при, возможно, меньшим числе ударов. С другой стороны вспоминаются матчи Ливер, Боруссии или Ман.Сити с их числом ударов и крайне низкой реализации. Очень важный тезис по поводу форвардов, соглашусь, их качество не только реализация
Ответ на комментарий JohnnyJohn
да, я согласен, что R-квадрат маленький во всех моделях, но в любом случае, мы можем говорить о некоей зависимости в гипотетическом среднем случае. В первой модели ДИ все-таки краем включает ноль, но в пятой совсем не включает. p-value F-статистики для модели 1 = 0,13, но в модели 5 уже 0,005. С 2ой по 4ую, конечно, еще выше, но я и говорю, что они не значимы (как и модель 1, на самом деле). С учетом того, что надо избегать эндогенности, я так и не смог придумать, что еще можно включить в модель - число доступных нам параметров не так уж и велико, все же. Единственное, можно было попробовать включить в регрессоры качество атаки вместе с качеством защиты, но в таком случае значимость по сравнению с моделью 5 не выросла бы, да и нужна проверка на эндогенность. В общем, вывод из модели 5 явно верен, из модели 1 степень уверенности уже гораздо ниже. Если интересно, можете написать в личные сообщения для обсуждения. Спасибо за комментарий по существу.
Еще 23 комментария
26 комментариев Написать комментарий