Рейтинг на сайте 340  Место 71810
Трибуна Пользователь
Владислав Денисов, Владислав Денисов
Комментарии67
Статусы10

Владислав Денисов

Дата регистрации 10 марта 2010
Аккаунт игрок основы
Настоящее имя Владислав Денисов
Пол мужчина
Возраст 30
Любит
Читает блоги
О себе head of analytics

Статусы

Владислав Денисов
Владислав Денисов - редактирование статуса
status test

Посты

Комментарии

Классный коммент, спасибо, интересно обсудить )
> и потом количество ударов команды, после которых ожидаемое и реальное значения начинают из раза в раз сходиться.
Именно команды, а не в целом? У меня не до конца складывается картинка из-за непонимания этого момента, поэтому ответ дальше про случай "в целом".
> Я хочу ещё раз подчеркнуть, если у вас ожидаемые и реальные голы из раза в раз не сходятся, то цена такого приложения статистики - ну вы должны и сами понимать...
Я же правильно понял, что тут речь не про сходство xG и реальных голов, а про сопоставление результатов классификации и реального результата? Так сходится, вроде, с довольно неплохой точностью, по крайней мере в сравнении с open-source решениями. Про rarefaction curves слышу впервые, и, судя по беглому изучению, это что-то из специфичного домена статистики. Не совсем понимаю, зачем это нужно, если мы в процессе обучения видим метрики типа logloss / auc / etc – не важно, главное, что понятно само качество модели в процессе. И данные в процессе семплятся и разбиваются train/validation выборки как раз для этого.
Или Вы говорите про момент, когда модель уже есть, нам нужна отсечка после какого числа ударов считать результаты прогноза значимыми?
> но вот к тому же кол-ву защитников фореста перед игроком сити пробивающим из штрафной стоит наверно присмотреться
Безусловно, если бы такие данные были, мы бы их использовали. К сожалению, пока такой детализации у нас нет.

Вряд ли это разрешено использовать, но даже если б можно было, перед этим нужно провести огромную работу по матчингу между нашей базой и условными фифой/фм.
Все же оцениваем опасность момента таким образом чтобы "средний" игрок забил с определенной вероятностью. У нас, как я писал, не средний игрок, а немного категорий, но в целом не хочется уходить от такого определения.

> Ну вот же самая главная ваша ошибка прямо здесь: подавляющее большинство статистических метрик в целом, что в футболе, что в астрофизике - и ОСОБЕННО такие нестабильные, как xG - ни в коем случае не должны интерпретироваться на такой миниатюрной выборке как 5-10 ударов по воротам в отдельно взятом матче.
Никто и не говорит, что это единственная метрика, которая показывает, сколько голов команда заслуживает. Любая модель xG может интерпретироваться даже на одном ударе, все остальное – сумма, которая благодаря большей дистанции дает сглаживание.
> Так вот, для того, чтобы у статистической метрики появилась предсказательная сила, она должна быть основана на достаточно существенном объёме вводных данных - в данном случае, количестве ударов.
Сколько нужно ударов для такого? У нас более ста тысяч, например, достаточно? В CV есть модель, распознающая рукописные цифры – многие учатся во время ее создания работать с изображениями, обучена очень маленьком объеме данных, и при этом работает. Или не работает и есть какая-то константа "существенного объема данных" для всего?
> (а сколько таких критических нюансов не учитывается? наверняка десятки и сотни)
Так никто и не спорит. Мы пытаемся решить задачу с имеющимся набором данных, и не утверждаем, что точность нашей модели равна 100%. Снова пример из CV: есть задачка по распознаванию растений по картинке. По Вашей логике, работать с одной картинкой бессмысленно, ведь растение можно понюхать, потрогать и посмотреть с других углов. Правильно понял? Пока мы не сможем вычислять настроение футболиста (важный фактор, мне кажется), за эту задачу лучше не браться?

Друзья

Подписчики