Статистический анализ приложения к докладу комиссии Шмидта
Поскольку тема достаточно острая, я призываю читателей отключить эмоциональный блок и посмотреть на приведенное исследование независимым критическим взглядом. Я критикую исключительно качество исследования, а вовсе не его приятность.
В докладе комиссии Шмидта среди прочих обоснований наличия допинга в Сочи приводится исследование профессора Бурнье(?), связанное с содержаниями различных элементов в моче спортсменов Ванкувера и Сочи.Прочитав его, я весьма удивился большому количеству бросающихся в глаза недостатков, но счел это неправильным пересказом оригинального исследования. Однако, к моему удивлению, оригинальное исследование оказалось еще более некачественным.Здесь я имею ввиду исключительно статистическую часть, в медицинской я не разбираюсь. 1) Первое бросающееся в глаза нарушение общепринятых процедур - это "зрячее" тестирование. В отчете идентифицированы Сочи и Ванкувер, то есть исследователь знал где какие пробы.Кроме того, удивление вызывает тот факт, что выделяющиеся в Сочи пробы сконцентрированы по параметру n. Параметр n, по всей видимости, означает номер спортсмена, сгруппированность выделяющихся проб это опять-таки нехороший маркер (впрочем, сам по себе не криминальный).
2) Основной анализ производится следующим образом. Рассматривается совокупность проб из одного источника, а затем рассматриваются выбросы, выдающиеся за 2сигма и 3 сигма.Здесь стоит объяснить, что такое 2сигма и 3сигма. Дело в том, что для нормальной величины Z с математическим ожиданием a и стандартным отклонением s верны соотношенияP(|Z-a|>2s) = 0.05 (приближенно), P(|Z-a|>3s) = 0.003 (приближенно). Для ненормальных величин мы сможем лишь получить гораздо более грубые верхние оценки из неравенства Чебышева P(|Z-a|>2s)<0.25, P(|Z-a|>3s)<0.11Соответственно, "правило 2 сигм" работает только в том случае, когда данные хорошо аппроксимируются нормальным распределение и оно использовано для двухстороннего отклонения.Авторы же используют его для плохо аппроксимирующегося нормальным распределения (см. ниже). Но даже для нормального они используют его для односторонних вероятностей P(Z>a+ 2s), для которых выход за 2 сигмы это уже не 5%, а 2.5%. Последний факт, на наш взгляд, хорошо демонстрирует статистическую квалификацию авторов отчета.Стоит отметить, что авторы проводили исследование нормальности данных (почему-то критерием Колморогова-Смирнова, хотя тогда уж нужно было использовать критерий Лиллиефорса, и почему-то не для натрия, являющегося основой для их выводов). В большинстве случаев оно отвергало гипотезу нормальности, что не мешало им использовать сигмы.
3) Почему же нормальная аппроксимация данных вызывает вопросы? Во-первых, авторы и сами приводят низкие p-value критерия на нормальность, а они используют консервативный (то есть осторожный) критерий Колморогова-Смирнова, становящийся еще более консервативным в том случае, если при подстановке оценок параметров не было изменено предельное распределение. Во-вторых, чисто визуально распределение сильно асимметрично.
4) Второй метод анализа вызывает большие вопросы. Авторы рассматривают насколько ванкуверских сигма данные из выборки Сочи отклоняются от выборки Ванкувера. Это крайне удивительная методология. Авторы не рассматривают гипотезу однородности выборок Сочи - Ванкувер и вообще, как кажется, не утверждают, что таковая однородность должна быть. Какие тогда могут быть причины для использования одного распределения для фильтрации выбросов в другом?
5) Итоговые выводы отчета не выдерживают никакой критики.Авторы утверждают, что для всех 13 выбросов, вышедших за пределы 95% интервала, есть сильные подозрения в манипуляции с пробами.Это совершенно удивительно. По всей видимости авторы совершенно не знакомы с концепцией множественного сравнения, что недопустимо для людей, использующих статистический аппарат даже на уровне студенческих работ.Подозрения вызвало бы одно наперед взятое наблюдение, попавшее в такой интервал. Но если мы рассматриваем 130 данных, то часть из них, грубо говоря, 2.5% вполне естественно попадут в такое множество. Более того, сравнение производилось по 4 различным материалам, что еще в 4 раза увеличивает вероятность нашего "маловероятного" события (здесь мы для простоты взяли поправку на множественное сравнение Бонферрони. Другие поправки изменили бы уровень по-другому, но во всех случаях такая поправка заметно повысила бы фактический уровень значимости.). Если выводы о том, что общая ситуация подозрительна в рамках модели авторов, правомерны, то фраза о 13 наблюдениях никуда не годится.
6) Следствием пункта 1 является откровенная необъективность отчета.Это отражается в выводах по натрию, где авторы бракуют 13 спортсменов из России. Однако для соответствующей выборки из Ванкувера они не считают количество выходов за тот же диапазон, а просто утверждают, что данные однородны без статистических подтвержений.Визуально, кажется, что и там такие наблюдения есть, как мы писали выше - это вполне естественно, их должно быть порядка 5-6 человек. Таким образом, называя подозрительными все 13 сочинцев, последовательно они должны назвать подозрительными и соответствующих ванкуверцев. Это типичное следствие неслепого тестирования - применяемые методы к одной из совокупностей не применяются к другой, результаты анализа фильтруются и выдаются только "правильные".То же наблюдается и в выводах по других элементам. Рассмотрим для примера график кальция в Ванкувере. Здесь мы также видим огромное количество выбросов за 3 сигма. Однако, здесь авторы говорят, что такое случается, поскольку среди людей распространена hypercalciuria. Это типичный пример последствий отсутствия слепого тестирования - авторы начинают оправдывать статистические аномалии одной из выборок бытовыми причинами.
Файл с исследованием проб: https://stillmed.olympic.org/media/Document%20Library/OlympicOrg/IOC/Who-We-Are/Commissions/Disciplinary-Commission/IOC-DC-Schmid/Appendix-VIII-CHUV-Report-Prof-Burnier-06-10-2017.pdf