medstatistic

Ir al canal en Telegram

📊 О статистике понятным языком! 👨🏻‍🎓 Дамир Марапов, к.м.н., доцент РМАНПО, создатель StatTech 👩🏻‍💻 Администратор канала - Марина @bell_ado_nna 👨🏻‍🏫 Курсы: https://taplink.cc/medstatistic ❓Чат по статистике: @medstatistic_chat

Rusia126 072 Medicina5 737

4 278

Suscriptores

+124 horas

+137 días

+2030 días

1 251

Visitas de la publicación

~ 61324 horas

~ 69748 horas

29.23%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

4 278

1️⃣ Итак, первый пример. Известно, что t-тест Стьюдента довольно устойчив к асимметрии выборки, но только в случаях, когда в обеих группах асимметрия имеет одно и то же направление: правосторонняя (чаще встречаются значения ниже среднего значения) или левосторонняя (чаще встречаются значения выше среднего). А что произойдет, если асимметрия будет разнонаправленной? На рисунке вы видите пирамидальную диаграмму, которая состоит из 2 гистограмм, соответствующих распределению количественного признака в 2 группах. Диаграмма наглядно показывает, что признак имеет разную асимметрию: в 1-й группе правосторонняя (чаще встречаются низкие значения), во 2-й группе - левосторонняя (чаще встречаются высокие значения). При этом средние значения оказались практически одинаковыми: в первой группе 5.01, а во второй - 4.99. Разность средних составляет ничтожные 0.02. И если мы будем сравнивать средние значения с помощью t-критерия Стьюдента, то, конечно, различия будут статистически незначимыми: p=0.904. Однако медианы оказались друг от друга на достаточно большом расстоянии: в первой группе - 4, во второй - 6. Также наблюдаются отличия нижнего и верхнего квартилей: 2 и 7 в первой группе, а во второй группе выше на единицу: 3 и 8, соответственно. Используем тест Манна-Уитни для сравнения. И получаем статистически значимую разницу: p=0.045. То есть: различия средних значений признака являются статистически незначимыми, но: вероятность более высоких значений во второй группе статистически значимо выше, чем в первой группе (в каждой случайно выбранной паре). Второй вывод выглядит вполне логично, если интерпретировать асимметрию распределения как преобладание значений ниже среднего в первой группе и преобладание значений выше среднего во второй группе. Представим, что 5 - это условное референсное (нормальное) значение показателя. Тогда в первой группе чаще встречаются значения ниже нормы, во второй - выше нормы. Конечно, такой вывод может быть очень интересен для клиницистов! А если референсный диапазон значений был широким и включал все наблюдаемые значения? Тогда факт того, что в одной из групп чаще встречаются значения ниже 5, а в другой - выше 5, может не иметь существенного клинического значения. Все значения находятся в пределах нормы. И нас вполне может устроить вывод о том, что средний уровень показателя сопоставим. Главное, делая вывод о значимости/незначимости, хорошо где-то обозначить, о каких именно различиях идет речь. На какой вопрос получен этот ответ.

4 278

Почему важно понимать, на какой вопрос отвечает критерий? Если вы читали книгу или смотрели фильм «Автостопом по галактике», то, конечно, помните, какой универсальный ответ дал мегасуперкомпьютер Думатель на «основной вопрос о жизни, вселенной и вообще»: 42. Ответ-то есть. Но, к сожалению, без четко сформулированного вопроса он является бессмысленным, абстрактным. Мне кажется, этот сюжет отлично описывает ситуацию, когда исследователь, не задумываясь, применяет какой-то статистический метод к решению задачи. И получает универсальный ответ, например, различия статистически значимы. И этот ответ, хотя, конечно, существенно более земной и понятный, чем 42, но всё-таки требует конкретизации. Различия чего? Средних? Медиан? Дисперсий? К какому эффекту относится универсальное выражение p<0.05? Как звучит вопрос, на который мы получили этот ответ? Это была присказка. А мы продолжаем на удивление хайповую тему выбора статистических методов. Многое уже сказано, многое обсуждено. В серии постов я покажу еще несколько примеров, в которых разные критерии, применяемые к одним и тем же данным, ведут к противоположным результатам. Либо эти результаты могут выглядеть странными, неожиданными для читателя. И в таких случаях критически важно понимать, на какой вопрос мы ищем ответ, чтобы выбрать правильное решение и дать верную интерпретацию.

4 278

Выбираем статистический метод исходя из проверяемой гипотезы Данный подход состоит в том, что вначале исходя из решаемой задачи нужно определить проверяемую нулевую гипотезу. Нулевая гипотеза - это предположение об отсутствии эффекта (различий, связи, изменений и т.д.). В большинстве случаев мы желаем опровергнуть нулевую гипотезу с помощью p-значения. Если p окажется ниже уровня значимости (например, p<0.05), делаем вывод о наличии статистически значимого эффекта. ❗️Самое важное: каждый критерий проверяет совершенно определенную нулевую гипотезу. Например: 🔸t-тест Стьюдента проверяет, равны ли средние значения показателя в 2 независимых группах, 🔸тест Манна-Уитни (при соблюдении определенных условий) - равны ли в сравниваемых группах вероятности того, что случайно выбранное значение из одной популяции превышает случайно выбранное значение из другой популяции, 🔸коэффициент корреляции Пирсона проверяет гипотезу об отсутствии линейной связи… И так далее. Из этого следует несколько практических рекомендаций: 1️⃣ Критерии не являются взаимозаменяемыми при решении конкретной задачи. У каждого критерия - своя гипотеза. Например, если вы хотите доказать, что средний уровень показателя выше в одной группе, чем в другой - используйте t-тест Стьюдента. И пусть вас сильно не беспокоят выбросы или асимметрия данных. При проверке «своей» гипотезы критерии обычно устойчивы к особенностям распределения и дают предсказуемые результаты. «Чужие» гипотезы критерии иногда тоже переваривают, но ненадежно. Поэтому логично, что если мы будем проверять равенство средних значений с помощью теста Манна-Уитни - он с этой задачей будет справляться хуже, чем t-тест. В свою очередь, t-тест не подходит для проверки гипотезы, соответствующей тесту Манна-Уитни. 2️⃣ Замена одного критерия на другой означает замену проверяемой гипотезы, что противоречит современному подходу к выбору методов анализа клинических данных: 📌 сначала, на этапе планирования нужно сформулировать исследовательский вопрос и выбрать проверяемую гипотезу, 📌 только после этого выбираем критерий, подходящий для проверки этой гипотезы. Если в процессе анализа данных t-тест Стьюдента нам показался неподходящим, мы не можем просто так взять вместо него тест Манна-Уитни. Вначале следует изменить исследовательский вопрос, то есть по сути перепланировать исследование! 3️⃣ Такие допущения, как нормальность распределения или асимметрия, наличие выбросов - имеют значение! Но не на этапе анализа, а на этапе планирования исследования. Например, мы предполагаем, что наши данные будут включать слишком высокие или низкие значения - выбросы, которые, оказывают большое влияние на средний показатель. В таком случае мы можем сразу отказаться от сравнения средних. И запланировать сравнение вероятностей бОльших значений с помощью устойчивого к выбросам теста Манна-Уитни. А если выбросы важны для нас? Например, в обеих группах большинство пациентов имели нормальные значения уровня Hb, но в 1-й группе у нескольких пациентов отмечалась выраженная анемия, как побочное явление. Тогда тест Манна-Уитни может «не разглядеть» разницу, а вот t-тест сможет найти статистически значимое снижение среднего уровня Hb в 1-й группе. 4️⃣ Вывод о результатах применения критерия делается с учетом проверяемой им гипотезы. Например, вывод после сравнения уровня Hb с помощью t-теста Стьюдента может выглядеть так:

Средний уровень Hb в крови у пациентов основной группы был статистически значимо выше, чем в группе контроля.

Конечно, такой вывод будет некорректен, если использовался критерий Манна-Уитни, который не сравнивает средние значения. 5️⃣ В разделе «Материалы и методы» обосновываем выбор критериев проверяемой гипотезой или исследовательским вопросом, а не нормальностью или другими особенностями данных. Например, можно написать так:

Уровень Hb в крови был представлен средними значениями. Их различия оценивались с помощью t-теста Стьюдента.

Или:

Группы сравнивались по вероятности более высоких значений уровня Hb в одной из них, статистическая значимость различий оценивалась с помощью теста Бруннера-Мюнцеля.

4 278

😁

4 278

😁

4 278

Свершилось! На конференции «Белые ночи» в СПб встретились с коллегами, с которыми уже не первый год общаемся в наших статистических чатах в оффлайне! Было очень душевно, тепло и позитивно. И очень полезно! Обсудили множество разных вопросов, о чем-то подискутировали, о чем-то, как обычно, поспорили, но все очень по-доброму🤗 Конечно, нашей главной задачей было участие в секции, посвященной систематическим ошибкам. Один из вопросов, который сегодня обсуждался - насколько и в каком объеме нужны врачу знания о систематических ошибках в исследовании в частности и знания по статистике в целом. И это было не просто праздное обсуждение - ждите в обозримом будущем наши совместные активности для врачей, не занимающихся наукой, но желающих по-другому взглянуть на медицинские исследования. Всем коллегам большой привет, очень рад был нашей встрече, горжусь знакомством с вами!🤝

4 278

🎓 Для всех, кто хочет: 💡 разобраться с основными статистическими понятиями и алгоритмами, 💡 уверенно работать в статистической программе StatTech, 💡 самостоятельно обработать данные своего исследования и правильно интерпретировать полученные результаты, 💡 наконец-то дописать свою диссертацию или статью и быть готовым ответить на любые вопросы научрука и рецензентов, касающиеся статистики… …мы записали видеокурс по статистике и разместили его на платформе GetCourse! Программа курса включает 24 урока по следующим темам: 🔸 Правила оформления базы данных 🔸 Сбор данных с помощью опросов 🔸 Настройка и преобразование переменных в базе 🔸 Описательная статистика 🔸 Сравнение независимых групп 🔸 Сравнение связанных групп (анализ «до-после») 🔸 Корреляционный анализ 🔸 Парная линейная регрессия 🔸 Анализ выживаемости 🔸 Анализ временных рядов 🔸 Расчет объёма выборки Каждый урок состоит из видеозаписи длительностью примерно 10-20 минут. Одни уроки посвящены теоретическому разбору статистических понятий и методов, на других я демонстрирую, как выполнить тот или иной вид анализа в программе StatTech. В конце каждой темы можно выполнить тестовое задание. Всем успешно завершившим курс выдается именной сертификат (без баллов НМО). ❗️Важно: Этот курс можно проходить в своем режиме: доступ к курсу не ограничен по времени, а записи можно смотреть в любой последовательности. Ссылка на курс здесь, а также на главной странице программы Статтех. Желаем всем участникам приятного и полезного обучения!❤️

4 278

В качестве послесловия. Во-первых, если вы думаете, что я долго и с трудом искал все эти примеры, переработав невероятное число статей, то это не так. Наоборот, ошибки в описании материалов и методов, к сожалению, встречаются так часто, что взяв всего несколько статей из журнала не из первого квартиля, можно найти едва ли не все из них. Во-вторых, разные ошибки при описании материалов и методов часто «дружат» друг с другом, встречаясь одновременно в одной и той же статье. В-третьих, может показаться, что мы уделяем этим ошибкам избыточное внимание. В конце концов, это всего лишь «Материалы и методы»… Но если мы не можем понять, в какой программе авторы делали расчёты и насколько они владеют навыками статобработки, возникает недоверие ко всей научной работе в целом. Могу отметить, что практически во всех цитируемых работах мы также наблюдали грубые ошибки в главном разделе - результатах исследования. Так что это все связано и поэтому имеет большое значение. Если вам понравилась эта тема, оставьте реакцию или комментарий, мы будем благодарны! И позже сделаем ещё один пост - про ред флаги в разделе «Результаты».

4 278

Продолжаем тему ред флагов при прочтении раздела «Материалы и методы». В этом посте - причины заподозрить некачественный анализ по описанию статистических методов. 🚩 Ошибочные, несуществующие названия критериев, терминов. Букву t в названии теста Стьюдента сложно перепутать с другой, а вот критерию хи-квадрат Пирсона часто достается! Греческую букву «хи», χ авторы заменяют на «кси», ξ. Запрос в Elibrary выдал более 500 статей, где использовался мифический критерий «кси-квадрат». Один из примеров представлен ниже:

В качестве критерия связи использовался кси-квадрат Пирсона, оценивалась его асимптоматическая двусторонняя значимость. (Социальные аспекты здоровья населения, 2015)

В этом же примере также встретилась забавная ошибка, характерная для медицинской статьи: вместо статистического признака «асимптотическая» (означающего один из способов определения p-значения, исходя из предположения о стремлении N к бесконечности), авторы использовали более привычный, но, к сожалению, совершенно неуместный термин «асимптоматическая». 🚩 Представление количественных данных с помощью стандартной ошибки (m, SE) вместо стандартного отклонения (SD). Меня, кстати, когда-то именно так учили описывать количественные показатели. Был такой общепринятый шаблон в 90-х и начале 00-х: «Эм большая плюс-минус эм малая». Но познакомившись с руководствами, в частности, такими как «Statistical Analyses and Methods in the Published Literature (SAMPL)», где черным по белому написано: «Do NOT use the standard error of the mean (SE) to indicate the variability of a data set. Use standard deviations, inter-percentile ranges, or ranges instead», я стал использовать только SD рядом со средним значением. Однако работы с «M±m» до сих пор встречаются, например:

Результаты представлены в виде ошибки среднего арифметического (М) и

стандартной ошибки средней (±m)

.

(Вятский медицинский вестник, 2026)

В этом примере кроме m также дано странное определение для среднего значения М: ошибка среднего арифметического. Скорее всего, это опечатка, но очень жаль, что ни авторы, ни рецензенты её не заметили и не исправили. 🚩 Непонятные предложения с искаженным смыслом, словосочетания из не подходящих друг к другу слов Здесь можно найти много интересных выражений, типа «непараметрическое» или «неправильное» распределение (вместо «ненормальное»), «многомерный регрессионный анализ» (вместо «многофакторный») и др. Или вот ещё нестандартный пример:

Качественный анализ результатов

осуществляли с помощью критерия хи-квадрат.

(Вятский медицинский вестник, 2026)

Предположу, что на самом деле речь идёт об анализе качественных данных, но от перестановки слов смысл потерялся. Можно подумать, что авторы либо решили похвастаться высоким качеством проведенного статистического анализа, либо использовали термин «качественный анализ», который в социологии противопоставляется количественному (правда, статанализ как раз относится к количественному, а не качественному). 🚩 «Достоверные» вместо «статистически значимые» В статье Зорина Н.А. «Достоверность» или «Статистическая значимость» - 12 лет спустя» (2011) даны подробные комментарии, почему нельзя путать эти два термина. Это хорошо известно большинству учёных, но на практике мы все ещё часто встречаем работы с использованием слова «достоверные» как синонима выражения «статистически значимые». Например:

Статистически достоверными различия считались при p<0,5.

(Ульяновский медико-биологический журнал, 2025)

И вновь вместе с одной ошибкой мы видим и другую: p-значение сравнивалось с 0,5 (это не опечатка, в результатах действительно использовался этот уровень). Конечно, автор может выбирать произвольный уровень значимости. Однако при этом предполагается, что он будет меньше 0,05, например, 0,01 или 0,001. Выбор такого высокого порога, как 0,5, практически лишает авторов контроля над ошибкой I рода и делает результаты совершенно неопределенными.

4 278

2️⃣ Не старайтесь повысить качество своей работы за счет одновременного упоминания нескольких программ, если на самом деле работали только в одной из них. В данном случае количество в качество не переходит. 3️⃣ Не переписывайте раздел с описанием программ из чужих работ, как иногда советуют старшие коллеги. Пишите только про свой опыт. Собственно, можно было обойтись только первым пунктом. Честность - это наше всё. Продолжение следует…

4 278

🚩 Указана сильно устаревшая версия программы или, наоборот, несуществующая версия из будущего

Статистическую обработку материала проводили с помощью программы STATISTICA 12.0 (StatSoft Inc., США) и MedCalc (версия 9.3.5.0). (Инфекция и иммунитет, 2024) Версия программы MedCalc 9.3.5.0 выпущена аж в 2007 году и совместима с Windows не позднее версии Vista. Для 2024 года - это уже морально устаревшая версия. Расчет и оценка полученных результатов проводились на IBM-совместимом компьютере с операционной системой Windows XP с использованием программного пакета MS Excel 2017 (Microsoft), SPSS 12.0.2 и Statistica 20. (Репродуктивная медицина, 2024)

Во-первых, авторы использовали компьютер с очень старой операционной системой. Это, конечно, возможно, у нас на кафедре тоже есть один несписанный компьютер с Windows XP, которым, правда, мы не пользуемся. Но установить MS Excel 17 на Windows XP - невозможно по двум причинам. Первая: максимальная версия, совместимая с этой ОС - MS Excel 10. Вторая: MS Excel 2017 - не существует, есть только Excel 2016 и Excel 2019. Во-вторых, у авторов, похоже, есть машина времени. Иначе никак не получится объяснить, где они смогли найти 20 версию программы STATISTICA, у которой в апреле 2026 года вышла пока только версия 14.4.

Для осуществления статистического анализа полученной информации применялся программный комплекс «Microsoft Office 2000Pro» под операционной системой

Windows OSR 2

на персональном компьютере

PC Intel Pentium-166

(Microsoft Office 2010 Professional, 2010). Кроме того, использовались специализированные программы для статистического анализа данных «STATISTICA 12.0» и MedCalc 23.2.1 (Software, США).

(Медицинский вестник Юга России, 2026)

Пример похож на предыдущий. Но здесь ещё указан компьютер, и какой! Pentium-166 - это процессор I поколения! Мой первый компьютер, который я купил у своего друга в 2001 году (то есть он уже был подержанный), был Pentium III поколения. А здесь в распоряжении авторов оказался настоящий раритет. Без сомнений, на таком процессоре будет отлично работать Windows 95 OCR 2, это популярная комбинация для компьютера 90-х годов. И MS Office 2000 Pro тоже установить можно. Но вот представить MS Office 2010, STATISTICA 12.0 и MedCalc 23.2.1 на такой восхитительно древней машине можно разве что в волшебном сне. 🚩 Избыточное количество использованных программ Попробуем привести аналогию из медицины. Представьте, что в поликлинику обратился пациент с небольшим порезом на пальце. И для его лечения был собран консилиум из трех академиков, которые совместно провели обработку раны. Вот так же абсурдно выглядит использование в одной работе нескольких мощных программ для решения тривиальных статистических задач. Например:

Статистическая обработка данных проводилась с использованием программного обеспечения Excel 2019,

SPSS

Statistica v. 26 (IBM, США),

MedCalc

v. 20.104 и

JMP

Pro 17 (SAS, США).

(Российский кардиологический журнал, 2024)

В этой работе использовались описательная статистика, регрессия Кокса и ROC-анализ. Исчерпывающие возможности по проведению всех этих видов анализа есть у каждой программы: SPSS, MedCalc и JMP. С какой целью использовались все они в одном исследовании - загадка.

Для обработки полученных данных использовали программу

STATISTICA

12.0 (StatSoft Inc., США),

SPSS

21.0,

MedCalc

(версия 9.3.5.0).

(Артериальная гипертензия, 2022)

Представительный набор из трех статистических программ использовался для расчета трех критериев: Манна–Уитни, Краскела–Уоллиса, хи квадрат Пирсона с поправкой Йейтса. Видимо, каждый из них считали в отдельной программе. ❗️Как избежать ошибок, связанных с неправильным указанием статистических программ? 1️⃣ Будьте честными: укажите ту программу, которой действительно пользовались. Название и версию программы обычно можно посмотреть в ней самой при запуске или во вкладках «Справка», «О программе». Выполнили все расчёты на бумажке? Так и напишите, не надо ничего выдумывать.

4 278

🚩 Неправильное название программы Особенно часто вызывает проблемы с написанием название программы Microsoft Excel, например:

Статистический анализ проведен с использованием программы Exel. (Акушерство и гинекология, 2025)

Накопление, корректировка, систематизация исходной информации и визуализация полученных результатов проводилась в электронных таблицах

Microsoft Exell

.

(Вестник новых медицинских технологий, 2025)

Но и с другими программами могут возникнуть сложности, например, с IBM SPSS Statistics:

Статистическая обработка полученных данных проводилась с помощью программы

SPSS «STATISTICS 20.0»

.

(Социальные аспекты здоровья населения, 2015)

Есть ощущение, что авторы так и не смогли определиться, какую программу указать: SPSS или STATISTICA. Версии SPSS, начиная с 19, обозначаются целым числом. Формат 6.0 или 10.0 характерен для программы STATISTICA. Ну и кавычки здесь совершенно не к месту.

Статистический линейный регрессивный анализ данных и интерпретация полученных результатов выполнялись с использованием компьютерного обеспечения

IBM

и пакета программ SPSS (

PASW Statistics 20

).

(Проблемы стоматологии, 2020)

Здесь наблюдается какая-то «расчленёнка» в отношении программы SPSS. Почему-то разработчик IBM превратился в название отдельного программного обеспечения. Законное продолжение названия программы Statistics убрали в скобки вместе с прежним названием программы - PASW Statistics, используемым только для версий 17-18, но никак не для 20. В общем, если убрать из предложения лишние слова: «и пакета программ», «PASW» и скобки, то получится корректное название программы: IBM SPSS Statistics 20. 🚩 Неправильное указание разработчика программы Как вам, например, такое:

MedCalc 23.2.1 (

Software, США

)

(Медицинский вестник Юга России, 2026)

Просто Software, ничего особенного. Отличное название для IT-компании. На самом деле, разработчиком MedCalc является бельгийская (а не американская!) компания MedCalc Software Ltd. Также в других примерах вы можете увидеть, что часто при перечислении разных программ для одних разработчик указан, а для других - почему-то нет.

4 278

Можно ли сразу понять, что в научной статье не все хорошо со статистикой? Чаще всего, да. Причем увидеть «нехорошие симптомы» можно еще до погружения в результаты исследования. Предлагаем свой список «ред флагов» при прочтении очень важной части научной статьи под названием «Материалы и методы». Все примеры взяты из реальных работ, найденных нами в базе Elibrary.ru. Авторов указывать не буду, но отмечу журнал и год публикации. Сначала планировался один общий пост, но неожиданно набралось слишком много материала. Поэтому сделаем отдельные посты по каждому разделу. От Вас, мои дорогие подписчики, жду реакции и комментарии! Ну, поехали…

4 278

I. Хорошо: В общих чертах: ✅ Выбирать эстиманд (интересующий нас параметр, например, разность средних) исходя из решаемой предметной задачи. ✅ Формулировать явным образом допущения, из которых мы исходим при анализе данных (например, о том, что наблюдения независимы, происходят из одного распределения с конечной ненулевой дисперсией). ✅ Выбирать статистическую процедуру (тест, доверительный интервал), исходя из эстиманда и сформулированных допущений. В идеальном случае перечисленные выше шаги стоит выполнить еще до сбора данных! Из этого, в том числе, следует, что имеет смысл: ✅ При использовании t-теста или F-теста (ANOVA) предпочесть модификации по Уэлчу, устойчивые к гетероскедастичности, без предварительной проверки равенства дисперсий. ✅ Отказаться от предварительной проверки на нормальность. ✅ Применять заранее выбранную процедуру независимо от наблюдаемой формы распределения. ✅ Изучать распределение данных с помощью диаграмм распределения (например, гистограммы). II. Плохо: ⛔️ Выбирать статистическую процедуру для сравнения групп исходя только из результатов проверки условий применимости с помощью других тестов (тесты на нормальность, тесты на гомоскедастичность и т.д.). Такая тактика может привести к изменению эстиманда, что недопустимо: он должен быть определен на этапе планирования исследования исходя из решаемой задачи. Кроме того, проведение предварительных тестов (т.н. двух- и многофазовые процедуры) непредсказуемо изменяет вероятность ошибки первого рода и мощность статистических процедур и может приводить к изменению тестируемой нулевой гипотезы, что также недопустимо. ⛔️ Проверять нормальность распределения с помощью тестов, дающих оценку p < 0,05 или p > 0,05 (тест Шапиро-Уилка, Колмогорова-Смирнова и др.). На малых выборках эти тесты обладают низкой мощностью (т.е., недостаточно чувствительны и имеют высокую вероятность ошибки второго рода), а на больших выборках излишне чувствительны к малейшим отклонениям от нормальности. ⛔️ Считать, что для применения t-теста и других тестов «параметрической» статистики обязательными условиями являются нормальность распределения и (или) объем выборки более 30. ⛔️ Считать, что ранговые тесты (Уилкоксона, Манна-Уитни, Краскела-Уоллиса и др.) являются прямыми аналогами «параметрических» процедур и при отсутствии нормальности всегда лучше «параметрических». III. Примерный алгоритм действий: 1️⃣ Изучить природу данных на этапе подготовки к исследованию. В этом могут помочь, например, общее понимание о происхождении данных (что и как измеряется), а также данные пилотного или прошлых исследований и др. 2️⃣ На этапе планирования исследования предположить характер распределения данных. Исходя из этого предусмотреть преобразование данных (например, логарифмирование), необходимость стратификации (анализ показателей в подгруппах), обработку экстремальных значений и т.д. 3️⃣ До начала анализа данных выбрать эстиманд, который соответствует решаемой предметной задаче, природе данных и предполагаемым свойствам их распределения. На основе этого выбрать статистическую процедуру (эстиматор, тест, ДИ). 4️⃣ Использовать выбранную процедуру (тест, ДИ) для собранных в исследовании данных. 5️⃣ В случае наблюдения незапланированных особенностей данных, которые существенно расходятся с исходными представлениями (постановка предметной задачи, ожидаемые свойства распределения и т.п.): - провести анализ чувствительности; - рассмотреть возможность формулирования и решения новой предметной задачи с новым последовательным прохождением пп. 1-4. Уже имеющиеся данные могут послужить как пилотные для следующего исследования.

4 278

Как мы видим, на сегодняшний день накоплено достаточно данных, опровергающих целесообразность проверки на нормальность распределения. В связи с этим совместно с коллегами Максимом Кузнецовым (автором блога Biostatistics on the Table) и Матвеем Славенко (автором блога душно про дату) и при поддержке сообщества BioStat <- R | Чат по статистике и R был подготовлен алгоритм действий исследователя при анализе количественных показателей. Представляем его Вашему вниманию

4 278

❗️4️⃣ Выбор критерия исходя из параметров собранных данных противоречит принципам предварительного планирования дизайна исследования. В этом случае для нас открывается возможность манипуляций. Например, если с помощью t-критерия Стьюдента не будут получены желаемые различия, можно отказаться от мнения о нормальности распределения и испытать другие критерии: Манна-Уитни, ван дер Вардена, Вальда-Вольфовица, медианный тест Муда и др. Авось где-то p опустится ниже заветных 0.05 и можно будет сделать вывод, что эффект достигнут. Такой подход относится к нежелательному и порицаемому явлению под названием «p-hacking». Надежным средством против него является четкое указание в протоколе, публикуемом до набора данных, какие гипотезы планируется проверять и с помощью каких методов. Интересно, что даже выбор программы - совсем уже нестатистический фактор! - может повлиять на результаты сравнения. Ведь доступные в одних программах критерии могут отсутствовать в других, что неизбежно приводит к различиям в выводах. Пример такой ситуации с использованием SPSS и Minitab приводят Pearce and Derrick (2019). Выбирая метод анализа на этапе планирования исследований, можно сослаться на Аддендум по эстимандам к руководству по статистическим принципам для клинических испытаний (ICH E9(R1)). В нем сказано, что эстиманды (оцениваемый эффект, например, разность средних) с основными эстиматорами (метод оценивания, например, t-критерий Стьюдента) должны определяться заранее, на этапе планирования исследования. При этом, конечно, учитываются предположения о популяции и изучаемом параметре, а в случае выявления отклонений от предположений рекомендуется выполнять анализ чувствительности.

Также про опасность манипуляций с выводом можно прочитать у Fay and Proschan (2010).

❗️5️⃣ Использование предварительного тестирования допущений применения статистических методов, таких как нормальность или равенство дисперсий, создает проблемы с контролем ошибок I и II типа. То есть помимо ошибок проверки статистических гипотез, совершаемых при использовании конкретного метода, которые обычно успешно контролируются самим методом, мы сталкиваемся с вероятностью ошибок, связанных с проверкой допущений. В результате мы можем получить p-значения, значительно отличающиеся от реальных. А может и незначительно… В общем, проверка допущений делает статистический вывод неопределенным.

Какие авторы пишут об этом:

Zimmerman (2004), Wells and Hintze (2007), Rochan et al. (2012), Garcia-Perez (2012)

❗️6️⃣ В случае предполагаемых нарушений допущений статистических тестов (если они все-таки важны), сразу использовать такие методы, которые устойчивы к этим допущениям. Например, при сомнениях в целесообразности сравнения средних значений можно без каких-либо предварительных проверок отказаться от t-теста в пользу ранговых методов.

Такую рекомендацию в отношении разных параметрических методов можно встретить в работах: Wells and Hintze (2007), Fagerland (2012), Lantz (2013), Derrick et al. (2017).

Данный принцип также относится к проверке гомоскедастичности (равенства дисперсий). Это допущение является важным при использовании параметрических методов: классического t-теста или F-теста, post-hoc критерия Тьюки, а также непараметрического критерия Манна-Уитни. У каждого из них есть аналоги, устойчивые к нарушению данного допущения: соответственно, t-тест и F-тест Уэлча, тест Геймса-Хауэлла, критерий Бруннера-Мюнцеля. Рекомендуется по умолчанию использовать именно эти аналоги без проверки равенства дисперсий. Симуляции показывают их надежность как при гетеро-, так и при гомоскедастичности.

О предпочтительном использовании теста Уэлча пишут: Zimmerman (2004), Rash et al. (2011), West (2021). О предпочтительном использовании критерия Бруннера-Мюнцеля: Karch (2023), Noguchi at al. (2021), Nowak et al. (2022). О предпочтительном использовании критерия Геймса-Хауэлла: Keselman and Rogan (1978).

Все ссылки на упомянутые в этом посте источники, которые могут пригодиться для подготовки ответов рецензентам и для более глубокого погружения в эту тему, приведены в комментариях.

4 278

Продолжение. Первая часть поста опубликована здесь и здесь. Чем же нас не устраивает алгоритм №2? Тот, который предлагает выбирать критерий исходя из нормальности распределения? К сожалению, для критики есть серьезные основания, подробно представленные в многочисленных источниках. ❗️1️⃣ При достаточно большом числе наблюдений t-критерий Стьюдента, дисперсионный анализ, ковариационный анализ, линейная регрессия устойчивы к отсутствию нормальности распределения. Стьюдент в своей знаменитой статье “The probable error of a mean” (1908) описал t-критерий исходя из допущения о том, что в популяции показатель имел нормальное распределение. При таком допущении t-критерий является точным тестом и может использоваться для анализа даже небольших выборок. Но при достаточно большом числе наблюдений t-критерий можно рассматривать как консервативную форму z-теста, не имеющего допущений по форме распределения. Это подтверждается многочисленными симуляциями, где t-критерий применяли к очень ненормально распределенным данным и всё равно получали корректные выводы о различиях средних значений (справедливости ради отметим, что сценарии, где t-критерий не будет работать, также существуют). То же относится и к дисперсионному анализу и линейной регрессии. Позволю себе процитировать Norman G., рассмотревшего в своей статье устойчивость ANOVA к нарушениям различных допущений: «

Parametric statistics can be used with Likert data, with small sample sizes, with unequal variances, and with non-normal distributions, with no fear of ‘‘coming to the wrong conclusion’’.

Какие авторы пишут об этом: Feir-Walsh and Toothaker (1974), Driscoll (1996), Scovlund and Fenstad (2001), Fay and Proschan (2010), Norman (2010), Rash et al. (2011), Fagerland (2012), Lumley et al. (2012), Blanca et al. (2023).

❗️2️⃣ Нормальность распределения трудно оценить объективно. Особенно это актуально для небольшого числа наблюдений. Используемые для оценки нормальности критерии, такие как популярный и рекомендуемый многими авторами критерий Шапиро-Уилка, на малых выборках имеют слишком низкую мощность и могут подтверждать нормальность даже если её нет. Обратная проблема возникает при большом числе наблюдений, когда даже малозначимые отклонения от нормальности сопровождаются выводом об отсутствии нормальности. Ряд авторов рекомендует использовать для проверки на нормальность графические методы, т.е. визуальное изучение гистограммы или квантильной диаграммы (QQ-plot), но этот подход тоже недостаточно точен. Другими словами, объективная оценка нормальности распределения - слишком сложная задача.

Какие авторы пишут об этом:

Garcia-Perez (2012), Rochon et al. (2012), Kozak and Piepho (2017)

❗️3️⃣ Параметрические и непараметрические критерии не являются взаимозаменяемыми - они решают разные задачи и отвечают на разные вопросы. Представьте, что нам нужно завернуть шуруп. Но сделать это отверткой затруднительно, например, из-за сбитых шлицов на головке шурупа. И тогда нам предлагают воспользоваться молотком. Конечно, можно забить им шуруп, вот только держаться он будет плохо. Молоток - для гвоздей, отвертка - для шурупов. Так же, как молоток не заменит отвертку, непараметрические критерии не заменят параметрические, в связи с тем, что проверяют разные гипотезы. Например, t-критерий Стьюдента проверяет, отличаются ли друг от друга средние значения. А непараметрический критерий Манна-Уитни - то, что вероятность бОльших значений в одной из выборок выше, чем в другой. 🔹В тех исследованиях, где важно доказать, что именно средний уровень показателя в одной из групп выше или ниже - мы практически всегда будем использовать t-критерий. 🔹Но иногда нас в меньшей степени интересуют средние значения или их разность, мы бы хотели доказать, что в одной из групп чаще встречаются более высокие значения. В таких случаях мы можем сразу предпочесть критерий Манна-Уитни.

Какие авторы пишут об этом:

Sawilowski and Shlomo (2005), Fay and Proschan (2010), Fagerland (2012), Lumley et al. (2012)

4 278

Также про опасность манипуляций с выводом можно прочитать у Fay and Proschan (2010).

Какие авторы пишут об этом:

Zimmerman (2004), Wells and Hintze (2007), Rochan et al. (2012), Garcia-Perez (2012)

Такую рекомендацию в отношении разных параметрических методов можно встретить в работах: Wells and Hintze (2007), Fagerland (2012), Lantz (2013), Derrick et al. (2017).

О предпочтительном использовании теста Уэлча пишут: Zimmerman (2004), Rash et al. (2011), West (2021). О предпочтительном использовании критерия Бруннера-Мюнцеля: Karch (2023), Noguchi at al. (2021), Nowak et al. (2022). О предпочтительном использовании критерия Геймса-Хауэлла: Keselman and Rogan (1978).

4 278

1 июня стартует 46-й поток Курса по основам статистики! Этот курс прошли уже более 1000 человек. Он для тех, кто хочет самостоятельно и уверенно выполнять статистический анализ данных для статей и диссертации. Для тех, кто хочет по-настоящему понять и полюбить статистику в клинических исследованиях. Курс подходит для тех, кто пока совсем ничего не знает и не умеет. Но и те, кто уже имеет опыт статобработки клинических исследований - тоже получат много полезного. Программа курса: 🔸01.06 — Создание базы данных в SPSS 🔸03.06 — Преобразование, вычисление данных 🔸05.06 — Нормальность распределения 🔸08.06 — Описательная статистика 🔸10.06 — Построение диаграмм в SPSS 🔸11.06 — t-критерий Стьюдента, ANOVA 🔸15.06 — критерии Манна-Уитни, Краскела-Уоллиса 🔸17.06 — Анализ номинальных данных 🔸19.06 — Сравнение связанных совокупностей 🔸22.06 — Корреляционный анализ 🔸24.06 — Линейная регрессия 🔸26.06 — Дискриминантный анализ 🔸29.06 — Бинарная логистическая регрессия 🔸30.06 — ROC-анализ 🔸01.07 — Кластерный анализ 🔸06.07 — Анализ выживаемости (таблицы дожития, кривые Каплана-Мейера) ‌🔸08.07 — Анализ выживаемости (регрессия Кокса) 🔸10.07 — Определение размера выборки Занятия проводятся 3 раза в неделю, в вечернее время на платформе Zoom. Все вебинары записываются, поэтому если не успеваете присутствовать лично, можно смотреть их в записи. Доступ к записям и другим материалам курса - не ограничен! Посмотреть информацию о курсе и записаться можно по этой ссылке

4 278

The StatTech statistical software has been available since 2020. Since then, it has been used to write more than 3,500 scientific articles and to prepare and successfully defend over 300 dissertations. Today, more than 22,000 people use the software. StatTech is used not only by Russian researchers. The software has long featured both its interface and statistical output in English and French. StatTech also has its own Research Resource ID, which allows it to be cited as a statistical analysis tool in scientific publications. According to searches in PubMed, Scopus, MDPI, and Google Scholar, 98 articles using StatTech have been published in international journals to date, including 66 articles in Q1–Q2 journals, such as Annals of Oncology, Atherosclerosis, Biomedicines, Journal of Pediatric Surgery, Nutrients, Vaccines, and others. We want researchers all over the world to learn about StatTech! That is why we are announcing a period of free access to the software for any scientific, educational, or medical organization until the end of 2026. To apply, simply submit a request on behalf of your organization using the form at the link below: 👉 https://stattech.pro/free-access-request After receiving your application, we will prepare a partnership agreement with your organization within 5 business days and send it to the email address provided in the application. Under this agreement, each organization will receive full free access to StatTech for 5 workstations until December 31, 2026. To introduce the software, we have also decided to hold an international online demonstration of StatTech via Zoom. It will take place on June 6 at 12:00 UTC / 15:00 Moscow time and will be held in English. We will demonstrate the software’s key features: creating surveys, working with a database, and, of course, performing statistical analysis. We will answer all your questions and will also set aside time for those who would like to share their experience using StatTech. Please message me if you would like us to include your short presentation in the program — we would be delighted to do so. To join the demonstration, please register using this form: 👉 https://stattech.pro/conference-registration Immediately after registration, you will see a special promo code for purchasing individual access to the software with a 20% discount. The promo code will be valid until June 30, 2026. Dear friends, we would be very grateful if you shared this information with your fellow researchers working in any country around the world. See you at the conference! 🤗