medstatistic
Ir al canal en Telegram
📊 О статистике понятным языком! 👨🏻🎓 Дамир Марапов, к.м.н., доцент РМАНПО, создатель StatTech 👩🏻💻 Администратор канала - Марина @bell_ado_nna 👨🏻🏫 Курсы: https://taplink.cc/medstatistic ❓Чат по статистике: @medstatistic_chat
Mostrar más4 238
Suscriptores
+124 horas
+27 días
+2830 días
Archivo de publicaciones
4 238
2️⃣ Не старайтесь повысить качество своей работы за счет одновременного упоминания нескольких программ, если на самом деле работали только в одной из них. В данном случае количество в качество не переходит.
3️⃣ Не переписывайте раздел с описанием программ из чужих работ, как иногда советуют старшие коллеги. Пишите только про свой опыт.
Собственно, можно было обойтись только первым пунктом. Честность - это наше всё.
Продолжение следует…
4 238
🚩 Указана сильно устаревшая версия программы или, наоборот, несуществующая версия из будущего
Статистическую обработку материала проводили с помощью программы STATISTICA 12.0 (StatSoft Inc., США) и MedCalc (версия 9.3.5.0). (Инфекция и иммунитет, 2024) Версия программы MedCalc 9.3.5.0 выпущена аж в 2007 году и совместима с Windows не позднее версии Vista. Для 2024 года - это уже морально устаревшая версия. Расчет и оценка полученных результатов проводились на IBM-совместимом компьютере с операционной системой Windows XP с использованием программного пакета MS Excel 2017 (Microsoft), SPSS 12.0.2 и Statistica 20. (Репродуктивная медицина, 2024)Во-первых, авторы использовали компьютер с очень старой операционной системой. Это, конечно, возможно, у нас на кафедре тоже есть один несписанный компьютер с Windows XP, которым, правда, мы не пользуемся. Но установить MS Excel 17 на Windows XP - невозможно по двум причинам. Первая: максимальная версия, совместимая с этой ОС - MS Excel 10. Вторая: MS Excel 2017 - не существует, есть только Excel 2016 и Excel 2019. Во-вторых, у авторов, похоже, есть машина времени. Иначе никак не получится объяснить, где они смогли найти 20 версию программы STATISTICA, у которой в апреле 2026 года вышла пока только версия 14.4.
Для осуществления статистического анализа полученной информации применялся программный комплекс «Microsoft Office 2000Pro» под операционной системой
Windows OSR 2
на персональном компьютере
PC Intel Pentium-166
(Microsoft Office 2010 Professional, 2010). Кроме того, использовались специализированные программы для статистического анализа данных «STATISTICA 12.0» и MedCalc 23.2.1 (Software, США).
(Медицинский вестник Юга России, 2026)Пример похож на предыдущий. Но здесь ещё указан компьютер, и какой! Pentium-166 - это процессор I поколения! Мой первый компьютер, который я купил у своего друга в 2001 году (то есть он уже был подержанный), был Pentium III поколения. А здесь в распоряжении авторов оказался настоящий раритет. Без сомнений, на таком процессоре будет отлично работать Windows 95 OCR 2, это популярная комбинация для компьютера 90-х годов. И MS Office 2000 Pro тоже установить можно. Но вот представить MS Office 2010, STATISTICA 12.0 и MedCalc 23.2.1 на такой восхитительно древней машине можно разве что в волшебном сне. 🚩 Избыточное количество использованных программ Попробуем привести аналогию из медицины. Представьте, что в поликлинику обратился пациент с небольшим порезом на пальце. И для его лечения был собран консилиум из трех академиков, которые совместно провели обработку раны. Вот так же абсурдно выглядит использование в одной работе нескольких мощных программ для решения тривиальных статистических задач. Например:
Статистическая обработка данных проводилась с использованием программного обеспечения Excel 2019,
SPSS
Statistica v. 26 (IBM, США),
MedCalc
v. 20.104 и
JMP
Pro 17 (SAS, США).
(Российский кардиологический журнал, 2024)В этой работе использовались описательная статистика, регрессия Кокса и ROC-анализ. Исчерпывающие возможности по проведению всех этих видов анализа есть у каждой программы: SPSS, MedCalc и JMP. С какой целью использовались все они в одном исследовании - загадка.
Для обработки полученных данных использовали программу
STATISTICA
12.0 (StatSoft Inc., США),
SPSS
21.0,
MedCalc
(версия 9.3.5.0).
(Артериальная гипертензия, 2022)Представительный набор из трех статистических программ использовался для расчета трех критериев: Манна–Уитни, Краскела–Уоллиса, хи квадрат Пирсона с поправкой Йейтса. Видимо, каждый из них считали в отдельной программе. ❗️Как избежать ошибок, связанных с неправильным указанием статистических программ? 1️⃣ Будьте честными: укажите ту программу, которой действительно пользовались. Название и версию программы обычно можно посмотреть в ней самой при запуске или во вкладках «Справка», «О программе». Выполнили все расчёты на бумажке? Так и напишите, не надо ничего выдумывать.
4 238
🚩 Неправильное название программы
Особенно часто вызывает проблемы с написанием название программы Microsoft Excel, например:
Статистический анализ проведен с использованием программы Exel. (Акушерство и гинекология, 2025)
Накопление, корректировка, систематизация исходной информации и визуализация полученных результатов проводилась в электронных таблицах
Microsoft Exell
.
(Вестник новых медицинских технологий, 2025)Но и с другими программами могут возникнуть сложности, например, с IBM SPSS Statistics:
Статистическая обработка полученных данных проводилась с помощью программы
SPSS «STATISTICS 20.0»
.
(Социальные аспекты здоровья населения, 2015)Есть ощущение, что авторы так и не смогли определиться, какую программу указать: SPSS или STATISTICA. Версии SPSS, начиная с 19, обозначаются целым числом. Формат 6.0 или 10.0 характерен для программы STATISTICA. Ну и кавычки здесь совершенно не к месту.
Статистический линейный регрессивный анализ данных и интерпретация полученных результатов выполнялись с использованием компьютерного обеспечения
IBM
и пакета программ SPSS (
PASW Statistics 20
).
(Проблемы стоматологии, 2020)Здесь наблюдается какая-то «расчленёнка» в отношении программы SPSS. Почему-то разработчик IBM превратился в название отдельного программного обеспечения. Законное продолжение названия программы Statistics убрали в скобки вместе с прежним названием программы - PASW Statistics, используемым только для версий 17-18, но никак не для 20. В общем, если убрать из предложения лишние слова: «и пакета программ», «PASW» и скобки, то получится корректное название программы: IBM SPSS Statistics 20. 🚩 Неправильное указание разработчика программы Как вам, например, такое:
MedCalc 23.2.1 (
Software, США
)
(Медицинский вестник Юга России, 2026)Просто Software, ничего особенного. Отличное название для IT-компании. На самом деле, разработчиком MedCalc является бельгийская (а не американская!) компания MedCalc Software Ltd. Также в других примерах вы можете увидеть, что часто при перечислении разных программ для одних разработчик указан, а для других - почему-то нет.
4 238
Можно ли сразу понять, что в научной статье не все хорошо со статистикой?
Чаще всего, да. Причем увидеть «нехорошие симптомы» можно еще до погружения в результаты исследования.
Предлагаем свой список «ред флагов» при прочтении очень важной части научной статьи под названием «Материалы и методы». Все примеры взяты из реальных работ, найденных нами в базе Elibrary.ru. Авторов указывать не буду, но отмечу журнал и год публикации.
Сначала планировался один общий пост, но неожиданно набралось слишком много материала. Поэтому сделаем отдельные посты по каждому разделу. От Вас, мои дорогие подписчики, жду реакции и комментарии!
Ну, поехали…
4 238
I. Хорошо:
В общих чертах:
✅ Выбирать эстиманд (интересующий нас параметр, например, разность средних) исходя из решаемой предметной задачи.
✅ Формулировать явным образом допущения, из которых мы исходим при анализе данных (например, о том, что наблюдения независимы, происходят из одного распределения с конечной ненулевой дисперсией).
✅ Выбирать статистическую процедуру (тест, доверительный интервал), исходя из эстиманда и сформулированных допущений.
В идеальном случае перечисленные выше шаги стоит выполнить еще до сбора данных!
Из этого, в том числе, следует, что имеет смысл:
✅ При использовании t-теста или F-теста (ANOVA) предпочесть модификации по Уэлчу, устойчивые к гетероскедастичности, без предварительной проверки равенства дисперсий.
✅ Отказаться от предварительной проверки на нормальность.
✅ Применять заранее выбранную процедуру независимо от наблюдаемой формы распределения.
✅ Изучать распределение данных с помощью диаграмм распределения (например, гистограммы).
II. Плохо:
⛔️ Выбирать статистическую процедуру для сравнения групп исходя только из результатов проверки условий применимости с помощью других тестов (тесты на нормальность, тесты на гомоскедастичность и т.д.). Такая тактика может привести к изменению эстиманда, что недопустимо: он должен быть определен на этапе планирования исследования исходя из решаемой задачи. Кроме того, проведение предварительных тестов (т.н. двух- и многофазовые процедуры) непредсказуемо изменяет вероятность ошибки первого рода и мощность статистических процедур и может приводить к изменению тестируемой нулевой гипотезы, что также недопустимо.
⛔️ Проверять нормальность распределения с помощью тестов, дающих оценку p < 0,05 или p > 0,05 (тест Шапиро-Уилка, Колмогорова-Смирнова и др.). На малых выборках эти тесты обладают низкой мощностью (т.е., недостаточно чувствительны и имеют высокую вероятность ошибки второго рода), а на больших выборках излишне чувствительны к малейшим отклонениям от нормальности.
⛔️ Считать, что для применения t-теста и других тестов «параметрической» статистики обязательными условиями являются нормальность распределения и (или) объем выборки более 30.
⛔️ Считать, что ранговые тесты (Уилкоксона, Манна-Уитни, Краскела-Уоллиса и др.) являются прямыми аналогами «параметрических» процедур и при отсутствии нормальности всегда лучше «параметрических».
III. Примерный алгоритм действий:
1️⃣ Изучить природу данных на этапе подготовки к исследованию. В этом могут помочь, например, общее понимание о происхождении данных (что и как измеряется), а также данные пилотного или прошлых исследований и др.
2️⃣ На этапе планирования исследования предположить характер распределения данных. Исходя из этого предусмотреть преобразование данных (например, логарифмирование), необходимость стратификации (анализ показателей в подгруппах), обработку экстремальных значений и т.д.
3️⃣ До начала анализа данных выбрать эстиманд, который соответствует решаемой предметной задаче, природе данных и предполагаемым свойствам их распределения. На основе этого выбрать статистическую процедуру (эстиматор, тест, ДИ).
4️⃣ Использовать выбранную процедуру (тест, ДИ) для собранных в исследовании данных.
5️⃣ В случае наблюдения незапланированных особенностей данных, которые существенно расходятся с исходными представлениями (постановка предметной задачи, ожидаемые свойства распределения и т.п.):
- провести анализ чувствительности;
- рассмотреть возможность формулирования и решения новой предметной задачи с новым последовательным прохождением пп. 1-4. Уже имеющиеся данные могут послужить как пилотные для следующего исследования.4 238
Как мы видим, на сегодняшний день накоплено достаточно данных, опровергающих целесообразность проверки на нормальность распределения. В связи с этим совместно с коллегами Максимом Кузнецовым (автором блога Biostatistics on the Table) и Матвеем Славенко (автором блога душно про дату) и при поддержке сообщества BioStat <- R | Чат по статистике и R был подготовлен алгоритм действий исследователя при анализе количественных показателей.
Представляем его Вашему вниманию
4 238
❗️4️⃣ Выбор критерия исходя из параметров собранных данных противоречит принципам предварительного планирования дизайна исследования.
В этом случае для нас открывается возможность манипуляций. Например, если с помощью t-критерия Стьюдента не будут получены желаемые различия, можно отказаться от мнения о нормальности распределения и испытать другие критерии: Манна-Уитни, ван дер Вардена, Вальда-Вольфовица, медианный тест Муда и др. Авось где-то p опустится ниже заветных 0.05 и можно будет сделать вывод, что эффект достигнут. Такой подход относится к нежелательному и порицаемому явлению под названием «p-hacking». Надежным средством против него является четкое указание в протоколе, публикуемом до набора данных, какие гипотезы планируется проверять и с помощью каких методов.
Интересно, что даже выбор программы - совсем уже нестатистический фактор! - может повлиять на результаты сравнения. Ведь доступные в одних программах критерии могут отсутствовать в других, что неизбежно приводит к различиям в выводах. Пример такой ситуации с использованием SPSS и Minitab приводят Pearce and Derrick (2019).
Выбирая метод анализа на этапе планирования исследований, можно сослаться на Аддендум по эстимандам к руководству по статистическим принципам для клинических испытаний (ICH E9(R1)). В нем сказано, что эстиманды (оцениваемый эффект, например, разность средних) с основными эстиматорами (метод оценивания, например, t-критерий Стьюдента) должны определяться заранее, на этапе планирования исследования. При этом, конечно, учитываются предположения о популяции и изучаемом параметре, а в случае выявления отклонений от предположений рекомендуется выполнять анализ чувствительности.
Также про опасность манипуляций с выводом можно прочитать у Fay and Proschan (2010).❗️5️⃣ Использование предварительного тестирования допущений применения статистических методов, таких как нормальность или равенство дисперсий, создает проблемы с контролем ошибок I и II типа. То есть помимо ошибок проверки статистических гипотез, совершаемых при использовании конкретного метода, которые обычно успешно контролируются самим методом, мы сталкиваемся с вероятностью ошибок, связанных с проверкой допущений. В результате мы можем получить p-значения, значительно отличающиеся от реальных. А может и незначительно… В общем, проверка допущений делает статистический вывод неопределенным.
Какие авторы пишут об этом:
Zimmerman (2004), Wells and Hintze (2007), Rochan et al. (2012), Garcia-Perez (2012)❗️6️⃣ В случае предполагаемых нарушений допущений статистических тестов (если они все-таки важны), сразу использовать такие методы, которые устойчивы к этим допущениям. Например, при сомнениях в целесообразности сравнения средних значений можно без каких-либо предварительных проверок отказаться от t-теста в пользу ранговых методов.
Такую рекомендацию в отношении разных параметрических методов можно встретить в работах: Wells and Hintze (2007), Fagerland (2012), Lantz (2013), Derrick et al. (2017).Данный принцип также относится к проверке гомоскедастичности (равенства дисперсий). Это допущение является важным при использовании параметрических методов: классического t-теста или F-теста, post-hoc критерия Тьюки, а также непараметрического критерия Манна-Уитни. У каждого из них есть аналоги, устойчивые к нарушению данного допущения: соответственно, t-тест и F-тест Уэлча, тест Геймса-Хауэлла, критерий Бруннера-Мюнцеля. Рекомендуется по умолчанию использовать именно эти аналоги без проверки равенства дисперсий. Симуляции показывают их надежность как при гетеро-, так и при гомоскедастичности.
О предпочтительном использовании теста Уэлча пишут: Zimmerman (2004), Rash et al. (2011), West (2021). О предпочтительном использовании критерия Бруннера-Мюнцеля: Karch (2023), Noguchi at al. (2021), Nowak et al. (2022). О предпочтительном использовании критерия Геймса-Хауэлла: Keselman and Rogan (1978).Все ссылки на упомянутые в этом посте источники, которые могут пригодиться для подготовки ответов рецензентам и для более глубокого погружения в эту тему, приведены в комментариях.
4 238
Продолжение. Первая часть поста опубликована здесь и здесь.
Чем же нас не устраивает алгоритм №2? Тот, который предлагает выбирать критерий исходя из нормальности распределения? К сожалению, для критики есть серьезные основания, подробно представленные в многочисленных источниках.
❗️1️⃣ При достаточно большом числе наблюдений t-критерий Стьюдента, дисперсионный анализ, ковариационный анализ, линейная регрессия устойчивы к отсутствию нормальности распределения.
Стьюдент в своей знаменитой статье “The probable error of a mean” (1908) описал t-критерий исходя из допущения о том, что в популяции показатель имел нормальное распределение. При таком допущении t-критерий является точным тестом и может использоваться для анализа даже небольших выборок.
Но при достаточно большом числе наблюдений t-критерий можно рассматривать как консервативную форму z-теста, не имеющего допущений по форме распределения.
Это подтверждается многочисленными симуляциями, где t-критерий применяли к очень ненормально распределенным данным и всё равно получали корректные выводы о различиях средних значений (справедливости ради отметим, что сценарии, где t-критерий не будет работать, также существуют).
То же относится и к дисперсионному анализу и линейной регрессии. Позволю себе процитировать Norman G., рассмотревшего в своей статье устойчивость ANOVA к нарушениям различных допущений: «
Parametric statistics can be used with Likert data, with small sample sizes, with unequal variances, and with non-normal distributions, with no fear of ‘‘coming to the wrong conclusion’’.»
Какие авторы пишут об этом: Feir-Walsh and Toothaker (1974), Driscoll (1996), Scovlund and Fenstad (2001), Fay and Proschan (2010), Norman (2010), Rash et al. (2011), Fagerland (2012), Lumley et al. (2012), Blanca et al. (2023).❗️2️⃣ Нормальность распределения трудно оценить объективно. Особенно это актуально для небольшого числа наблюдений. Используемые для оценки нормальности критерии, такие как популярный и рекомендуемый многими авторами критерий Шапиро-Уилка, на малых выборках имеют слишком низкую мощность и могут подтверждать нормальность даже если её нет. Обратная проблема возникает при большом числе наблюдений, когда даже малозначимые отклонения от нормальности сопровождаются выводом об отсутствии нормальности. Ряд авторов рекомендует использовать для проверки на нормальность графические методы, т.е. визуальное изучение гистограммы или квантильной диаграммы (QQ-plot), но этот подход тоже недостаточно точен. Другими словами, объективная оценка нормальности распределения - слишком сложная задача.
Какие авторы пишут об этом:
Garcia-Perez (2012), Rochon et al. (2012), Kozak and Piepho (2017)❗️3️⃣ Параметрические и непараметрические критерии не являются взаимозаменяемыми - они решают разные задачи и отвечают на разные вопросы. Представьте, что нам нужно завернуть шуруп. Но сделать это отверткой затруднительно, например, из-за сбитых шлицов на головке шурупа. И тогда нам предлагают воспользоваться молотком. Конечно, можно забить им шуруп, вот только держаться он будет плохо. Молоток - для гвоздей, отвертка - для шурупов. Так же, как молоток не заменит отвертку, непараметрические критерии не заменят параметрические, в связи с тем, что проверяют разные гипотезы. Например, t-критерий Стьюдента проверяет, отличаются ли друг от друга средние значения. А непараметрический критерий Манна-Уитни - то, что вероятность бОльших значений в одной из выборок выше, чем в другой. 🔹В тех исследованиях, где важно доказать, что именно средний уровень показателя в одной из групп выше или ниже - мы практически всегда будем использовать t-критерий. 🔹Но иногда нас в меньшей степени интересуют средние значения или их разность, мы бы хотели доказать, что в одной из групп чаще встречаются более высокие значения. В таких случаях мы можем сразу предпочесть критерий Манна-Уитни.
Какие авторы пишут об этом:
Sawilowski and Shlomo (2005), Fay and Proschan (2010), Fagerland (2012), Lumley et al. (2012)
4 238
❗️4️⃣ Выбор критерия исходя из параметров собранных данных противоречит принципам предварительного планирования дизайна исследования.
В этом случае для нас открывается возможность манипуляций. Например, если с помощью t-критерия Стьюдента не будут получены желаемые различия, можно отказаться от мнения о нормальности распределения и испытать другие критерии: Манна-Уитни, ван дер Вардена, Вальда-Вольфовица, медианный тест Муда и др. Авось где-то p опустится ниже заветных 0.05 и можно будет сделать вывод, что эффект достигнут. Такой подход относится к нежелательному и порицаемому явлению под названием «p-hacking». Надежным средством против него является четкое указание в протоколе, публикуемом до набора данных, какие гипотезы планируется проверять и с помощью каких методов.
Интересно, что даже выбор программы - совсем уже нестатистический фактор! - может повлиять на результаты сравнения. Ведь доступные в одних программах критерии могут отсутствовать в других, что неизбежно приводит к различиям в выводах. Пример такой ситуации с использованием SPSS и Minitab приводят Pearce and Derrick (2019).
Выбирая метод анализа на этапе планирования исследований, можно сослаться на Аддендум по эстимандам к руководству по статистическим принципам для клинических испытаний (ICH E9(R1)). В нем сказано, что эстиманды (оцениваемый эффект, например, разность средних) с основными эстиматорами (метод оценивания, например, t-критерий Стьюдента) должны определяться заранее, на этапе планирования исследования. При этом, конечно, учитываются предположения о популяции и изучаемом параметре, а в случае выявления отклонений от предположений рекомендуется выполнять анализ чувствительности.
Также про опасность манипуляций с выводом можно прочитать у Fay and Proschan (2010).❗️5️⃣ Использование предварительного тестирования допущений применения статистических методов, таких как нормальность или равенство дисперсий, создает проблемы с контролем ошибок I и II типа. То есть помимо ошибок проверки статистических гипотез, совершаемых при использовании конкретного метода, которые обычно успешно контролируются самим методом, мы сталкиваемся с вероятностью ошибок, связанных с проверкой допущений. В результате мы можем получить p-значения, значительно отличающиеся от реальных. А может и незначительно… В общем, проверка допущений делает статистический вывод неопределенным.
Какие авторы пишут об этом:
Zimmerman (2004), Wells and Hintze (2007), Rochan et al. (2012), Garcia-Perez (2012)❗️6️⃣ В случае предполагаемых нарушений допущений статистических тестов (если они все-таки важны), сразу использовать такие методы, которые устойчивы к этим допущениям. Например, при сомнениях в целесообразности сравнения средних значений можно без каких-либо предварительных проверок отказаться от t-теста в пользу ранговых методов.
Такую рекомендацию в отношении разных параметрических методов можно встретить в работах: Wells and Hintze (2007), Fagerland (2012), Lantz (2013), Derrick et al. (2017).Данный принцип также относится к проверке гомоскедастичности (равенства дисперсий). Это допущение является важным при использовании параметрических методов: классического t-теста или F-теста, post-hoc критерия Тьюки, а также непараметрического критерия Манна-Уитни. У каждого из них есть аналоги, устойчивые к нарушению данного допущения: соответственно, t-тест и F-тест Уэлча, тест Геймса-Хауэлла, критерий Бруннера-Мюнцеля. Рекомендуется по умолчанию использовать именно эти аналоги без проверки равенства дисперсий. Симуляции показывают их надежность как при гетеро-, так и при гомоскедастичности.
О предпочтительном использовании теста Уэлча пишут: Zimmerman (2004), Rash et al. (2011), West (2021). О предпочтительном использовании критерия Бруннера-Мюнцеля: Karch (2023), Noguchi at al. (2021), Nowak et al. (2022). О предпочтительном использовании критерия Геймса-Хауэлла: Keselman and Rogan (1978).Все ссылки на упомянутые в этом посте источники, которые могут пригодиться для подготовки ответов рецензентам и для более глубокого погружения в эту тему, приведены в комментариях.
4 238
1 июня стартует 46-й поток Курса по основам статистики!
Этот курс прошли уже более 1000 человек. Он для тех, кто хочет самостоятельно и уверенно выполнять статистический анализ данных для статей и диссертации. Для тех, кто хочет по-настоящему понять и полюбить статистику в клинических исследованиях.
Курс подходит для тех, кто пока совсем ничего не знает и не умеет. Но и те, кто уже имеет опыт статобработки клинических исследований - тоже получат много полезного.
Программа курса:
🔸01.06 — Создание базы данных в SPSS
🔸03.06 — Преобразование, вычисление данных
🔸05.06 — Нормальность распределения
🔸08.06 — Описательная статистика
🔸10.06 — Построение диаграмм в SPSS
🔸11.06 — t-критерий Стьюдента, ANOVA
🔸15.06 — критерии Манна-Уитни, Краскела-Уоллиса
🔸17.06 — Анализ номинальных данных
🔸19.06 — Сравнение связанных совокупностей
🔸22.06 — Корреляционный анализ
🔸24.06 — Линейная регрессия
🔸26.06 — Дискриминантный анализ
🔸29.06 — Бинарная логистическая регрессия
🔸30.06 — ROC-анализ
🔸01.07 — Кластерный анализ
🔸06.07 — Анализ выживаемости (таблицы дожития, кривые Каплана-Мейера)
🔸08.07 — Анализ выживаемости (регрессия Кокса)
🔸10.07 — Определение размера выборки
Занятия проводятся 3 раза в неделю, в вечернее время на платформе Zoom. Все вебинары записываются, поэтому если не успеваете присутствовать лично, можно смотреть их в записи. Доступ к записям и другим материалам курса - не ограничен!
Посмотреть информацию о курсе и записаться можно по этой ссылке
4 238
The StatTech statistical software has been available since 2020. Since then, it has been used to write more than 3,500 scientific articles and to prepare and successfully defend over 300 dissertations. Today, more than 22,000 people use the software.
StatTech is used not only by Russian researchers. The software has long featured both its interface and statistical output in English and French. StatTech also has its own Research Resource ID, which allows it to be cited as a statistical analysis tool in scientific publications. According to searches in PubMed, Scopus, MDPI, and Google Scholar, 98 articles using StatTech have been published in international journals to date, including 66 articles in Q1–Q2 journals, such as Annals of Oncology, Atherosclerosis, Biomedicines, Journal of Pediatric Surgery, Nutrients, Vaccines, and others.
We want researchers all over the world to learn about StatTech! That is why we are announcing a period of free access to the software for any scientific, educational, or medical organization until the end of 2026. To apply, simply submit a request on behalf of your organization using the form at the link below:
👉 https://stattech.pro/free-access-request
After receiving your application, we will prepare a partnership agreement with your organization within 5 business days and send it to the email address provided in the application. Under this agreement, each organization will receive full free access to StatTech for 5 workstations until December 31, 2026.
To introduce the software, we have also decided to hold an international online demonstration of StatTech via Zoom. It will take place on June 6 at 12:00 UTC / 15:00 Moscow time and will be held in English. We will demonstrate the software’s key features: creating surveys, working with a database, and, of course, performing statistical analysis. We will answer all your questions and will also set aside time for those who would like to share their experience using StatTech. Please message me if you would like us to include your short presentation in the program — we would be delighted to do so.
To join the demonstration, please register using this form:
👉 https://stattech.pro/conference-registration
Immediately after registration, you will see a special promo code for purchasing individual access to the software with a 20% discount. The promo code will be valid until June 30, 2026.
Dear friends, we would be very grateful if you shared this information with your fellow researchers working in any country around the world.
See you at the conference! 🤗
4 238
Статистическая программа StatTech существует с 2020 года. За это время с её помощью написано более 3500 научных статей, подготовлено и защищено более 300 диссертаций. Более 22 тысяч человек являются пользователями программы.
StatTech используется не только российскими учёными. В программе давно уже реализованы интерфейс и статистический вывод на английском и на французском языках. StatTech имеет свой Research Resource ID, позволяющий указывать её в качестве средства статобработки в научных работах. И согласно поиску в базах PubMed, Scopus, MDPI и Google Scholar на сегодняшний день в зарубежных журналах опубликованы 98 статей, в том числе 66 - в журналах из Q1 -Q2 (в т.ч. в Annals of Oncology, Atherosclerosis, Biomedicines, Journal of Pediatric Surgery, Nutrients, Vaccines и др.)
Мы хотим, чтобы о StatTech узнали учёные во всем мире! И поэтому объявляем время свободного доступа к программе для любых научных, образовательных или медицинских организаций до конца 2026 года. Для этого нужно всего лишь отправить заявку по Вашей организации через форму по ссылке:
👉https://stattech.pro/free-access-request
После получения заявки в течение 5 рабочих дней мы подготовим партнерское соглашение с Вашей организацией, которое направим по указанной в заявке почте. В соответствии с этим соглашением каждой организации будет предоставлен бесплатный полноценный доступ к StatTech в составе 5 рабочих мест до 31.12.2026.
А для знакомства с программой мы также решили провести международную онлайн-демонстрацию StatTech через платформу Zoom. Она состоится 6 июня в 12:00 UTC (15:00 по МСК) и пройдет на английском языке. Покажем основные возможности программы: создание опросов, работу с базой данных и, конечно, выполнение статистического анализа. Ответим на все вопросы, а также отдельно предоставим время для желающих поделиться своим опытом работы со StatTech (напишите мне, мы будем рады включить Ваше короткое сообщение в программу).
Для того, чтобы присоединиться к демонстрации, зарегистрируйтесь по этой форме:
👉 https://stattech.pro/conference-registration
Сразу после регистрации Вам будет показан специальный промокод на приобретение индивидуального доступа к программе с 20% скидкой. Им можно будет воспользоваться до 30.06.2026.
Дорогие друзья, будем очень благодарны, если Вы поделитесь этой информацией со своими коллегами-учеными, работающими в любой стране мира.
До встречи на конференции!🤗
4 238
В качестве примера приведу цитаты из статьи Гржибовского А.М. и соавт., 2016 года:
«Прежде чем использовать параметрические методы статистики, исследователь должен убедиться в том, что распределение имеющихся в его распоряжении данных не отличается от нормального»;А также из статьи Леонова В.П. 2019 года:
«Для непрерывных количественных признаков следует обязательно произвести проверку нормального распределения».Этот алгоритм быстро завоевал доверие со стороны научного сообщества. Рецензенты и научные руководители стали требовать проверку на нормальность при анализе данных клинических исследований. До сих пор в значительном числе научных работ, в том числе публикуемых в авторитетнейших NEJM и Lancet, мы встречаем выбор статистического метода исходя из нормальности распределения. Такая популярность алгоритма №2 не позволяет пока полностью отказаться от него. Далее мы покритикуем этот алгоритм, но вообще-то некоторый смысл в нём есть. 💡Во-первых, он обращает внимание авторов на распределение данных, о котором раньше мало кто задумывался. А ведь это важная характеристика, которую непременно следует изучать при выполнении статанализа. 💡Во-вторых, использование параметрических критериев при нормальном распределении почти всегда будет оптимальным выбором. 💡В-третьих, в отдельных случаях отклонений от нормального распределения действительно лучше использовать ранговые методы. 💡В-четвертых, условие гомоскедастичности справедливо для t-критерия Стьюдента (и, кстати, актуально и для критерия Манна-Уитни - см. наш пост про критерий Бруннера-Мюнцеля). Интересно, что на волне роста претензий к использованию параметрических методов без проверки на нормальность распределения, в связи со сложностью и субъективностью этой проверки (что справедливо!), а также устоявшимся (неверным!) мнением, что непараметрические критерии - это то же самое, что и параметрические, но только они не требуют нормальности, появился ещё один крайний алгоритм №3: 1️⃣ Всегда использовать непараметрические методы, независимо от распределения данных. Обращаясь к статистикам, аспиранты той поры интересовались, смогут ли они рассчитать критерий Манна-Уитни или критерий Фридмана. Использование «непараметрики» избавляло от необходимости долго и сложно «пояснять за нормальность» на защите диссертации или в ответах рецензентам. И автоматически снимало все вопросы к выбору методов анализа. На этой волне я услышал однажды от одного исследователя замечательную фразу в ответ на мое предложение использовать в его работе t-критерий Стьюдента: - Дамир Ильдарович, так он ведь запрещен!! Мой вопрос: кем и когда запрещен? - разумеется, остался без ответа. Следует отметить ещё один факт, по времени совпавший с расцветом популярности непараметрических критериев: переход от табличного редактора MS Excel к полноценным статистическим программам. В стандартном Excel непараметрика, как известно, отсутствует, поэтому использование критерия Манна-Уитни или коэффициента ранговой корреляции Спирмена свидетельствовало о владении автором, например, программой STATISTICA 6.0. Результаты работы в таком случае выглядели максимально убедительно! Продолжение следует
4 238
Эта тема вот уже не первый год будоражит все статистические чаты.
Проверять или не проверять количественные данные на нормальность распределения перед анализом количественных данных?
Начну с истории. Некоторые коллеги-математики и биостатистики удивляются популярности алгоритма выбора метода в зависимости от нормальности распределения в медицинских исследованиях. Возможно, мой краткий экскурс раскроет некоторые предпосылки этого явления. Сразу оговорюсь, что эта история включает мои личные оценки, как непосредственного свидетеля и участника описываемых событий.
Когда-то давным-давно в самом начале нулевых в медицинском вузе нас учили, что сравнивать количественные показатели в двух группах нужно с помощью t-критерия Стьюдента. Мы вручную рассчитывали его по формуле, а потом по таблице критических значений при уровне значимости 0.05 определяли, «достоверны» ли различия. Думаю, что эти задачи до сих пор решаются на кафедрах оргздрава или медицинской статистики.
Конечно, нам рассказывали о непараметрических (ранговых) критериях. Но только очень кратко, вскользь. То есть мы знали, что они существуют, и могут применяться в каких-то случаях вместо t-критерия Стьюдента. Но что это за случаи - нам не рассказывали. Например, в учебнике по общественному здоровью и здравоохранению Миняева и Вишнякова (изд. МедПресс-Информ), который использовался на кафедре в качестве основного учебного пособия, непараметрическим критериям была посвящена всего одна страница.
Если взять отечественные медицинские статьи и диссертации 90-х или ранних нулевых годов, в большинстве из них мы не встретим непараметрических критериев. И нормальность данных тогда никто не проверял.
В тех работах использовался алгоритм №1:
1️⃣ Всегда используем параметрические методы.
И вдруг мы узнали, что, оказывается, делаем все неправильно. Оказывается, t-критерий Стьюдента, как и другие параметрические методы, можно использовать только при определенных условиях. Причем эти условия выполняются очень редко, намного реже, чем не выполняются. Среди этих условий - та самая нормальность распределения и ещё одно свойство с длинным названием «гомоскедастичность», т.е. равенство дисперсий.
В научных журналах и в интернете появилось большое число статей, где рекомендовался алгоритм №2:
1️⃣ Проверяем выборочные данные на нормальность распределения какими-либо методами.
2️⃣ (факультативно) При сравнении независимых групп проверяем также равенство дисперсий в группах.
3️⃣ Если данные нормально распределены, используем параметрические методы.
В случае использования п.2: при равенстве дисперсий применяем t Стьюдента или F Фишера. Если дисперсии не равны - применяем t или F Уэлча.
4️⃣ Если распределение отличается от нормального, используем непараметрические (ранговые) методы.
4 238
Дорогие друзья, 7-й поток мастер-класса по работе с литературой стартует 27 апреля!
Ждём аспирантов, учёных, всех, перед кем стоит задача быстро и качественно сделать обзор литературных источников для диссертации или статьи. Всех, кто хочет максимально использовать возможности современных программ, в т.ч. искусственного интеллекта, для подготовки, написания, оформления и проверки научного текста.
Занятия будут проходить в 19:00 по МСК на платформе Zoom, в режиме живого общения, 3 раза в неделю. Все занятия записываются, срок доступа к видеозаписям и остальным материалам - как всегда, не ограничен!
Программа занятий:
27 апреля - Библиографическое описание. Транслитерация.
29 апреля - Использование библиографических менеджеров при работе с литературой. Оформление списка литературы по ГОСТ с помощью библиографических менеджеров (Zotero).
1 мая - Подбор библиографических источников и оформление списка литературы при помощи искусственного интеллекта.
4 мая - Работа в электронных базах, поиск литературы для диссертаций, обзорных статей и систематических обзоров с применением искусственного интеллекта.
6 мая - Оформление обзора литературы для диссертации. Классификация научных статей, структура и особенности их оформления
8 мая – Обзор систем для проверки научных текстов на заимствования (плагиат). Рерайтинг, использование систем на основе искусственного интеллекта
Записаться на курс можно по ссылке: https://taplink.cc/medstatistic/p/397b8f/
4 238
Можно по-разному относиться к применению искусственного интеллекта в науке для генерации идей или описания результатов. Но польза ИИ при подготовке обзоров - очевидна и вызывает значительно меньше возражений. В настоящее время большинство систем для поиска публикаций в интернете используют в своих алгоритмах ИИ.
Однако есть одна проблема - галлюцинации. Это означает, что ИИ, когда не может найти какую-то информацию, вместо того, чтобы честно признаться в этом, выдумывает несуществующие факты. При поиске публикаций галлюцинации приводили к тому, что в списке источников встречались выдуманные ИИ статьи, которые при этом выглядели совсем, как настоящие.
Более устойчивы к галлюцинациям системы, ищущие ответы на вопросы внутри определенной базы источников. И несколько месяцев назад появился новый мощный инструмент, который собирает информацию только из научных статей, причем их число огромно и включает, по некоторым данным более 88 млн. источников! Мы говорим о новом творении «амбассадора открытых данных» Александры Элбакян - открытом бесплатном онлайн-сервисе Sci-Bot.
Это сайт, расположенный по адресу sci-bot.ru, где без какой-либо регистрации мы можем написать научный вопрос и получить развернутый ответ, исходя только из базы источников Sci-Hub. Поэтому каждый тезис будет сопровождаться ссылкой на реальную статью. А в самом конце ответа будет оформлен общий пронумерованный библиографический список.
К минусам сервиса можно отнести отсутствие самых свежих статей, так как в базе Sci-Hub, как известно, представлены публикации до 2023 года. Также слабо представлены статьи open access (со свободным доступом), ведь в Sci-Hub хранятся источники, доступ к которым официально ограничен.
Мы тестировали сервис Sci-Bot на разных задачах и должны признать, что он отлично с ними справился. Даже нашел ответы на сложные вопросы про особенности применения редких статистических методов, информацию о которых очень трудно найти.
Попробуйте сами и поделитесь своими впечатлениями в комментариях!
А на ближайшем потоке Мастер-класса по работе с литературой мы подробно расскажем не только про этот сервис, но и про многие другие, которые используются на разных этапах написания научной статьи или диссертации.
4 238
Если у Вас есть желание занять чем-то приятным и небесполезным 3 часа своего времени, то предлагаю посмотреть видеозапись вебинара на тему построения и визуализации прогностических моделей, прошедший в это воскресенье.
Лекция состоялась в рамках весенней онлайн-школы для исследователей «Старт в науку», организованной Евгенией Малинович на базе Национального НИИ общественного здоровья им. Н.А.Семашко.
О чем можно узнать из вебинара?
🔹Какие бывают предсказательные модели и как их можно использовать в медицинских и социальных исследованиях?
🔹Как интерпретируются коэффициент регрессии и интерсепт?
🔹В чем отличие логистической регрессии от линейной?
🔹Как построить регрессионную модель в статистической программе StatTech?
Впервые было показано, как можно визуализировать уравнение регрессии с помощью номограммы. При этом был использован функционал онлайн-калькулятора, доступный на сайте medstatistic.ru. В ближайшее время обязательно сделаю пост о номограммах как способе представления регрессии.
А в конце вебинара мы провели небольшое исследование, где вместе со слушателями проверили, связано ли, например, среднее число шагов с индексом массы тела.
Смотреть вебинар можно по этой ссылке
4 238
Завтра 9 апреля в 15.00 стартует весенняя онлайн-школа для исследователей «Старт в науку» на базе Национального НИИ общественного здоровья им. Н.А.Семашко, где я прочитаю доклад о прогностических моделях.
Программа весенней школы:
9 апреля
15:00 - Подготовка базы данных к регистрации
10 апреля
15:00 - База данных Excel = 1 публикация ВАК.
Ананченкова Полина
16:30 - Регистрация патентов для любых научных направлений.
Эминова Валерия17:30 - Гранты для всех.
Сидорук Кристина
11 апреля
15:00 - Antiplagiat после обновлений: как работать с проверкой текста.
Малинович Евгения
16:00 - Мотивация для написания диссертации.
Пономарева Ирина
12 апреля
15:00 - Прогнозирование исходов и параметров с помощью статистических методов.
Марапов Дамир
Зарегистрироваться на бесплатную весеннюю онлайн-школу
Обратите внимание: всем, кто прослушает 4 лекции весенней школы будут выданы сертификаты от Национального НИИ общественного здоровья им. Н.А.Семашко.
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
