Как лгать при помощи статистики (How to Lie with Statistics) - Part I
Этой книге Дарелла Хаффа уже 70 лет, но она до сих пор не потеряла актуальность. Я решил ее прочитать в продолжение книги "
Understanding Statistics and Experimental Design. How to Not Lie With Statistics", про которую я
рассказывал раньше. И книга не подвела моих ожиданий - она написана простым языком, не содержит воды и рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Книга состоит из 10 глав:
1. Выборка изначально необъективна - эта манипуляция связана с тем, как мы формируем выборку. Если выборка не соответствует генеральной совокупности (не является репрезентативной), то статистика, которую мы вычислим по этой выборке может показывать те числа, которые мы хотим. Но даже если мы хотим сделать максимально честную выборку, то это достаточно сложно сделать. Например, автор рассказывает про это на примере опросов. А вот пример от меня, whitepaper "
DevEx in Action" про developer productivity был описан на основе опросов тех разработчиков, которые работали в компаниях, что пользовались платформой
https://getdx.com/ , которая предоставляет инструменты для измерения developer productivity. В итоге, опрос показал, что эти инструменты полезны:)
2. Грамотно выбранное среднее - здесь речь идет про выбор среднего удобного для вашего конкретного случая использования, например, это может быть среднее (mean), медиана (median) и мода. В общем, в зависимости от вида распределения вашей величины эти варианты среднего могут сильно отличаться:)
3. Нюансы, о которых скромно умалчивают - здесь начинается все с размера выборки, который могут не упоминать (а при маленьком размере получить интересные результаты гораздо проще), также про неуспешные результаты экспериментов можно не рассказывать (зачем говорить про неинтересные вещи), плюс можно играть с формулировкой так, чтобы было не ясно как рассчитывается сам показатель:)
4. Много шума практически из ничего - здесь автор рассказывает про статзначимость и доверительные интервалы:) И что при указании конкретных чисел нам сложно сравнить их между собой не зная доверительных интервалов.
5. График - лучше не бывает - тут идет речь про манипуляции с графиками: отсчет не от начальной точки по вертикали, разные масштабы осей, выбор нужного интервала времени для демонстрации графика величины на котрасте между началом и концом интервала
6. Схематичная картинка - здесь автор рассказывает как можно при помощи инфографики обманывать людей. Например, при двухкратном росте денежного показателя показывать в два раза больший мешочек денег - но предметы мы воспринимает как трехмерные и там ощущение от этого приема, что рост был в 8 (2ˆ3) раз
7. Псевдообоснованная цифра - тут автор показывает как взятое из статистики рандомное число можно трактовать по своему усмотрению. Главное сделать отсылку к авторитету и указать откуда взято число, а интерпретацию уже вкрутить свою:) Кстати, это частая манипулятивная техника
8. И снова это "после - значит вследствие" - здесь автор рассказывает, что корреляция совсем не равна причинно-следственной связи. Возможно причина и следствие связаны циклом (как обсуждалось в книге "
Искусство системного мышления", про которую я
рассказывал раньше) или обе переменных зависят от какой-то другой третьей, а может быть это просто совпадение:)
9. Как производить статикуляции (статистические манипуляции) - тут автор показывает примеры из предыдущих глав и добавляет игры с процентами, повторный учет одних и тех же элементов в расчетах, складывает вместе разные типы объектов и выводит среднее. В общем, поступает очень креативно:)
Продолжение в следующем посте.
#Math #Statistics #PopularScience #Science #Data