Манипуляция статистикой: различия между версиями

Материал из Русского эксперта
Перейти к навигации Перейти к поиску
Строка 25: Строка 25:
* Априорная вероятность — 30/110 ≈ 0,27.
* Априорная вероятность — 30/110 ≈ 0,27.
* Условная вероятность, если привит — 0,2. Условная вероятность, если не привит — 1.
* Условная вероятность, если привит — 0,2. Условная вероятность, если не привит — 1.
* Апостериорная вероятность быть привитым, если заболел — 20/30 ≈ 0,67.
* Апостериорная вероятность быть привитым, если не заболел — 1. Если заболел — 20/30 ≈ 0,67.


Вот мы смотрим на последнюю цифру и говорим: двое из трёх заболевших привиты! А ведь прививка превращает почти верную болезнь в 20%!
Вот мы смотрим на последнюю цифру и говорим: двое из трёх заболевших привиты! А ведь прививка превращает почти верную болезнь в 20%!

Версия от 12:27, 23 марта 2016

Манипуляция статистикой — способы заставить ложные данные выглядеть наукообразно и правдоподобно.

Манипуляция методикой

Спутать среднее, медиану, моду и квантиль достаточного уровня

Если в фирме босс, получающий 10000 $, два инженера с доходом 1500, пять токарей с доходом 800 и семь грузчиков с доходом 300, имеем среднее 1273 $, медиану 800 и моду 300. Выбирай любое среднее в зависимости от того, в каком свете хочешь показать доходы.

Другое заблуждение более хитрое — и, к сожалению, очень распространённое. Не все из нас живут под метро, а автобусы обычно ходят случайно и с неприемлемо долгими интервалами. Допустим, поездка «в среднем» длится 45 минут. Правда ли, что нормальный срок выхода — 45 минут до момента Ч? Нет! Если ваше «среднее» — это медиана, в половине случаев вы будете опаздывать; если это среднее арифметическое — несколько реже.

Возьмём идеализированный случай: 1) нет возможности вызвать такси; 2) срок прихода — дедлайн (например, спешим на поезд), и опоздание на 1 минуту столь же разрушительно, как и опоздание на час; 3) длина пешеходного плеча и спортивная подготовка не позволяют наверстать время бегом. Тогда надо соотносить затраты времени и умственных усилий от выхода заранее и потери от опоздания — и ответом будет т. н. квантиль: «насколько рано надо выйти, чтобы успеть, например, в 95 % случаев?». Цифра не обязательно 95 %: одно дело — едем на важную встречу, и надо заложиться на всё, кроме разве что теракта, и другое — едем к маме, и если не успел, поездку можно отменить, поехать другой электричкой или проголосовать на кругу, тогда даже 75 % может быть достаточной цифрой.

Из книга Дарелла Хаффа «Как лгать при помощи статистики»: «Сходным образом мелкие опущенные детали в труде под названием „Нормы развития Гезелла“ ввергли в панику папочек и мамочек. Дай только родителю прочитать раздел, где говорится, что в возрасте стольких-то месяцев ребенку уже полагается сидеть, и он сейчас же примерит это к собственному малышу. А поскольку примерно половина детей к указанному возрасту всё ещё не научилась сидеть, это сделало несчастными многих и многих родителей. Этого недоразумения во многом удалось бы избежать, если бы наряду с показателем „нормы“ или среднего значения был бы указан диапазон этой самой нормы. Тогда родители увидели бы, что их дети попадают в пределы нормы и прекратили бы беспокоиться по поводу мелких и ничего не значащих отклонений».

Спутать априорную, условную и апостериорную вероятность

Допустим, мы исследуем вероятность заболеть, если был привит и если не был. Тогда у нас:

  • Априорная вероятность — вероятность заболеть (уколот ли — неизвестно).
  • Условная вероятность — вероятность заболеть, если был привит. Или если не был.
  • Апостериорная вероятность — вероятность, что ты привит, если ты заболел (или если не заболел).

Априорная вероятность связана с условными по формуле полной вероятности. Апостериорная вероятность связана с условными по формуле Байеса.

Например (цифры выдуманные): из 100 уколотых заболели 20. Из 10 отказавшихся заболели все. Тогда:

  • Априорная вероятность — 30/110 ≈ 0,27.
  • Условная вероятность, если привит — 0,2. Условная вероятность, если не привит — 1.
  • Апостериорная вероятность быть привитым, если не заболел — 1. Если заболел — 20/30 ≈ 0,67.

Вот мы смотрим на последнюю цифру и говорим: двое из трёх заболевших привиты! А ведь прививка превращает почти верную болезнь в 20%!

Из книги Дарелла Хаффа «Как лгать при помощи статистики»: «Уровень смертности в военно-морском флоте США в период Испано-Американской войны 1898 г. составлял девять человек на тысячу. За тот же период уровень смертности среди гражданского населения Нью-Йорка достигал шестнадцати человек на тысячу. Позже эти цифры использовали вербовщики, чтобы показать: служить в ВМС безопаснее, чем находиться за его пределами. Допустим, что сами эти цифры точны (вероятно, так оно и есть). Давайте остановимся на мгновение и проверим, сообразите ли вы, что лишает практически всякого смысла сами эти цифры, или хотя бы заключение, которое выводили из них вербовщики. Всё дело в том, что группы, к которым относятся вышеуказанные цифры, несопоставимы. В рядах ВМС служат главным образом молодые мужчины, признанные здоровыми. Гражданское же население состоит среди прочего из малых детей, стариков и больных, и для этих категорий населения уровень смертности выше, где бы они ни находились».

См. также: Парадокс Спящей красавицы.

Метод техасского стрелка

Метод техасского стрелка: стрельнуть и нарисовать мишень там, куда стрельнул, а неудачные пробоины залатать. Это связано с другим методом демагогии: Свиногогия.

Из книги Дарелла Хаффа «Как лгать при помощи статистики»: «Предположим, некая немногочисленная группа потребителей в течение полугода ведет учет состояния своих зубов, а потом переключается на пасту от Doakes. Далее можно ожидать одного из трех вариантов: кариеса станет больше, кариеса станет ощутимо меньше или никаких изменений не последует. Если события пойдут по первому или последнему варианту, производитель пасты просто зафиксирует эти показатели (где-нибудь у себя, вдали от глаз общественности) и предпримет новые попытки. Рано или поздно в дело вмешается случай, и у испытуемых зафиксируют-таки значительное улучшение, достойное газетных заголовков, а то и целой рекламной кампании. И случится это независимо от того, пользуются ли испытуемые пастой Doakes, питьевой содой или своим привычным средством по уходу за зубами».

Этим грешит любая патриотическая пропаганда. Скажем, капча «Руксперта»: «самая оснащённая троллейбусами страна», «единственная страна с атомными ледоколами». Севморпуть — самый северный экономически значимый маршрут плавания; дух взаимопомощи, даже в насквозь прокапитализованной стране, вынуждает Россию работать над развитым общественным транспортом. США, в свою очередь, могут поставить в свою капчу «Страна, высадившая человека на Луну» и «Страна, победившая в Холодной войне».

Ошибка выжившего

Нерепрезентативная выборка

Давать на сравнение совершенно разные цифры

Из книги Дарелла Хаффа «Как лгать при помощи статистики»:

В Америке псевдообоснованные цифры переживают бум раз в четыре года. Впрочем, это не свидетельствует о циклической природе таких цифр, а просто напоминает, что именно с такой периодичностью проходят выборы. Предвыборное заявление, обнародованное Республиканской партией в октябре 1948 г., целиком и полностью построено на цифрах. Создается видимость, что эти цифры связаны друг с другом, но это не так:

Когда Дьюи в 1942 г. был избран на пост губернатора, минимальный размер зарплаты учителей в некоторых районах составлял такую малость, как $900 в год. Сегодня школьные учителя в штате Нью-Йорк получают самые высокие зарплаты в мире. По рекомендации губернатора Дьюи, которая основывалась на сведениях, полученных в ходе работы назначенного им комитета, легислатура штата выделила из бюджета штата $32 000 000 на обеспечение немедленного повышения заработной платы школьным учителям. В результате минимальный размер зарплаты учителя в Нью-Йорке варьируется в пределах от $2500 до $5325.

Совершенно не исключено, что мистер Дьюи проявил себя как друг учителей, да только приведенные цифры об этом не свидетельствуют. Это старый как мир трюк с «было» и «стало», когда для показа разительных перемен втихомолку приводят в действие ряд факторов, а потом представляют дело так, будто эти факторы ни при чем. Здесь у нас имеется «было» $900 и «стало» от $2500 до $5325. Это, бесспорно, создает впечатление, что положение улучшилось. Но меньшая цифра отражает нижний порог зарплаты учителя в каком-нибудь сельском районе штата, а цифры побольше — диапазон заработных плат учителей в самом Нью-Йорке. Может быть, при губернаторе Дьюи улучшения действительно произошли, а может быть, и нет.

Оттуда же:

Ещё один образчик подмены объекта исследования явил сенатор Уильям Лангер, когда возопил, что «мы могли бы взять заключенного из „Алькатраса“ и поместить на содержание в „Уолдорф-Асторию“ — дешевле бы обошлось…» Дело в том, что сенатор от Северной Дакоты ссылался на ранее опубликованные данные, что содержать узника в тюрьме «Алькатрас» стоит $8 в сутки, а «это стоимость номера в хорошем сан-францисском отеле». Здесь произошла подмена общих затрат на содержание (в «Алькатрасе») на одну только стоимость номера в отеле.

Ложная корреляция

Выдавать корреляцию за причину-следствие

Третья причина

Подмена источника данных

Как говорят, «по результатам опроса, проведённого в Интернете, 100 % населения подключены к интернету».

Более тонкая манипуляция: скажи возраст жены. На 35 годах будет пик, выше, чем 34 или 36 — просто потому, что если кто-то возраст не помнит, даёт округлённую цифру.

Манипуляция обработкой

Передаточному звену выставить источник на посмешище

Набившие всем оскомину 146 %

Многие из нас могут сложить в уме два числа, а некоторые — знакомы с этими приёмами. Задача проста: делаем наглую манипуляцию данными, чтобы внимательный мог всё же увидеть, что цифры нечистые. В результате неверной обработки данных будет подорвано доверие к их источнику.

Тут примером будут печально известные «146 %». Не будем выяснять, было это намеренно или просто ошибка в нехитрой программе, готовившей график, главное: ЦИК РФ был выставлен на посмешище.

Ошибки с процентами

Скрыть малую выборку за излишней точностью

Из книги Дарелла Хаффа «Как лгать при помощи статистики»: «Давным-давно, когда Университет Джонса Хопкинса только начал принимать девушек, некто, не испытывавший особых восторгов по поводу совместного обучения, обнародовал данные, ставшие для многих потрясением: оказывается, 33 1/3 % студенток университета повыходили замуж за преподавателей! Однако исходные цифры позволяли точнее оценить картину „бедствия“. На тот момент в списке учащихся числились три девушки-студентки, и одна из них действительно вышла замуж за преподавателя».

В общем, если «да» ответило 4 из 17, надо писать «24%» или даже «25%», но не «23,5%». Как говорят математики, «лишняя цифра — половина ошибки».

Излишняя агрегация данных

Манипуляция графиками

Вообще-то, нарисовать график — это тоже обработка. Но весёлые графики — это отдельный жанр креативной статистики.

Вообще никакого масштаба

Самый «дубовый» способ манипуляции статистикой: вообще никакого масштаба. Например, единица тут не равна единице там, или 10 тут больше, чем 20 там.

Непонятный масштаб

График без нуля

В биржевой спекуляции с высокими плечами важен рост или падение курса даже на один пункт[1]. Если в анализе временны́х рядов мы слишком далеко ушли от фактического размаха данных — плохой прогноз. Для всего этого графики могут и не иметь нуля.

Но это специфические задачи, и в большинстве задач всё-таки ордината пропорциональна величине. И если тихонько обрезать ось, чтобы 0 ординат был равен, например, тысяче, небольшие колебания будут казаться дикими скачками.

Разрыв в оси

Трёхмерность

Двойной масштаб

Линейный масштаб там, где нужен логарифмический, и наоборот

Масштаб определяется не закрашенной областью, а чем-то другим

Скрыть важную тенденцию за мелким масштабом

Скрыть важную тенденцию за неудачным срезом

Начхать на все договорённости

Примечания

  1. То, что с плечами в 1000 и более обычно торгуют на «форекс-лохотронах» — вопрос другой.