Обсуждение:Миф:Гауссиана на выборах: различия между версиями

Материал из Русского эксперта
Перейти к навигации Перейти к поиску
(Новая страница: «Не хочу лезть своими руками, но скажу вот что. Про то, что голоса за какую-то партию будут …»)
 
 
(не показано 8 промежуточных версий 2 участников)
Строка 1: Строка 1:
Не хочу лезть своими руками, но скажу вот что. Про то, что голоса за какую-то партию будут распредлены по гауссиане  это конечно бред. Во-первых, на многих графиках смотрят процентное соотношение, что вообе никак не может соответсвовать распределению гаусса - по этому распределению возмоны как участки с голосами за любую партию выше 100% и меньше 0%. Т.е. оно отлетает сразу с порога.То же касается логнормального распределения. Реальное распределение за любую голосов партию на участках  - биноминальное.
==Биномиальное распределение==
Не хочу лезть своими руками, но скажу вот что. Про то, что голоса за какую-то партию будут распредлены по гауссиане  это конечно бред. Во-первых, на многих графиках смотрят процентное соотношение, что вообще никак не может соответсвовать распределению гаусса - по этому распределению возмоны как участки с голосами за любую партию выше 100% и меньше 0%. Т.е. оно отлетает сразу с порога.То же касается логнормального распределения. Реальное распределение за любую голосов партию на участках  - биноминальное.
Нужно сделать две гипотезы. Выделяется какая-то область, например юный район москвы, в котором население считается примерно равнородным по предпочтениям в политике.
Нужно сделать две гипотезы. Выделяется какая-то область, например юный район москвы, в котором население считается примерно равнородным по предпочтениям в политике.
Пусть в этом районе за партию А голосует p процентов ибирателей. Тогда вероятность того, что сферический избиратель в вакууме проголосует за эту партию - p. Если из N избирателей за партию проголосовало m конкретных человек, то вероятность такого события p^m*(1-p)^(N-m). Это вероятность того,что m человек голосуют за партию А с вероятностью p, а N-m голосуют по другому с вероятностью (1-p).  И то, это из допущения, что люди голосуют независимо друг от друга. А это не совсем так. Т.к. для конечного реультата не важно, какие именно люди проголосуют, то надо умноитьэту вероятность на все возможные комбинации выбрать m человек из N людей. Это число называется биноминальный коэффициент(бином Ньютона, да).
Пусть в этом районе за партию А голосует p процентов ибирателей. Тогда вероятность того, что сферический избиратель в вакууме проголосует за эту партию - p. Если из N избирателей за партию проголосовало m конкретных человек, то вероятность такого события p^m*(1-p)^(N-m). Это вероятность того,что m человек голосуют за партию А с вероятностью p, а N-m голосуют по другому с вероятностью (1-p).  И то, это из допущения, что люди голосуют независимо друг от друга. А это не совсем так. Т.к. для конечного реультата не важно, какие именно люди проголосуют, то надо умноитьэту вероятность на все возможные комбинации выбрать m человек из N людей. Это число называется биноминальный коэффициент(бином Ньютона, да).
Строка 7: Строка 8:
Логнормальное же выглядит в стиле  1/x * exp[-(Ln(x)-p)^2] - уже лучше, но не идеально, подходит для приближения распределения для таких "популярных партий" как Парнас, чья доля p невелика.
Логнормальное же выглядит в стиле  1/x * exp[-(Ln(x)-p)^2] - уже лучше, но не идеально, подходит для приближения распределения для таких "популярных партий" как Парнас, чья доля p невелика.


Вопли же про то, что там долна быть гауссиана, идут от низкого математического образования. У автора вброса было очевидно плохо с комбинаторикой и теорвером, но так как лабы он сдавал, то помнит, что "там всё гауссиана". Потому что центральная предельная теорема. В реале же, гауссиана является предельным распределением для среднеарифмитического величин с одинаковым распределением. Попытки тыкать её везде объясняются не математическим образованием, а банальным житейским опытом автора вброса. Однако же доля избирателей - это никакое не среднее арифметическое от велечин с одинковым распределением.
Вопли же про то, что там долна быть гауссиана, идут от низкого математического образования. У автора вброса было очевидно плохо с комбинаторикой и теорвером, но так как лабы он сдавал, то помнит, что "там всё гауссиана". Потому что центральная предельная теорема. В реале же, гауссиана является предельным распределением для среднеарифмитического величин с одинаковым распределением. Попытки тыкать её везде объясняются не математическим образованием, а банальным житейским опытом автора вброса. Однако же доля избирателей - это никакое не среднее арифметическое от величин с одинковым распределением.
:Я предлагаю Вам вставить в статью краткое замечание про биномиальное распределение, в соответствующий абзац. [[Участник:AlexBond|AlexBond]] ([[Обсуждение участника:AlexBond|обсуждение]]) 16:44, 21 сентября 2016 (MSK)
 
==Дроби n/20==
''В районе 50% обязан быть скачок, обусловленный тем, что дробь 1/2 среди других дробей n/m встречается чаще остальных. Но этот скачок легко сгладить, взяв слишком широкий шаг диаграммы. То же самое относится и к другим «красивым» дробям — 1/3, 2/3, 3/4, 4/5 и т.д. Чем «красивее» дробь, тем более резким в её окрестности будет пик''
Это не объясняет, почему заметны пики именно на n/20. При случайном распределении они будут меньше пиков n/19, а те в свою очередь меньше пиков n/18 и так далее. А мы видим, что уже n/8 трудно различить. Так что случайными они быть не могут.
 
 
''это малые участки, на которых может быть зарегистрировано всего лишь десять-двадцать человек. В таких условиях вероятность появления «красивых» долей еще больше возрастает''
Только в том случае, что на таких участках бывает или 10 или 20 человек, а 11, 19, 21 и прочие некруглые числа встречаются намного реже. Это надо доказать, а иначе получается натягивание совы на глобус.
:Действительно, тут надо смотреть на конкретную численность избирателей на малых участках. Может быть, тут просто играет свою роль психологический эффект - если где-то есть возможность нарезать участки, их стараются нарезать на круглые цифры численности. Может быть, тут играет роль стандартная штатная численность экипажей судов и воинских частей. [[Участник:AlexBond|AlexBond]] ([[Обсуждение участника:AlexBond|обсуждение]]) 16:44, 21 сентября 2016 (MSK)
::Без конкретных данных о числе избирателей (причём проголосовавших, а не списочных) на участках эта гипотеза ничего не стоит. А поскольку пика на явке 100% не наблюдается - версия выглядит, мягко говоря, натянутой. Нет, можете в неё и дальше верить, я не против, но никакими данными она не подтверждена - только домыслами. Поэтому попытка применить её будет запросто останавливаться вопросом "На скольки участках проголосовало 20 избирателей?". И без этого числа версия остаётся пустой болтовнёй.
:::Всё же это не болтовня, а вполне проверяемая гипотеза. И почему должен быть обязательно пик на 100%? Ведь даже если все голосуют за одну партию, кто-то может воздержаться или испортить бюллетень, случайно или намеренно. Получается, что ситуация, когда за одну и ту же партию голосуют почти все, оказывается вероятнее ситуации, когда голосуют вообще все. [[Участник:AlexBond|AlexBond]] ([[Обсуждение участника:AlexBond|обсуждение]]) 21:28, 21 сентября 2016 (MSK)
::::Ещё раз. У нас возможны две ситуации:
::::а) Существует большое количество участков, на которых '''было 20 списочных избирателей и проголосовали все''' (но за ЕР от 13 до 20 человек). Тогда появятся пики на процентах, заканчивающихся на 0 и 5. Но одновременно будет и пик на 100% явки (проголосовали все же), которого не наблюдается. Так что гипотеза не проходит.
::::б) Существует большое число участков, на которых '''голосовало ровно 20 человек''' (а по спискам было больше). Это уже невероятно.
:::: При этом в обоих случаях должен быть существенный массив участков, на которых проголосовало ровно 20 человек. Можете попробовать доказать один из двух вариантов, используя результаты выборов по УИКам. Но что-то мне подсказывает, что этого Вы не сделаете, и ваше предположение про ровно 20 избирателей останется бездоказательным. А, как говорил Евклид, ''То, что принято без доказательств, может быть отвергнуто без доказательств''.
::::Проверил по выборам-2016. Бородка заметная есть (пики 55, 70 просматриваются), а на гистограмме избирателей (с шагом по 1 человеку) соответствующих пиков на 10 и 20 человеках нет. Так что версия отвергается.
:::::Если посмотреть на первый график в статье, то мы видим пик на явке 100%. Как это понимать?
:::::Вообще-то нас вполне устроят участки с численностью проголосовавших больше 20, но кратной 20. [[Участник:AlexBond|AlexBond]] ([[Обсуждение участника:AlexBond|обсуждение]]) 22:32, 22 сентября 2016 (MSK)
::::::И ещё - 70% (7/10) это всё-таки довольно красивая дробь, а 55% - это очень близко к итоговому результату ЕР по России - 54,19%. При этом дробь 11/20 (55%) "красивее", чем 27/50 (54%).[[Участник:AlexBond|AlexBond]] ([[Обсуждение участника:AlexBond|обсуждение]]) 22:56, 22 сентября 2016 (MSK)

Текущая версия от 23:01, 22 сентября 2016

Биномиальное распределение

Не хочу лезть своими руками, но скажу вот что. Про то, что голоса за какую-то партию будут распредлены по гауссиане это конечно бред. Во-первых, на многих графиках смотрят процентное соотношение, что вообще никак не может соответсвовать распределению гаусса - по этому распределению возмоны как участки с голосами за любую партию выше 100% и меньше 0%. Т.е. оно отлетает сразу с порога.То же касается логнормального распределения. Реальное распределение за любую голосов партию на участках - биноминальное. Нужно сделать две гипотезы. Выделяется какая-то область, например юный район москвы, в котором население считается примерно равнородным по предпочтениям в политике. Пусть в этом районе за партию А голосует p процентов ибирателей. Тогда вероятность того, что сферический избиратель в вакууме проголосует за эту партию - p. Если из N избирателей за партию проголосовало m конкретных человек, то вероятность такого события p^m*(1-p)^(N-m). Это вероятность того,что m человек голосуют за партию А с вероятностью p, а N-m голосуют по другому с вероятностью (1-p). И то, это из допущения, что люди голосуют независимо друг от друга. А это не совсем так. Т.к. для конечного реультата не важно, какие именно люди проголосуют, то надо умноитьэту вероятность на все возможные комбинации выбрать m человек из N людей. Это число называется биноминальный коэффициент(бином Ньютона, да).

итого вероятность того, что за партию А на данном участке проголосует m человек из N, С^m_N*p^m*(1-p)^(N-m). Далее, если мы отим получить распределение по доле, нужно будет или применить формулу стирлинга, поделив на N, или заменить биноминальный коэффициент на его непрерывный аналог функцию B и тоже сократить наобщее число избирателей. С точностью до множителя распределение будет exp{-xLn(x/p) -(1-x)Ln([1-x]/[1-p]}, где x - доля проголосовавших од 0 до 1. как можно видеть, функция сама по себе определена от 0 до 1. У распределения максимум в точке p, что и понятно, т.к. это и есть средняя доля проголосовавших за партию. Приближающая Гауссиана же выглядит в стиле exp{-(x-p)^2/p/(1-p)}. Разница налицо. Приближение будет работать только в окрестности точки p. Логнормальное же выглядит в стиле 1/x * exp[-(Ln(x)-p)^2] - уже лучше, но не идеально, подходит для приближения распределения для таких "популярных партий" как Парнас, чья доля p невелика.

Вопли же про то, что там долна быть гауссиана, идут от низкого математического образования. У автора вброса было очевидно плохо с комбинаторикой и теорвером, но так как лабы он сдавал, то помнит, что "там всё гауссиана". Потому что центральная предельная теорема. В реале же, гауссиана является предельным распределением для среднеарифмитического величин с одинаковым распределением. Попытки тыкать её везде объясняются не математическим образованием, а банальным житейским опытом автора вброса. Однако же доля избирателей - это никакое не среднее арифметическое от величин с одинковым распределением.

Я предлагаю Вам вставить в статью краткое замечание про биномиальное распределение, в соответствующий абзац. AlexBond (обсуждение) 16:44, 21 сентября 2016 (MSK)

Дроби n/20

В районе 50% обязан быть скачок, обусловленный тем, что дробь 1/2 среди других дробей n/m встречается чаще остальных. Но этот скачок легко сгладить, взяв слишком широкий шаг диаграммы. То же самое относится и к другим «красивым» дробям — 1/3, 2/3, 3/4, 4/5 и т.д. Чем «красивее» дробь, тем более резким в её окрестности будет пик Это не объясняет, почему заметны пики именно на n/20. При случайном распределении они будут меньше пиков n/19, а те в свою очередь меньше пиков n/18 и так далее. А мы видим, что уже n/8 трудно различить. Так что случайными они быть не могут.


это малые участки, на которых может быть зарегистрировано всего лишь десять-двадцать человек. В таких условиях вероятность появления «красивых» долей еще больше возрастает Только в том случае, что на таких участках бывает или 10 или 20 человек, а 11, 19, 21 и прочие некруглые числа встречаются намного реже. Это надо доказать, а иначе получается натягивание совы на глобус.

Действительно, тут надо смотреть на конкретную численность избирателей на малых участках. Может быть, тут просто играет свою роль психологический эффект - если где-то есть возможность нарезать участки, их стараются нарезать на круглые цифры численности. Может быть, тут играет роль стандартная штатная численность экипажей судов и воинских частей. AlexBond (обсуждение) 16:44, 21 сентября 2016 (MSK)
Без конкретных данных о числе избирателей (причём проголосовавших, а не списочных) на участках эта гипотеза ничего не стоит. А поскольку пика на явке 100% не наблюдается - версия выглядит, мягко говоря, натянутой. Нет, можете в неё и дальше верить, я не против, но никакими данными она не подтверждена - только домыслами. Поэтому попытка применить её будет запросто останавливаться вопросом "На скольки участках проголосовало 20 избирателей?". И без этого числа версия остаётся пустой болтовнёй.
Всё же это не болтовня, а вполне проверяемая гипотеза. И почему должен быть обязательно пик на 100%? Ведь даже если все голосуют за одну партию, кто-то может воздержаться или испортить бюллетень, случайно или намеренно. Получается, что ситуация, когда за одну и ту же партию голосуют почти все, оказывается вероятнее ситуации, когда голосуют вообще все. AlexBond (обсуждение) 21:28, 21 сентября 2016 (MSK)
Ещё раз. У нас возможны две ситуации:
а) Существует большое количество участков, на которых было 20 списочных избирателей и проголосовали все (но за ЕР от 13 до 20 человек). Тогда появятся пики на процентах, заканчивающихся на 0 и 5. Но одновременно будет и пик на 100% явки (проголосовали все же), которого не наблюдается. Так что гипотеза не проходит.
б) Существует большое число участков, на которых голосовало ровно 20 человек (а по спискам было больше). Это уже невероятно.
При этом в обоих случаях должен быть существенный массив участков, на которых проголосовало ровно 20 человек. Можете попробовать доказать один из двух вариантов, используя результаты выборов по УИКам. Но что-то мне подсказывает, что этого Вы не сделаете, и ваше предположение про ровно 20 избирателей останется бездоказательным. А, как говорил Евклид, То, что принято без доказательств, может быть отвергнуто без доказательств.
Проверил по выборам-2016. Бородка заметная есть (пики 55, 70 просматриваются), а на гистограмме избирателей (с шагом по 1 человеку) соответствующих пиков на 10 и 20 человеках нет. Так что версия отвергается.
Если посмотреть на первый график в статье, то мы видим пик на явке 100%. Как это понимать?
Вообще-то нас вполне устроят участки с численностью проголосовавших больше 20, но кратной 20. AlexBond (обсуждение) 22:32, 22 сентября 2016 (MSK)
И ещё - 70% (7/10) это всё-таки довольно красивая дробь, а 55% - это очень близко к итоговому результату ЕР по России - 54,19%. При этом дробь 11/20 (55%) "красивее", чем 27/50 (54%).AlexBond (обсуждение) 22:56, 22 сентября 2016 (MSK)