2: Измерване на вероятността за гласуване

Литературата от проучването отдавна показва, че повече респонденти казват, че възнамеряват да гласуват, отколкото всъщност гласуват (напр. Bernstein et al. 2001; Silver et al. 1986). Освен това някои хора казват, че не очакват да гласуват, но всъщност го правят, може би защото с тях се свързва кампания или приятел, близък до Деня на изборите, и ги убеждават да се явят. Тези ситуации потенциално могат да въведат грешка в изборните прогнози, тъй като тези стелт избиратели и негласуващи често се различават в своите партийни предпочитания. Като цяло републиканците са по-склонни да се явят, отколкото демократите, макар че е вероятно еднакво вероятно да кажат, че възнамеряват да гласуват. В резултат на това анкетьорите не разчитат единствено на заявеното намерение на респондента, когато класифицират дадено лице като вероятно да гласува или не. Вместо това повечето задават няколко въпроса, които заедно могат да се използват за оценка на вероятността за гласуване на индивида. Въпросите измерват намерението за гласуване, миналото поведение при гласуване, знанията за процеса на гласуване и интереса към кампанията.


Това проучване разглежда различни начини за използване на седем стандартни въпроса, а понякога и друга информация, за да се създаде модел на вероятния електорат. Въпросите първоначално са разработени през 50-те и 60-те години от пионера на предизборните анкети Пол Пери от Галъп и са използвани - в различни комбинации и с някои промени - от Изследователския център на Пю, Галъп и други организации при предизборните им проучвания (Пери 1960 , 1979). Въпросите, тествани тук, включват следното (категориите, които дават на респондента точка в индекса на Perry-Gallup, обсъдени в следващия раздел, са всмело):

  • Колко обмислихте предстоящите избори през ноември?Доста, някои,само малко, няма
  • Гласували ли сте някога във вашия участък или избирателен район?Да,не
  • Бихте ли казали, че следите какво се случва в държавните и обществените делапрез повечето време, през някои от времето,само от време на време, едва ли изобщо?
  • Колко често бихте казали, че гласувате?Винаги, почти винаги,част от времето, рядко
  • Колко вероятно е да гласувате на общите избори през ноември?Определено ще гласувам, вероятно ще гласувам,вероятно няма да гласува, определено няма да гласува
  • На президентските избори през 2012 г. между Барак Обама и Мит Ромни изникнаха ли неща, които ви попречиха да гласувате, или случайно гласувахте?Да, гласува;не
  • Моля, оценете шансовете си за гласуване през ноември по скала от 10 към 1.0-8,9, 10

Някои анкетьори са използвали други видове променливи в своите вероятни избирателни модели, включително демографски характеристики, партийност и идеология. По-долу оценяваме модели, които също използват този тип мерки.


Два допълнителни вида мерки, тествани тук, са взети от национално досие на избирателите. Те включват индикатори за минали гласове (през 2012 и 2010 г.) и прогнозна оценка на избирателната активност, която синтезира миналото поведение на гласуване и други фактори, за да се получи прогнозна вероятност за гласуване. Тези мерки са силно свързани с избирателната активност. Подробен анализ на всички тези индивидуални мерки и доколко тясно е свързана с избирателната активност и избора на гласове може да се намери в Приложение А към настоящия доклад.

Използват се два широки подхода за изготвяне на прогноза за гласуване с предизборна информация като въпроси на Perry-Gallup или самоотчитане на миналата история на гласуване (Burden 1997).Детерминистиченметодите използват информацията, за да категоризират всеки респондент от анкетата като вероятен избирател или негласуващ, обикновено разделяйки гласоподавателите и негласуващите, използвайки праг или „прекъсване“, който съответства на прогнозирания процент на избирателна активност на изборите.Вероятностнаметодите използват една и съща информация за изчисляване на вероятността всеки респондент да гласува. Вероятностите могат да бъдат използвани за претегляне на респондентите според тяхната вероятност да гласуват, или могат да бъдат използвани като основа за класиране на респондентите за граничен подход. Този анализ изследва ефективността и на двата подхода.

Вероятният индекс на избирателите на Perry-Gallup

Какво ще стане, ако проучването включва твърде много политически ангажирани хора?

Едно усложнение при прилагането на оценка на избирателната активност към извадката от проучването е фактът, че предизборните анкети са склонни да представят свръхпредставени политически ангажирани лица. Може да се наложи да се използва по-висок праг на избирателна активност, за да се отчете фактът, че по-висок процент от анкетираните, отколкото от широката общественост, може действително да се окаже, че гласува. За съжаление, няма съгласуван метод за извършване на тази корекция, тъй като степента, в която проучването превъзхожда политически ангажираните или дори променя поведението на респондентите (например чрез увеличаване на интереса им към изборите), може да варира в зависимост от проучването проучване и е трудно да се оцени.



Използваните тук данни включват само тези, които са регистрирани да гласуват; следователно, подходящата оценка на избирателната активност в тази извадка трябва да бъде значително по-висока, отколкото сред широката общественост. За много от симулациите, представени в този доклад, ние изчислихме, че 60% от регистрираните избиратели ще се явят. Ако приемем, че 70% от възрастните са регистрирани да гласуват, това би се равнявало на прогноза за 42% избирателна активност на широката общественост.5

В тези данни очакването за 60% избирателна активност означава, че всички респонденти, които са оценили 7 по скалата (48% от общия брой), ще бъдат класифицирани като вероятни гласоподаватели, заедно с претегления дял на тези, които са спечелили 6 (които са 15% от общия брой).


Следвайки оригиналния метод, разработен от Пол Пери, изследователският център Pew комбинира отделните елементи от проучването, за да създаде скала, която след това се използва за класифициране на респондентите като вероятни гласоподаватели или негласуващи. За всеки от седемте въпроса на респондента се дава 1 точка за избор на определени категории отговори. Например отговор на „да“ на въпроса „Били ли сте някога гласували във вашия участък или избирателен район“? получава 1 точка по скалата. По-младите респонденти получават допълнителни точки, за да отчетат неспособността си да гласуват в миналото (респондентите на възраст 20-21 години получават 1 допълнителна точка, а респондентите на възраст 18-19 години получават 2 допълнителни точки).6Освен това тези, които казват, че „определено няма да гласуват“, или които не са регистрирани да гласуват, автоматично се кодират като нула по скалата. Както е тествано тук, процедурата води до индекс със стойности, вариращи от 0 до 7, като най-високите стойности представляват тези с най-голяма вероятност за гласуване.

Следващата стъпка е да се направи оценка на процента на възрастните, които отговарят на условията за участие в изборите. Това обикновено се основава на преглед на минали нива на избирателна активност при подобни избори, коригирани за преценки относно очевидното ниво на интерес на гласоподавателите в текущата кампания, конкурентоспособността на расите и степента на мобилизиране на избирателите в ход. Оценката се използва, за да се получи „отсечка“ по вероятния избирателен мащаб, като се избират респондентите с най-висок рейтинг въз основа на очакваната избирателна активност на предстоящите избори. Например, ако сме очаквали, че 40% от избирателите с право на глас ще гласуват (типична избирателна активност за междинни избори), тогава ще основаваме оценките си на проучването на 40% от допустимата общественост, която получава най-високите оценки на индекса.7В действителност 36% от допустимото пълнолетно население се яви през 2014 г. Изборът на праг на избирателна активност е много важно решение, тъй като възгледите на избирателите и негласуващите често са много различни, какъвто беше случаят през 2014 г. (вж. Приложение В за данни за това как има значение изборът на избирателна цел.)8

Индексът на Perry-GallupДетерминистичните (или отрязани) методи като този изключват много реални гласоподаватели. Докато тези с кодове 6 и 7 по скалата са много склонни да гласуват (63% и 83% от всяка група, съответно са били потвърдени, че са гласували), има и много действителни гласоподаватели сред тези, които са набрали под 6: Около една пета (22 %) от всички проверени гласоподаватели, отбелязани между 0 и 5. Разбира се, целта на модела не е да класифицира всеки респондент, а да даде точно обобщение на гласовете. Но ако разпределението на правилно класираните не съвпада с това на действителния електорат, прогнозата за изборите ще бъде погрешна.


В съответствие с общите модели, наблюдавани при предишни избори от този тип, респондентите, които са отбелязали 7 по скалата, предпочитат републиканците пред демократичните кандидати (с разлика от 50% до 44%). Повечето от тези в категории 5 и 6 предпочитат демократични кандидати. Както на повечето избори, партийното разпределение на предвидения вот зависи в голяма степен от това къде е очертана чертата на вероятния избирателен мащаб. Включването на повече избиратели обикновено прави общата извадка по-демократична, особено при избори извън годината. Ето защо преценките за това къде да се приложи границата са от решаващо значение за точността на метода.

Вероятностни модели

Същите отделни въпроси от проучването могат също да се използват за създаване на статистически модел, който присвоява прогнозирана вероятност за гласуване на всеки респондент, заедно с коефициенти, които измерват колко добре всеки елемент корелира с избирателната активност. След това тези коефициенти могат да се използват при други избори с анкети, които задават едни и същи въпроси, за да създадат прогнозирана вероятност за гласуване за всеки респондент, въз основа на предположението, че проявите на интерес, миналото поведение и намерения имат едно и също въздействие, независимо от изборите. Всички опции за отговор за всеки елемент могат да бъдат използвани в модела или могат да бъдат кодирани, както са в метода на Perry-Gallup. Независимо от формата на входа, резултатът е разпределение, като всеки респондент получава оценка по скала, съответстваща на това колко вероятно е той или тя да се окаже да гласува. Ако някой е класифициран като 0,30, тогава се смята, че този респондент има 30% шанс да гласува.

Една потенциална полза от този метод е, че той може да използва повече от информацията, съдържаща се в проучването (всички категории отговори във всеки въпрос, а не само избрана една или две). Това също така дава на респондентите, които могат да имат по-малка вероятност да гласуват - независимо дали поради възрастта си, липсата на постоянен интерес към изборите или просто да са пропуснали минали избори - възможност да повлияят на резултата, тъй като знаем, че мнозина с по-нисък резултат скалата всъщност гласува. Тези респонденти ще бъдат преброени, стига да имат шанс за гласуване, по-голям от нула; те просто получават по-ниска тежест в анализа от другите с по-голяма вероятност да гласуват.

Един потенциален недостатък на този метод е, че той прилага модел, разработен при предходни избори, към настоящи избори, основаващ се на предположението, че връзката между избирателната активност и ключовите предиктори е еднаква за всички избори. В това проучване нашите модели се изграждат, като се използват данни за участието на гласоподавателите от изборите през 2014 г. и получените тегла се прилагат със задна дата, за да се получат оценки на проучванията за вероятния вот през 2014 г. В резултат на това не можем да проверим колко добре ще се представят тези модели на бъдещи избори. Вероятният модел на гласоподавател, използван от CBS News, който използва вариация на този метод от десетилетия, предполага, че подобни предположения са разумни. По-скоро нашата цел е да изследваме разликите между вероятностния и детерминистичния подход за моделиране на избирателната активност и да научим доколко тези модели са подобрени, когато включим информация за поведението на предишното гласуване, извлечена от избирателното досие.


В нашите оценки на вероятностни модели, ние също тествахме модел „кухненска мивка“, който включва седемте мерки на Perry-Gallup заедно с набор от демографски и политически променливи, включително възраст, образование, доход, раса / етническа принадлежност, партийна принадлежност, идеологическа последователност, собственост на дома и продължителност на мандата в настоящото местожителство - всички фактори, за които е известно, че са свързани с избирателната активност.

При тестване на вероятностни подходи изследвахме два метода за създаване на прогнозирани вероятности: логистична регресия, общ инструмент за моделиране и техника за машинно обучение, известна като „случайна гора“.

В допълнение към използването на предвидените вероятности като тежест, те могат да се използват и с ограничение. Както при скалата на Perry-Gallup, методът на отрязване ще отчете респондентите с най-висок резултат като вероятни избиратели и ще игнорира останалите. Например, ако приемем, че 60% от регистрираните гласоподаватели ще се явят, моделите ще включват само първите 60% от анкетираните, класирани според прогнозираните им вероятности за гласуване.

Логистична регресия

За да се изгради модел, сравним със скалата на Perry-Gallup от седем точки, бяха използвани същите седем въпроса за ангажираността на гласоподавателите, миналото поведение при гласуване, намерението на избирателите и знанията за това къде да гласуват. (Моделът „кухненска мивка“ използва тези елементи заедно с демографски и политически променливи.) Въпросите бяха въведени в модела като предсказатели, без да се комбинират или свиват категории. Променливите бяха мащабирани, за да варират между 0 и 1, като отговорите „не знам“ бяха кодирани като нула.

Извършена е логистична регресия, използвайки проверено гласуване от избирателния файл като зависима променлива. Регресията създава прогнозна вероятност за гласуване за всеки респондент и коефициенти за всяка мярка. След това вероятностите се използват по различни начини, както е описано по-долу, за да се създаде модел на електората за прогнозиране. При следващите избори коефициентите, получени от тези модели, могат да се използват с отговорите на респондентите в съвременните проучвания, за да се създаде вероятност за гласуване за всеки човек. Както при подхода на Perry-Gallup, този метод предполага, че мерките, използвани в изследването, са еднакво подходящи за разграничаване на гласоподавателите от негласуващите при различни избори.

Дървета за вземане на решения и случайни гори

Друг вероятностен подход включва използването на „дървета на решенията“, за да се идентифицира най-добрата конфигурация на променливите, за да се предскаже конкретен резултат - в този случай гласуване и гласуване. Типичният анализ на дървото на решенията идентифицира различни начини за разделяне на набор от данни на отделни пътеки или клонове, въз основа на опциите за всяка променлива. Подходът на дървото за вземане на решения може да бъде подобрен с помощта на техника за машинно обучение, известна като „случайни гори“. Случайните гори използват голям брой дървета, подходящи за произволни подпроби от данните, за да предоставят по-точни прогнози, отколкото биха били получени чрез монтиране на едно дърво към всички данни. За разлика от класическите методи за оценка на вероятности като логистична регресия, случайните гори се представят добре с голям брой предикторски променливи и в присъствието на сложни взаимодействия. Приложихме метода на случайната гора за изчисляване на вероятностите за гласуване, започвайки със същите променливи, използвани в другите методи, описани по-рано.

Когато едно дърво за решения е подходящо за набор от данни, алгоритъмът започва чрез търсене на стойността сред променливите на предиктора, които могат да се използват за разделяне на набора от данни на две групи, които са най-хомогенни по отношение на променливата на резултата, в този случай дали не някой е гласувал на изборите през 2014 г. Тези подгрупи се наричат ​​възли и алгоритъмът на дървото за вземане на решения продължава да разделя всеки възел на прогресивно все повече и повече хомогенни групи, докато се достигне критерий за спиране. Едно нещо, което прави техниката на случайната гора уникална, е, че преди разделянето на всеки възел алгоритъмът избира произволно подмножество от променливите на предиктора, които да използва като кандидати за разделяне на данните. Това води до намаляване на корелацията между отделните дървета, което допълнително намалява дисперсията на прогнозите.

Когато се използват статистически модели за прогнозиране, е важно да се обърне внимание на възможността моделите да прекаляват с данните - намиране на модели в данни, които отразяват случаен шум, а не смислен сигнал - което намалява тяхната точност, когато се прилагат към други набори от данни. Това е по-малко притеснително за логистична регресия, която е малко вероятно да се прекали, когато размерът на извадката е голям спрямо броя на независимите променливи (какъвто е случаят тук). Ноезагриженост за мощни методи за машинно обучение като случайни гори, които активно търсят модели в данните. Едно от предимствата на случайните гори в това отношение е фактът, че всяко дърво е изградено с помощта на различна произволна подпроба от данните. В нашия анализ прогнозираните вероятности за даден случай се основават само на онези дървета, които са построени с помощта на подпроби, при които този случай е изключен. Резултатът е, че всяко преоборудване, което се случва в процеса на изграждане на дървета, не се пренася в оценките, които се прилагат за всеки отделен случай.

Един последен метод, базиран на регресия, тестван тук, е да се използва вероятност за избирателна активност, създадена от доставчика на избирателния файл, като предиктор или тегло. Файлът за гласуване TargetSmart включва оценка за вероятността за участие през 2014 г., разработена от Clarity Campaign Labs. Този резултат варира от 0 до 1 и може да се тълкува като вероятност за гласуване на общите избори през 2014 г.

Статистическият анализ, докладван в следващия раздел, използва проверения вот като мярка за избирателна активност. Сред регистрираните гласоподаватели в извадката 63% имат запис на избирателното досие, указващ, че са гласували през 2014 г. Гласуването на самоотчитане е по-често; 75% от регистрираните гласоподаватели заявиха, че са се явили. Приложение Б обсъжда плюсовете и минусите на използването на проверен вот срещу гласуване на самоотчетени.