• Основен
  • Методи
  • Търговски файлове на избирателите и изследване на политиката на САЩ

Търговски файлове на избирателите и изследване на политиката на САЩ

От Рут Игелник, Скот Кийтър, Къртни Кенеди и Брадли Спан


След възхода на съвременните проучвания, голяма част от това, което се знае за нагласите на избирателите, поведението и състава на електората, идва от интервюта с извадки от избиратели, понякога в комбинация с обобщена статистика на гласуването. Но сравнително скорошните технологични иновации и промени в държавната политика дадоха на политиците и изследователите ново допълнение към инструментариума им: национални цифрови бази данни или „файлове на избирателите“. Тези файлове са изградени от търговски организации, като се използват официални, публично достъпни държавни записи за това кой е регистриран за гласуване и кой гласува на минали избори.

Тъй като изследванията и насочването с помощта на тези избирателни файлове стават все по-широко разпространени, доставчиците на избирателни файлове все повече се опитват да осигурят покритие навсичкоВъзрастни в САЩ, включително тези, които не са регистрирани да гласуват. Тези налични в търговската мрежа файлове предоставят не само национална картина на регистрацията и избирателната активност, но обикновено се допълват с информация от доставчици на потребителски данни, кредитни бюра, политически организации и други източници и се предлагат на пазара като богата и изчерпателна информация за почти всеки възрастен американец. .


През последното десетилетие търговските досиета на гласоподавателите станаха централни за провеждането на съвременни предизборни кампании и често се използват от анкетьори, журналисти и политически анализатори, опитващи се да разберат американския електорат. Като част от по-широки усилия в Pew Research Center да хвърли светлина върху този важен, но донякъде загадъчен ресурс, този доклад се фокусира върху използването на файловете, за да подобри нашето разбиране на анкетираните. Той също така се опитва да оцени качеството на данните, предоставени от файловете.

За да се постигнат тези цели, данните от избирателните досиета, получени от петима търговски доставчици, бяха съпоставени с участниците в Pew Research Center's American Trends Panel, национално представителна извадка от възрастни, които се съгласиха да вземат редовни проучвания. Това предлага възможност за сравняване на самоотчетени данни за регистрация на избиратели и избирателна активност, предоставени от участниците в панела - данни, които са обект на добре документирани грешки в анкетата - с висококачествените официални записи на гласовете, включени в досиетата на избирателите. Той също така дава възможност да се използват данни, получени от интервюта с участници в дискусията, за да се провери точността на допълнителната информация, която търговските доставчици прикачват към досиетата на избирателите, включително допълнителни демографски, финансови, битови и политически данни.

Източниците на данни

За да опише и оцени досиетата на гласоподавателите, Pew Research Center се опита да свърже всички от близо 5000 членове на American Trends Panel (ATP), национално представителния си анкетен панел за възрастни в САЩ, с пет търговски досиета на избиратели. Два от файловете са от безпартийни доставчици, два са от доставчици, които работят предимно с демократични и политически прогресивни клиенти, а един е от доставчик, който работи предимно с републикански и политически консервативни клиенти. Доставчиците са анонимизирани и номерирани от един до пет в този отчет, подредени по скоростта, с която записите на избирателното досие са били съпоставени с членовете на панела.



На всички доставчици беше предоставена една и съща информация за дискусиите за търсене, която включваше тяхното име, адрес, пол, телефонен номер, раса и етническа принадлежност, дата на раждане или възраст и имейл адрес. След това продавачите бяха помолени да намерят тези лица в техните избирателни файлове, използвайки тяхната нормална методология за съвпадение. След това доставчиците предоставиха на изследователите от Центъра данни за избирателните файлове относно регистрацията и избирателната активност, партийната принадлежност и демографските характеристики за всеки участник в дискусията, с който успяха да се съпоставят. Доставчиците бяха задължени да поддържат тази информация в строга конфиденциалност и да изтрият за постоянно цялата лична информация за участниците в дискусиите, когато съвпадението приключи. Като цяло 91% от 3985 активни членове на ATP, участвали в проучване, проведено от 29 ноември до 12 декември 2016 г. (и които са предоставили име), са дали съвпадение от поне един от доставчиците.1

Обобщение на констатациите

Търговските досиета на гласоподаватели са обединение на административни данни от държави за регистрация и гласуване, моделирани данни за партийност, политическа ангажираност и политическа подкрепа, предоставяна от продавачите; и демографски, финансови и данни за начина на живот, извлечени от широк кръг източници. Обединяването на данни от редица различни източници носи предизвикателства, тъй като всеки източник идва със своите силни и слаби страни. Основната цел на това проучване беше да се оцени точността и пълнотата на информацията в търговските досиета на избирателите. За повечето анализи се използва информация, предоставена от респондентите в Американския панел за тенденции, за да се оцени качеството на информацията в досиетата на избирателите. Ето някои от най-важните открития, последвани от допълнителни подробности от анализа:


  • Изследователите успяха да съчетаят много голям процент участници от извадката на национално представителната анкета с поне един от петте търговски досиета на гласоподаватели, което предполага, че досиетата колективно покриват голям дял от населението на САЩ.В зависимост от доставчика на избирателното досие процентът на съответстващите участници варира от ниски от 50% до високи от 79%, със среден процент на съвпадение от 69%. По-малко от половината (42%) от участниците в панела бяха разположени във всичките пет файла, но всеки от продавачите „намери“ панелисти, пропуснати от други доставчици. Различията между доставчиците до голяма степен зависят от тяхната толерантност към несъответствия и, вероятно, от успеха на техните алгоритми за съвпадение. Колективно доставчиците успешно намериха 91% от участниците в панела, което означава, че повече от девет от десет участници в панела могат да бъдат намерени в поне един от файловете и само 9% от участниците в панела не могат да бъдат намерени в нито един от файловете. Относително високото ниво на покритие на файловете е окуражаващо за изследователите и кампаниите, които ги използват за насочване, съобщения или проучване. Разбира се, повечето клиенти, използващи тези избирателни файлове, няма да са закупили всичките пет, така че процентите на съвпадение от 90% и по-високи могат да бъдат трудни, ако не и невъзможни за постигане с всеки един файл.
  • И все пак, търговските досиета на гласоподаватели могат непропорционално да пропуснат сегменти от обществеността, които са политически необвързани, по-млади, испанци и по-мобилни.По-конкретно, вероятността да се намери лице в търговско досие на гласоподавателите беше силно свързана с това дали те са регистрирани да гласуват. Средно при петимата доставчици 77% от хората, които са заявили, че са регистрирани да гласуват, са били съпоставени. Само 38% от самоописаните нерегистрирани гласоподаватели са били съпоставени. По същия начин честотата на съвпадение варира значително в зависимост от възрастта, расата и етническата група на участниците в дискусията. Само около всеки пети по-млади участници в дискусията (22% от тези на възраст между 18 и 29 години) са намерени във всичките пет файла, в сравнение с повече от половината (59%) от по-възрастните участници в дискусията (на възраст над 65 години). По същия начин само 26% от испанците са намерени във всичките пет файла, в сравнение с 47% от неиспанците бели.2Мобилността също е силен корелат. Само 14% от тези, които са съобщили за преместване през последната година, са открити във всичките пет файла. Тези, които съобщават, че живеят по-дълго в резиденцията си, съвпадат с много по-висок процент.
  • В резултат на систематичните демографски различия във видовете хора, които е трудно да бъдат открити в досиетата, този анализ установява, че търговските досиета на гласоподавателите могат да имат значителни ограничения за усилията за проучване на широката общественост (за разлика от регистрираните избиратели).В сравнение с телефонните проби с произволно набиране на цифри, досиетата на гласоподавателите не осигуряват еднаква степен на покритие на пълнолетното население като цяло, а видовете хора, пропуснати от досиетата, могат да бъдат много различни в политически и демографски план от тези, които могат да бъдат намерени в файловете и се свързва по телефона.
  • Процесът на съпоставяне на участниците в анкетата с досиетата на избирателите може да бъде озадачен от малки разлики в имената и адресите, което води до неяснота по отношение на точността на някои от съвпаденията.В допълнение, трудностите при съвпадението са свързани с начина на живот и демографските фактори - като често променяне на местоживеенето - които също са свързани с политическата ангажираност и партийните предпочитания.
  • При петимата доставчици имаше значителни разлики в съвпадението на стиловете и в резултат на процентите на съвпадение.Някои доставчици ограничиха съвпадението си само до участниците в дискусиите, за които имаха много висока степен на сигурност относно точността на мачовете, което доведе до по-стар и по-ангажиран политически набор от състезатели. Други доставчици оценяват компромиса по различен начин и отговарят на по-висок дял на участниците в дискусиите, създавайки по-разнообразна съвпадаща група, като същевременно приемат повече несигурност относно точността на техните мачове.
  • Досиетата обикновено се съгласяват по отношение на избирателната активност на президентските избори през 2016 г. (поне сред респондентите от проучването, които имат общо съвпадение), въпреки че в едно от досиетата изглежда липсваха редица гласоподаватели, заловени от останалите четири досиета. И няма данни за гласуване за почти всички респонденти от анкетата, които са заявили в проучване след изборите, че не са гласували през 2016 г. Сред участниците в дискусиите, които са били съпоставени от всички доставчици в проучването, 85% имат идентични данни за избирателната активност през петте файлове: 75% са записани като гласували през 2016 г. във всичките пет файла, а 10% нямат запис на гласуване във всичките пет файла. Един файл - Файл 3 - съдържа записи, които са в конфликт с останалите четири файла за много участници, което показва, че те може да са пропуснали държавните записи на гласоподаватели за много участници. Друга потенциална мярка за качество на данните при измерване на избирателната активност е колко точно се отчитат изборът на гласове (напр. Тръмп срещу Клинтън) сред тези участници в групата, за които се твърди, че са гласували, съответства на действителния резултат от изборите. Отчетеният президентски вот от участници в комисията, за които е потвърдено, че са гласували поне от един от доставчиците на досиетата, е много подобен на националния дял на гласовете за всеки кандидат (48% Клинтън, 45% Тръмп сред валидираните избиратели, в сравнение с официалния резултат от 48% - 46%). Президентският вот сред тези одобрени гласоподаватели беше много по-близо до резултата, отколкото гласуването сред всички саморегистрирани гласоподаватели в комисията (49% Клинтън, 43% Тръмп).
  • Особено проблематични са самоотчетените данни за статуса на регистрация на избирателите.Много участници в дискусията, които изразиха съмнение относно регистрацията си в проучване или които заявиха, че определено не са регистрирани, въпреки това имаха регистрационен запис в поне един файл. Това може да отразява факта, че регистрацията на избирателите е административен статус, който е донякъде абстрактен, а не по-лесно запомнящо се поведение като гласуване.
  • Имаше относително тясна кореспонденция между самоотчитането на партийната принадлежност на участниците в комисията и идентифицирането на партията, предсказано от доставчиците на досиета на избиратели.Данните за досиетата на избирателите за принадлежност към партията се възползват от факта, че много държави регистрират избиратели по партии и въпреки че регистрацията на партията на избирателите не винаги може да съответства на тяхната самоидентификация, това е много добър прокси. Въпреки това, дори в щати без партийна регистрация (приблизително половината от пълнолетните в САЩ живеят в такива щати), оценките на досиетата на избирателите за принадлежност към партията са били доста точни. Средно за петте файла, моделираната партийна принадлежност във файловете съответства на самоотчетена партийна принадлежност за около две трети от участниците в дискусията (67%). Като цяло досиетата по-добре идентифицираха демократите, отколкото републиканците.
  • Моделите за избирателна активност на файловете се справиха добре с прогнозата кой ще гласува през 2016 г.Анализът в този доклад, заедно с предишно проучване на изследователския център на Pew, показват, че използването на тези резултати за създаване на вероятния електорат за общите избори през 2016 г. подобрява оценките на изборите по отношение на разчитането само на информация, предоставена от себе си. всеки доставчик предостави мярка за вероятност за участие в изборите и прилагането на тези мерки подобри точността на оценката на американската група за тенденции за предпочитанията на гласоподавателите в президентската надпревара. Оценката стесни предимството на Хилари Клинтън от 7 процентни пункта сред всички регистрирани гласоподаватели до диапазон от 3 до 5 точки, използвайки моделираните оценки на избирателната активност. В крайна сметка тя има 2 точки предимство пред Доналд Тръмп в изборния ден. Миналата история на гласоподавателите е ключов компонент на тези модели, но точните алгоритми, които доставчиците използват, не са публични.
  • Когато се предостави, оценката на досието на избирателите за расата или етническата принадлежност на участниците също съответства на данните от проучването сравнително добре.Файловете могат да категоризират точно 79% от участниците в панелите (средно) по раса и етническа принадлежност, включително средно 93% за неиспански бели, 72% за испанци и 67% за чернокожи.
  • Други демографски данни в досиетата на гласоподавателите - като данни за образованието и доходите - в най-добрия случай са внушаващи и често липсват изцяло. Доставчиците се различават значително в точността на някои от тези видове променливи.Нивото на образование липсва или е неточно средно 48% от времето във файловете. По същия начин доходите на домакинствата липсват или са неточни средно в 63% от случаите във всички файлове. Като цяло тези демографски променливи просто осигуряват по-голямавероятностна идентифициране на група от интереси, а не на някаква увереност в това.

Предупреждения за анализа

Тъй като голяма част от анализа, представен тук, се основава на сравнение, използващо данни от Американския панел за тенденции на Pew Research Center, важно е да се отбележи, че нито едно проучване, включително Американския панел за тенденции, не представя перфектно възрастното население на САЩ, докато данните в панела са претеглени, за да бъдат национално представителни по отношение на широк спектър от характеристики (възраст, пол, раса, испански произход, образование, регион на пребиваване, гъстота на населението и т.н.), нито едно проучване не е точен модел на популацията във всички отношения. Второто предупреждение е, че докато по-голямата част от демографската информация и партийната принадлежност, предоставени от участниците в дискусиите, вероятно ще бъдат верни, самоотчетите за регистрация на гласоподаватели - или по-специално за избирателната активност - могат да сгрешат поради феномена, известен като пристрастност към социалната желателност. Някои лица могат да докладват, че са регистрирани или са гласували, когато не са. Като цяло самоотчетената демографска и свързана с нея лична информация за участниците в дискусиите ще се третира като вярна, докато самоотчетите за политическа ангажираност - поведения, които се разглеждат като социално желани и често се надценяват - ще трябва да бъдат оценени внимателно в светлината на информацията във файловете на избирателите.

История на избирателните файлове

Изборната администрация в САЩ в исторически план е била силно децентрализирана, като държавите са възприели редица методи за управление на изборния процес и водят записи кой има право да гласува и кой е гласувал. Тази кръпка създава много трудно, ако не и невъзможно, събиране на нещо, наподобяващо национална база данни с избиратели. На някои места дори не бяха достъпни бази данни в цялата държава.


Относително скорошното наличие на търговски досиета на гласоподаватели е резултат както от технологичния напредък, така и от промените в правителствената политика, които са резултат от проблеми на последните избори в САЩ. Президентските избори през 2000 г. предизвикаха опасения относно точността, последователността и качеството на системите за администриране на избори. След това Конгресът прие Закона за гласуването в Америка от 2002 г. (HAVA), за да разгледа някои от тези проблеми. Сред многото разпоредби на HAVA е, че държавите са били насочени да създадат „единен, единен, официален, централизиран, интерактивен компютъризиран списък на избирателите за цялата държава, дефиниран, поддържан и администриран на ниво държава, който съдържа името и информацията за регистрация на всеки законно регистриран избирател в държавата ... “3След това тези цифрови бази данни позволиха на партизански и търговски организации да събират и компилират национални досиета на избирателите чрез комбиниране на цифровите файлове от всеки щат и окръг Колумбия.

В епоха, когато личната информация е все по-често комодитизирана, файловете след това се повтарят още една стъпка напред. Много изчерпателни бази данни за почти всички възрастни в САЩ сега се поддържат от кредитни бюра и други фирми. Търговските досиета на гласоподаватели, базирани на регистрирани избиратели, могат да бъдат сравнени с по-големите бази данни на всички пълнолетни, за да се идентифицират лица, които не са регистрирани да гласуват. След това записите за тези лица се добавят към търговските файлове на избирателите и всички записи се попълват с допълнителна политическа и неполитическа информация.

Процесът на компилация, който компаниите използват за създаване на национални избирателни досиета, е много по-лесен сега, отколкото преди HAVA, но не е без предизвикателствата. Американците остават доста мобилно население, което означава, че кредитните, потребителските и избирателните файлове трябва да се актуализират непрекъснато. Регистрираният избирател, който се премества в друг щат, трябва да се регистрира отново и няма единна методика, чрез която длъжностните лица по изборите в щатите да бъдат уведомявани, когато избирателят се премести. Докато длъжностните лица по изборите и търговците на търговски досиета се опитват да проследяват лицата, когато се движат, използвайки ресурси като Националната база данни за промяна на адреса от Пощенската служба на САЩ, процесът едва ли е надежден. Всеки търговски доставчик използва различни методи за актуализиране на своите файлове и вземане на преценка кои официални записи, свързани с дадено лице, са най-актуалните. И все пак, дори и с недостатъците си, търговските досиета на избиратели представляват значително подобрение спрямо това, което е било на разположение на кампании, партии и изследователи преди приемането на HAVA.