• Основен
  • Методи
  • Оценка на рисковете за онлайн анкети от фалшиви респонденти

Оценка на рисковете за онлайн анкети от фалшиви респонденти

Сравнихме данните от шест онлайн източника, използвани за публични анкети, включително три видни източника на извадки от анкети, една платформа за краудсорсинг и два панела за проучване, които се набират офлайн, като се използват национални случайни извадки от адреси на жилища и се проучват онлайн. Една от набраните адреси проби идва от Панела за американски тенденции на Pew Research Center. Проучването включва повече от 60 000 интервюта с поне 10 000 интервюта, идващи от всеки от шестте онлайн източника. Всички проби са предназначени за изследване на възрастни в САЩ на възраст над 18 години.


Повече от 80% от обществените проучвания, използвани за проследяване на ключови показатели на общественото мнение на САЩ, като например одобрението на президента или подкрепата за кандидатите за президент на Демократическата партия, се провеждат чрез онлайн анкетиране.1Ново проучване на Pew Research Center установява, че онлайн анкетите, проведени с широко използвани източници за включване, съдържат малки, но измерими дялове на фалшиви респонденти (около 4% до 7%, в зависимост от източника). Критично е, че тези фалшиви респонденти не просто отговарят на случаен принцип, а по-скоро са склонни да избират положителни избори - като въвеждат малка, систематична пристрастност в оценките като одобрението на президента.

Фалшивите респонденти са склонни да одобряват всичкоТози модел не е пристрастен. Докато 78% от фалшивите респонденти съобщават, че одобряват работата на президента Доналд Тръмп, рейтингът им за одобрение на закона за здравеопазването от 2010 г., известен също като Obamacare, е дори по-висок - 84%. Отворените отговори показват, че някои респонденти отговарят така, сякаш участват в проучване на пазарно проучване (напр. Като казват „Страхотен продукт“, независимо от въпроса).


Въпреки че някои предизвикателства пред анкетите са налице постоянно (напр. Респондентите, които не отговарят внимателно или не дават социално желани отговори), рискът лошите участници да компрометират проучване на общественото мнение в някои отношения е нов. Това е следствие от миграцията на полето към онлайн проби за удобство на хора, които се регистрират, за да получат пари или други награди, като вземат анкети. Това въвежда риска някои хора да отговорят не със собствените си възгледи, а вместо това с отговори, за които смятат, че е вероятно да зарадват спонсора на анкетата. Това също така поражда възможността хората, които не участват в анкета в САЩ (например хора в друга държава), да се опитат да се представят погрешно, за да попълват анкети и да натрупват пари или други награди.

На този фон стартира това проучване, за да се измери дали поведението от този вид присъства в широко използваните онлайн платформи и ако е така, до каква степен и последици. Това проучване определя фалшив респондент като някой, който отговаря на един или повече от следните критерии: взел анкетата няколко пъти; съобщава, че живее извън Съединените щати (целевата популация е възрастни в САЩ); даде многобройни non-sequitur отворени отговори; или винаги са казвали, че одобряват / благоволят, независимо от това, което е поискано.

Източници, размери на извадките и честота на фалшиви случаиПроучването установява, че не всички онлайн анкети страдат от този проблем. Онлайн анкетите, които набират участници офлайн чрез произволно вземане на проби от адреси на жилища, имат само нива на проследяване на фалшиви респонденти (1% във всеки от двата тествани панела, назначени за адрес). В панелите, назначени за адреси, има твърде малко фалшиви случаи, за да има осезаем ефект върху оценките.



Проучването сравнява данните от шест онлайн източника, използвани за публични анкети: три известни източника на извадки от анкети за участие (две пазари и един панел),2една платформа за краудсорсинг,3и два панела за проучване, които се набират офлайн, като се използват национални случайни извадки от адреси на жилища, но се проучват онлайн. Една от набраните адреси проби идва от Американския панел за тенденции на Центъра. Проучването включва повече от 60 000 интервюта с поне 10 000 интервюта, идващи от всеки от шестте онлайн източника. Всички проби са предназначени за изследване на възрастни в САЩ на възраст над 18 години. Анализите не са претеглени, тъй като това е проверка на достоверността на отговорите на респондентите.4

Това не е първото проучване, което открива ненадеждни интервюта в онлайн проучвания. Това проучване обаче е първото, което сравнява качеството на данните от множество анкетирани и адресирани анкети, както и платформа за краудсорсинг. Това проучване е и първото, което използва размерите на извадките, достатъчно големи, за да оцени надеждно честотата на фалшивите респонденти, както и демографията и политическите нагласи, съобщени от фалшивите респонденти във всеки източник.


Фалшивите респонденти могат да имат малък, но измерим ефект върху резултатите от анкетитеНякои въпроси от анкетите са по-засегнати от фалшивите респонденти, отколкото други. Въпросите, които позволяват на респондента да даде положително валидиран отговор, показват по-големи ефекти от тези, които не го правят. Например, класически въпрос от анкета, предназначен да получи високо ниво на четене на обществените настроения, задава въпроса дали нещата в страната „обикновено се насочват в правилната посока“ или „вървят по грешен път“. Делът, който казва „обикновено се насочва в правилната посока“, намалява с два процентни пункта в анкетите на участниците в проучването, когато се отстраняват фалшивите респонденти. В анкетата, проведена от краудсорсинга, цифрата пада четири точки при премахване на фалшиви случаи. Други въпроси - като принадлежност към политическите партии или възгледи за новите закони за оръжията - изглежда не се отразяват на това поведение и не показват малко или никакво влияние от фалшиви случаи върху резултатите от горната линия.5

Част от обяснението е, че сегмент от анкетираните изразяват положителни възгледи за всичко - дори когато това означава даване на привидно противоречиви отговори. Това проучване включва седем въпроса, на които респондентите могат да отговорят, че „одобряват“ или имат „благоприятен“ поглед към нещо. Около половината от въпросите (Владимир Путин, Тереза ​​Мей, Доналд Тръмп) са склонни да черпят подкрепа от консервативната аудитория, докато останалите са по-популярни сред ляво ориентираната аудитория (Еманюел Макрон, Ангела Меркел и закона за здравето от 2010 г.).6Ако респондентите отговарят внимателно, би било необичайно някой да изрази истински, благоприятни възгледи за всичките седем.

Проучването установи, че 4% от анкетираните с краудсорсинг са дали положителен отговор на всички седем въпроса, последвани от 1% до 3% от анкетите на панелните анкети. Имаше няколко такива респонденти в анкетите, наети по адрес, но те представляват по-малко от половината от един процент. Резултатът е, че малките, но нетривиални дялове на анкетираните онлайн търсят положителни възможности за избор на отговор и еднакво ги избират (например, ако се предположи, че това е проучване на пазарни проучвания и / или че това би угодило на изследователя). В последващ експеримент, при който редът на отговорите е бил рандомизиран, изследователите потвърдиха, че този стил на одобрение на всичко е целенасочен (а не просто ефект на примат) (вж. Глава 8).


Но тези еднообразно положителни респонденти не са сами, като бутат рейтингите за одобрение нагоре. Респондентите, показващи друго подозрително поведение, отговарят по подобен начин. Например, ако се отменят винаги одобряващи случаи, проучването установява, че 71% от тези, които дават множество непоследователни въпроси от отворен тип, одобряват закона за здравеопазването от 2010 г., както и 80% от установените да вземат анкетата повече от веднъж .78По същия начин, когато се оставят настрана винаги одобряващите случаи, 42% от участниците в анкетата многократно изразяват благоприятно мнение за Владимир Путин, както и 32% от тези, които дават множество отговори, които не са последователни. Тези проценти са приблизително три пъти по-високи от реалния рейтинг на Путин сред американците (около 9%), според висококачественото допитване. Тези модели имат значение, тъй като предполагат неблагонадеждни данни, които могат да пристрастни оценки на анкетите, а не просто да добавят шум.

Проучването също така установява, че две от най-често срещаните проверки за откриване на нискокачествени онлайн интервюта - търсещи респонденти, които отговарят твърде бързо или не отговарят на въпрос за проверка на вниманието (или „капан“), не са много ефективни. Въпросът за проверка на вниманието гласеше: „Обръщането на внимание и внимателното четене на инструкциите е от решаващо значение. Ако обръщате внимание, моля изберете Silver отдолу '. Около 84% от фалшивите респонденти преминават въпроса за капана, а 87% преминават проверка за твърде бърз отговор.

След като използваха тези проверки за отстраняване на случаи, включените анкети, разгледани тук, все още имаха 3% до 7% от интервюта, идващи от фалшиви респонденти, в сравнение с 1% в адресираните онлайн извадки.

Проверките за превишена скорост и внимание не успяват да уловят повечето фалшиви респондентиЕдно от най-забележителните последици от проучването е доказателство, че хората в други страни могат да участват в анкети, целящи измерване на американското обществено мнение. Други изследователи са документирали чуждестранни респонденти в Индия и Венецуела, които участват в американски изследвания в областта на социалните науки, използвайки платформи за краудсорсинг. Това проучване потвърждава тези констатации. Около 5% от анкетираните с краудсорсинг използваха IP адрес, базиран извън САЩ, а най-често срещаните страни домакини за чуждестранните IP адреси бяха Сейшелските острови и Индия. За разлика от набраните адреси онлайн проби, процентът на чуждестранните IP адреси е бил 1%, а най-често приемащите страни за чуждестранните IP адреси са Канада и Мексико.9На практика никой от респондентите в извадките на панела за анкета не е имал IP адреси извън САЩ, което предполага, че панелите за проучване имат контрол на място, предпазващ от това. Други ключови констатации от проучването включват:


Фалшивите интервюта са склонни към самоотчитане като испанци или латиноамериканци.Като цяло 10% от респондентите в проучването са се идентифицирали като испанци, но процентът е бил три пъти по-висок (30%) сред случаите, за които е отбелязано фалшиво поведение. Според проучването на американската общност на бюрото за преброяване на населението испанците съставляват 16% от пълнолетното население на САЩ. Въпреки че някои от фалшивите респонденти биха могли да бъдат испанци, този процент вероятно е завишен по няколко причини. По-специално, испанската етническа принадлежност се измерва със самостоятелен въпрос „да / не“, така че хората, отговарящи на случаен принцип, ще се очаква да докладват „да“ около половината от времето. Като последица от тази по-голяма склонност фалшивите респонденти да се идентифицират като испанци, съществените оценки на проучванията за испанците (като одобрението на президента) са изложени на много по-голяма пристрастност, отколкото за извадката като цяло (вж. Глава 6).

Въпросите с отворен тип предизвикаха плагиатски отговори и рецензии на продукти от някои респонденти, които се включиха и с много хора.Отговорите на отворени въпроси показват, че и във всичките шест източника повечето респонденти изглежда дават истински отговори, които отговарят на зададения въпрос. Въпреки това, 2% до 4% от респондентите, участващи в анкета, многократно дадоха отговори, които не съответстваха на зададения въпрос, в сравнение с 0% от анкетираните в адресите респонденти. По-нататъшното проучване на 6670 отговора без последователност в проучването разкрива няколко различни типа: непоискани отзиви за продукти, плагиатски текст от други уебсайтове, намерени при въвеждане на въпроса в търсачката, разговорен текст, често срещани думи и други, различни отговори без последователност. Отговорите с плагиат бяха намерени почти изключително в извадката с многобройни източници, докато отговорите, звучащи като рецензии на продукти, както и текст, звучащ като фрагменти от личен разговор, бяха по-често срещани в панелите за анкета за включване.

Един отворен въпрос беше особено ефективен за откриване на фалшиви респонденти.Въпросът: „Какво бихте искали да видите избраните лидери във Вашингтон да се правят през следващите няколко години? Моля, дайте колкото се може повече подробности “, предизвика два пъти повече плагиатствани отговора от въпроса, предизвикващ второто най-много (176 срещу 78). Две трети (66%) от плагиатските отговори са фрагменти от различни биографии на Джордж Вашингтон. Тези респонденти (почти всички от които са от извадката с краудсорсинг) очевидно са поставили въпроса в търсачка и първите два резултата от търсенето са онлайн биографии на първия президент на САЩ.

Наистина ли имат значение промените от 2 или 3 процентни пункта?

Констатациите в това проучване показват, че с множество, широко използвани панели за проучване за включване - прогнозите за това колко обществеността одобрява или подкрепя нещо вероятно са пристрастни нагоре, освен ако анкетиращият не извършва почистване на данни извън общите проверки, изследвани тук. Пристрастието идва от около 4% до 7% от анкетираните, които или не дават истински отговори, или всъщност не са американци. Онлайн анкетите, наети офлайн, като се използват проби от адреси, не споделят този проблем, тъй като честотата на респондентите с ниско качество е толкова ниска. В абсолютно изражение, пристрастията, документирани в този доклад, са малки и техните последици могат да се разглеждат по няколко начина:

  • Почти сигурно няма значение дали при една анкета рейтингът на одобрение на президента е 43% срещу 41%. Подобна разлика обикновено е в границите на грешка и не променя това, което анкетата казва за общия баланс на обществените настроения.
  • По-спорно е дали има значение дали много национални социологически проучвания надценяват обществената подкрепа за политика или президент с няколко процентни пункта. За политики като Закона за достъпни грижи, където обществената подкрепа е малко под или малко над 50%, може да има последици от малки, систематични пристрастия в анкетите.
  • Също така е важно да се обмисли какво се случва, ако политиците и обществеността загубят повече доверие в анкетите поради данни, идващи от хора, които дават неискрени отговори или които не трябва да участват в проучването на първо място. Проблемите, разкрити в това проучване, са незначителни във всяко дадено проучване, но те сочат към потенциал за много по-сериозни проблеми в близко бъдеще, тъй като разчитането на избираемите проби се увеличава и бариерите за влизане в полето за обществено гласуване продължават да падат . За изследователите, използващи случайни национални извадки или дори добре проектирани проби за включване, един риск е, че силно публичен скандал, включващ нискокачествена извадка, има потенциал да навреди на репутацията на всички в тази област. Това изследване предполага, че трябва да се направи значителна работа за намаляване на този риск до приемливо ниво.

Ботове или хора, отговарящи небрежно

Измамни данни, генерирани от ботове за проучване, е възникваща заплаха за много анкети. Ботовете за анкети са компютърни алгоритми, предназначени за автоматично попълване на онлайн анкети. Поне един такъв продукт се предлага в търговската мрежа и рекламира „неоткриваем режим“ с човешки изкуствен интелект. Ботовете не са сериозна грижа за адресираните онлайн панели, защото само лица, избрани от изследователя, могат да участват. Те обаче са потенциална грижа за всяка анкета за участие, при която хората могат да се регистрират самостоятелно или да посещават уебсайтове или приложения, където усилията за набиране са често срещани.

Има много анекдотични сметки за ботове в онлайн проучвания за включване. Строгите изследвания по този въпрос, напротив, са оскъдни. Една от основните трудности при такова изследване е да се направи разлика между ботове и човешки респонденти, които просто отговарят небрежно. Например, логически непоследователни отговори или безсмислени отворени отговори могат да бъдат генерирани или от човек, или от бот. Този доклад подробно описва наблюдаваните модели на отговор и, където е възможно, обсъжда дали моделът е по-показателен за човек или алгоритъм. Класифицирането на случаите като категорично бот или не бот се избягва, тъй като обикновено нивото на несигурност е твърде високо. Като цяло данните от това проучване показват, че по-последователното разграничение е между интервюта, които са достоверни, спрямо тези, които не са достоверни (или фалшиви), независимо от конкретния процес, генериращ данните.

Последици за анкетирането

Проучването установява, че нито един метод за онлайн анкетиране не е перфектен, но има значителни разлики между подходите по отношение на рисковете, породени от фалшиви интервюта. Анкетата с краудсорсинг се откроява като имаща уникален набор от въпроси. Почти всички плагиатски отговори бяха намерени в тази извадка и около един на двадесет респонденти имаше чужд IP адрес. За експериментални изследвания тези проблеми могат да бъдат смекчени чрез налагане на допълнителен контрол и ограничаване на участието на работници със степен на изпълнение или одобрение на задачата най-малко 95%. Но изискването за 95% рейтинг на работниците е съмнителен критерий за анкетите, които претендират да представят американците от всички способности, нива на образование и ситуации на заетост. Освен това присъствието на чуждестранни респонденти беше само един от няколкото въпроса за качеството на данните в извадката с краудсорсинг. Ако всички интервюта с чужд IP адрес бъдат премахнати от извадката с краудсорсинг, процентът на фалшивите респонденти (4%) все още е значително по-висок от този, открит в проби, наети чрез произволна извадка.

За онлайн панелите за проучване за участие и пазарите, опасенията относно качеството на данните са отдавнашни. Може би най-забележителната констатация тук е, че фалшивите респонденти могат да имат малък систематичен ефект върху въпроси, предлагащи положителен избор на отговор. Това може би не би трябвало да е изненадващо, като се има предвид, че много, ако не и повечето проучвания, проведени на тези платформи, са оценки на пазарните проучвания за това колко хора одобряват или не одобряват различни продукти, реклами и т.н. Трудно е да се намери друго обяснение за извън -сините отговарят като: 'Обичам ли, че това има добри функции отговаря на обещанието и е съгласен с парите, които се плащат за това. ans '. Това проучване предполага, че някои проверки на качеството могат да помогнат за откриването и отстраняването на някои от тези случаи. Но не е ясно кои обществени анкети провеждат рутинни и стабилни проверки и колко ефективни са те. Това проучване показва, че ако не се извършват проверки за качество, трябва да се очаква, че оценките на типа одобрение ще бъдат засегнати.

Разбира се, анкетите за включване нямат монопол върху лошото поведение на респондентите. Редица анкетирани с адреси не успяха да проверят различни проверки на качеството на данните в това проучване. Въпреки това честотата беше толкова ниска, че оценките на анкетите не бяха засегнати систематично.

Означава ли това проучване, че анкетите са грешни?

Не. Докато някои от констатациите са загрижени, те не означават, че големият брой анкети е счупен, грешен или неблагонадежден. Както показа междинният срок за 2018 г. (и дори допитвания на национално ниво от изборите през 2016 г.), добре проектираните допитвания все още предоставят точна, полезна информация. Макар и да не са включени в това проучване, други методи на анкетиране - като телефонно интервю на живо или еднократни проучвания, при които хората се набират чрез пощата за онлайн проучване - могат да се представят добре, когато се изпълняват внимателно.

Що се отнася до онлайн анкетите, проучването установява, че анкетните панели, наети офлайн, като се използват случайни извадки от пощенски адреси, са се представили много добре, показвайки само ниво на следи от фалшиви респонденти. Панелите и пазарите, които използват опция за източници, показват по-високи нива на ненадеждни данни, но нивата са доста ниски. Вместо да посочва, че някои анкети са погрешни, това проучване документира редица проблеми с качеството на данните - всички те в момента са на ниско ниво, но има потенциал да се влошат в близко бъдеще.

Преглед на изследователския дизайн

Това проучване е предназначено да измери честотата на неблагонадеждни интервюта в онлайн платформи, рутинно използвани за обществени анкети. Изследователите от Центъра разработиха въпросник (Приложение Д), съдържащ шест отворени въпроса и 37 въпроса от затворен тип. Началото на въпросника е предназначено да изглежда и да се чувства като рутинна политическа анкета. Всъщност началните въпроси са моделирани след тези, използвани от няколко от най-плодотворните обществени анкети, проведени онлайн.

Както отбелязват други изследователи, отворените въпроси могат да бъдат ефективно средство за идентифициране на проблемни респонденти. Въпросите с отворен край (напр. „Какво бихте искали да видите избраните лидери във Вашингтон да свършат през следващите няколко години“) изискват участниците в анкетата да формулират отговорите със свои думи. Изследователите използваха това, за да категоризират отворените отговори за няколко подозрителни характеристики (вж. Приложение Б). По същия начин редица въпроси от затворен тип също бяха предназначени за откриване на проблематичен отговор (вж. Глава 7). Други въпроси изследваха често анкетирани теми като оценки на работата на президентския пост и възгледи на Закона за достъпни здравни грижи.

Общо бяха включени шест онлайн платформи, използвани за публично гласуване. Три от източниците са широко използвани анкетни проучвателни панели. Едната е платформата за краудсорсинг. Два от източниците са анкетни панели, които интервюират онлайн, но набират офлайн. И за двата панела, наети офлайн, повечето участници бяха назначени с помощта на извадка, базирана на адреси (ABS), и така „адресиран наем“ се използва в доклада като стенография. Преди да използват ABS, двата панела са наети офлайн, използвайки произволни извадки от телефонни номера (произволно набиране на цифри). За целите на това проучване важното свойство е, че всички в тези два панела са били наети офлайн чрез произволно вземане на проби от рамка, която обхваща почти всички американци.10

Всяка извадка е предназначена за постигане на поне 10 000 интервюта с възрастни от САЩ на възраст 18 и повече години във всички 50 щата и окръг Колумбия. Събирането на данни се проведе през март и април 2019 г. Точните дати на полета за всяка проба и допълнителни методологични подробности са дадени в Приложение А. Микронаборът данни е достъпен за изтегляне от уебсайта на Pew Research Center.

Ограничения и предупреждения

Обобщаемостта е предизвикателство при проучвания, изследващи качеството на онлайн проучванията за включване, тъй като такива не са монолитни. Доставчиците на проби и обществените анкети се различават значително както в процедурите си за контрол на качеството, така и в степента, до която тези процедури се съобщават публично. Докато някои организации публикуват стъпките, които предприемат за идентифициране и отстраняване на фалшиви респонденти, практиката далеч не е универсална и преглед на методологични изявления от анкети, използвани за проследяване на одобрението на президента, например, не споменава проверки за качество на данните каквото и да било. Това затруднява дори разбиращите потребители на данните от анкетите да определят какъв вид проверка, ако има такава, е била извършена за дадена анкета.

Най-общо казано, това проучване говори за онлайн анкети, при които анкетиращият извършва собствена проверка на качеството на данните, почти никаква. Доколкото обществените анкети редовно използват усъвършенствани проверки на качеството на данните - освен въпросите за скоростта и задържането, разгледани в този доклад - резултатите от това проучване може да са прекалено песимистични.

Въпреки че не е разумно да се очаква такива анкетьори да детайлизират как точно се опитват да открият фалшиви случаи (тъй като това може да отблъсне лоши участници), някои обсъждания на съществуващите процедури биха били полезни за анкетирането на потребителите, които се опитват да установят дали този проблем е разгледан в всичко. Вероятен сценарий е, че поне някои анкетьори разчитат на панелите / пазарите, продаващи интервютата, да бъдат отговорни за качеството на данните и сигурността. Данните в това проучване са събрани точно при тази предпоставка и резултатите показват, че разчитането на панелите за включване може да доведе до нетривиални дялове на фалшиви случаи.