• Основен
  • Методи
  • Какво е най-важно за онлайн претегляне на проби за онлайн включване

Какво е най-важно за онлайн претегляне на проби за онлайн включване

Нарастващият дял на анкетите се провежда с онлайн проби за включване.1Тази тенденция породи известна загриженост в индустрията, тъй като, въпреки че ниските нива на участие представляват предизвикателство за всички проучвания, онлайн разнообразието за избор се изправя пред допълнителни препятствия. По дефиниция те не покриват повече от 10% от американците, които не използват интернет. Фактът, че потенциалните респонденти са самоизбрани, означава, че все още съществува значителен риск тези извадки да не приличат на по-голямата популация. За да компенсират тези предизвикателства, изследователите са използвали различни статистически техники, като рейкинг, претегляне на склонността и съпоставяне, за да коригират пробите, така че да съответстват по-точно на популацията по избран набор от измерения. Изследователите, работещи с онлайн проби за включване, трябва да вземат много решения, когато става въпрос за претегляне. Какви фактори трябва да ръководят тези решения и кои от тях са най-важни за качеството на данните?


Ново проучване на Pew Research Center добавя към по-широките усилия на полето за изследване да хвърли светлина върху тези въпроси. Проучването се основава на над 30 000 онлайн интервюта за включване, проведени през юни и юли 2016 г. с трима доставчици, и се фокусира върху национални (за разлика от държавното или местно ниво) оценки. Оценихме три различни техники за претегляне, рейкинг, претегляне на склонността и съвпадение, както самостоятелно, така и в комбинация. Всеки метод беше приложен с помощта на два набора от променливи за корекция: основни демографски данни (възраст, пол, раса и етническа принадлежност, образование и географски регион) и по-обширен набор, включващ както демографски данни, така и набор от променливи, свързани с политически нагласи и ангажираност ( регистрация на избиратели, принадлежност към политически партии, идеология и идентификация като евангелски християнин). Всяка процедура беше извършена върху симулирани проби с размери от n = 2000 до n = 8000.

Процедурите бяха оценени предимно в зависимост от това колко добре те намаляват пристрастията към оценките от 24 базови въпроса, извлечени от висококачествени федерални проучвания.2Те също бяха сравнени по отношение на вариабилността на претеглените оценки, точността между демографските подгрупи и техния ефект върху редица измервания на общественото мнение.


Сред ключовите открития:

  • Дори и най-ефективните процедури за корекция не успяха да премахнат по-голямата част от пристрастията.Проучването тества разнообразие от сложни корекции на тежестта на онлайн анкети за включване с размери на извадките до 8 000 интервюта. Във всички тези сценарии нито една от оценяваните процедури не е намалила средното изчислено отклонение за 24 критерия под 6 процентни пункта - от 8,4 пункта непретеглени. Това означава, че дори най-ефективната стратегия за корекция е успяла да премахне само около 30% от първоначалното пристрастие.
  • Що се отнася до точността, изборът на правилните променливи за претегляне е по-важен от избора на правилния статистически метод.3Добавянето на набор от политически фокусирани променливи към корекцията на тежестта намалява средното изчислено пристрастие с допълнителни 1,4 процентни пункта спрямо коригирането само на основни демографски данни (например възраст, образование, раса). Макар че това може да изглежда малко, разликата от 1,4 пункта в средната стойност предполага, че около 36 процентни пункта отклонения са премахнати като цяло, но са разпределени във всичките 24 променливи. Бенчмарковете, най-силно свързани с политическите променливи променливи, видяха най-големи подобрения. За разлика от това, използването на по-сложни статистически методи никога не намалява средното изчислено пристрастие с повече от 0,3 точки над постигнатото с рейкинг, най-основният оценен статистически метод.4
  • Ползите от добавянето на политически променливи към корекцията се различават в зависимост от темата на изследването.Може би не е изненадващо, че бенчмарковете, свързани с политическата ангажираност, видяха най-голямо подобрение с добавянето на променливи за политическа корекция. Непретеглени, тези показатели имат средно изчислено отклонение от 22,3 процентни пункта, повече от всяка друга тема. Докато демографското претегляне намалява средното пристрастие средно с 2,9 пункта, ефектът от добавянето на променливи на политическата корекция е четири пъти по-голям, намалявайки пристрастието с 11,7 пункта и намалявайки средното приблизително отклонение почти наполовина (до 10,6 процентни пункта). Бенчмарковете, свързани с гражданската ангажираност и използването на технологии, също се възползваха непропорционално от променливите на политическото приспособяване, макар и в по-малка степен. Що се отнася до референтните показатели, свързани със семейния състав и други лични характеристики, променливият подбор не направи голяма разлика и се оказа леко вреден по въпросите на личните финанси.
  • Най-основният метод за претегляне (рейкинг) изпълнява почти толкова добре, колкото и по-сложни техники, базирани на съвпадение.Когато се претеглят както демографските, така и политическите променливи, методите, базирани на съвпадение, водят до най-ниското средно пристрастие в пълния набор от 24 критерия - или в комбинация с натрупване при по-малки размери на пробата (n = по-малко от 4000), или самостоятелно, когато пробата размер беше по-голям. Въпреки това, процедурите, които използваха само гребене (най-малко сложният оценен метод), се представиха почти толкова добре, достигайки с 0,1 до 0,3 точки зад най-ефективния метод, в зависимост от размера на пробата. За бенчмарковете, свързани с политическата ангажираност, ползите от по-сложния подход са малко по-големи, отколкото за други теми, като се постигат между 0,5 и 1,2 точки по-добре от рейкинга в зависимост от размера на извадката, но далеч не са степента на подобрение, получена от претеглянето на политическите променливи допълнение към демографските данни. Ако данните, необходими за извършване на съвпадение, са лесно достъпни и процесът може да се превърне в рутинен, тогава комбинация от съвпадение и други методи като гребене вероятно си заслужава, осигурявайки постепенни, но реални подобрения.5В други ситуации подобни незначителни подобрения може да не струват допълнителния статистически труд.
  • Много големи размери на извадката не отстраняват недостатъците на онлайн пробите за включване. Докато онлайн анкетата с 8000 интервюта може да звучи по-впечатляващо от тази с 2000, това проучване практически не открива разлика в точността. Когато се коригират както демографските, така и политическите променливи, най-ефективната процедура при n = 8000 е само с 0,2 точки по-добра от най-ефективната процедура при n = 2000. Въпреки че големият размер на извадката може да намали вариабилността на оценките (т.е. моделираната граница на грешка), това е малко полезно от гледна точка на „обща грешка на изследването“. Например, натрупвайки демографски и политически променливи, средната моделирана граница на грешка във всичките 24 променливи на бенчмарка е ± 1,8 процентни пункта, когато n = 2000 и ± 0,5 пункта, когато n = 8000, но средното пристрастие се запазва стабилно на 6,3 точки. Тъй като размерът на извадката се увеличава, оценките стават по-малко разпръснати и по-тясно групирани, но често са по-строго групирани около грешната (пристрастна) стойност.
  • Приспособяването към политическите променливи - не само демографски - направи ключовите оценки на общественото мнение по-републикански.Предишно проучване на Pew Research Center установи, че онлайн пробите за включване обикновено са свръхпредставени от демократите в сравнение с традиционните проби с произволно набиране на телефонни номера на живо (RDD). В това проучване демографското претегляне не доведе до почти никаква промяна в това разпределение или в мерките за партийни нагласи, като одобрение на тогавашния президент Барак Обама, възгледи за Закона за достъпни грижи и президентски вот през 2016 г. Добавянето на политически променливи (които включват идентификация на партиите) към претеглянето тласка тези оценки няколко точки в републиканска посока. Например, подкрепата за Закона за достъпни грижи спадна с около 5 процентни пункта (от 51% на 46%), когато политическите променливи бяха добавени към корекционна корекция, която първоначално използваше демографски данни.

Процедурите за претегляне, тествани в този доклад, представляват само малка част от многото възможни подходи за претегляне на данните от проучването за включване в теглото. Има множество различни начини за прилагане на претегляне на съвпадение и склонност, както и разнообразие от подобни алтернативи на гребенето (общо известни катокалибриранеметоди). Също така не сме оценявали методи като многостепенна регресия и постстратификация, които изискват отделен статистически модел за всяка променлива на резултата. Добавете към това безбройните комбинации от променливи, които биха могли да се използват вместо разгледаните тук, и е ясно, че не липсват алтернативни протоколи, които биха могли да доведат до различни резултати.

Но какъвто и да е метод, който човек може да използва, успешното коригиране на пристрастия в избраните проби изисква наличието на правилните променливи за корекция. Нещо повече, поне за много от темите, разгледани тук, „правилните“ променливи за корекция включват повече от стандартния набор от основни демографски данни. Въпреки че може да има реални, макар и постепенни, ползи от използването на по-сложни методи при изготвянето на проучвания, фактът, че на практика не е имало разлика между методите, когато са използвани само демографски данни, предполага, че използването на такива методи не трябва да се приема като показател на точността на изследването само по себе си. Внимателното разглеждане на факторите, които разграничават извадката от популацията и тяхната връзка с темата на изследването е много по-важно.