• Основен
  • Новини
  • Въпроси и отговори: Използване на данни от търсенето с Google за изследване на обществения интерес към водната криза във Флинт

Въпроси и отговори: Използване на данни от търсенето с Google за изследване на обществения интерес към водната криза във Флинт

Как американците използваха Google, за да научат за кризата със замърсяването на водата във Флинт, Мичиган и как техните търсения онлайн се развиха с течение на времето? Тези въпроси са в центъра на ново проучване на Pew Research Center, което анализира 18-месечни данни за търсене на Google, за да проследи обществения интерес към многопластовата криза във Флинт.


Докато проучването се фокусира върху едно конкретно събитие за новини, то хвърля светлина върху по-широки изследователски въпроси, най-видно какви обобщени заявки за търсене в интернет могат да ни кажат за това как се разпространяват новините в днешната цифрова среда за новини. Ейми Мичъл, директор на журналистическите изследвания в Pew Research Center, помогна на автора на изследването; по-нататък е редактирано интервю с Мичъл за методологията на доклада.

Защо се фокусирахте върху кризата с водата във Флинт?

Въпреки че нашите изследователски интереси са широки, чувствахме, че използването на казус ще ни позволи да разгледаме задълбочено нюансите на обществения интерес в дадена тема на новината, докато историята се разгръща. Искахме история с много уникални ключови думи за търсене в интернет, както и точна географска област, като и двете обикновено позволяват по-точно проследяване на дейността при търсене в интернет. Също така се надявахме да имаме новина, с която хората могат да се свържат на много нива. Случаят Флинт отговаря на тези критерии. Има много ключови думи за търсене, които са специфични за кризата на Флинт. Той също имаше дълъг график, превърна се от местен проблем в национален и се превърна в история с въздействие на лично, общностно и политическо ниво.


Този доклад се различава от много анализи на Pew Research Center по това, че не използва данни от проучвания. Как беше направен този доклад?

В Pew Research Center ние използваме много методологии в нашето изследване, в зависимост от въпросите, на които се опитваме да отговорим. Тези методологии включват оригинални анализи на големи външни масиви от данни, което направихме тук. Това беше първото ни използване на данни от Google Health API, което по същество е точка за достъп за анализ на големи количества данни за термините, които потребителите на интернет са търсили през даден период.

Нашият екип прекара няколко месеца, като се увери, че напълно разбираме данните, как са организирани и най-добрите методи за получаване на точни връщания на данни, преди да се заемем със самото проучване на Флинт. След като се почувствахме уверени в методите, екипът извлече резултатите от запитванията през 130-те седмици от това проучване, предприе редица статистически стъпки за почистване на набора от данни и след това започна вътрешните ни анализи.

Защо използвахте конкретно данните от търсенето с Google?

Въпреки че никоя търсачка не може да представи запитванията на всички американци, преобладаващата част от онлайн търсачите използват Google и редица изследователи експериментират с използването й като инструмент за разбиране на общественото отношение и поведение. За този проект кандидатствахме пред Google и получихме достъп до частния API на Google Health, който предоставя по-подробни данни от публичния уебсайт на Google Trends.Какво можете да научите от този вид данни за търсене? Данните от търсенето могат ли да предоставят представителна извадка от някаква популация?

Начинът, по който данните се връщат, не е на ниво потребител, а на ниво индивидуална заявка за търсене. С други думи, единицата за анализ са търсенията, а не хората. Важно е да запомните, че данните се показват като дял от всички търсения в географския район за този период от време, а не като общ обем. Така например, когато говорим за увеличаване на активността при търсене на термини, свързани със здравето в Мичиган, това означава, че търсенията на тези елементи са били по-голяма част отвсичкотърсения в щата Мичиган през тази седмица в сравнение с предходната седмица.


Какви предизвикателства срещнахте при използването на данни за търсене?

Както при всеки нов източник на данни или инструмент, се появиха редица предизвикателства, докато работехме, за да разберем напълно какво представляват данните, какво не представляват и как най-добре да структурираме точен анализ. Много от предизвикателствата са обсъдени подробно в методологията, така че ще подчертая само един пример тук.

За всяка заявка API на Google Health изважда проба от търсения. Резултатите могат да варират доста от заявка до заявка въз основа на извадената проба. За да се справим с тази вариация, изтеглихме 50 проби за всяка категория за търсене във всяка географска област за всяка седмица през изследваните 2 ½ години, което доведе до общо 91 000 проби. След това за всяка седмица взехме средната стойност от 50-те проби.


Друг аспект на този доклад включва проследяване на отразяване на новини, свързани с кризата във Флинт. Как се заехте да правите това?

Целта на тази част от проекта беше да обхване широкия обем на медиите с течение на времето; не трябваше да се прави подробен анализ на медийното съдържание. За целта събрахме новинарски материали от извадка от местни, регионални и национални медии за същия времеви диапазон като данните от търсенето с Google. Включихме всичко, което би могло да бъде идентифицирано като свързано с водната криза във Флинт. Идентификацията беше процес от две стъпки: Първо, бяха използвани търсения по ключови думи за идентифициране и улавяне на всички възможни свързани истории. След това екип от програмисти четат или гледат всяка история, за да проверят, че поне 50% от нея са за кризата с водата във Флинт.

Този проект съдържа ли уроци или предупреждения за други изследователи, които биха искали да използват данни от търсенето, за да оценят интереса на американците към новинарски събития?

Абсолютно. Писахме за няколко от тях в публикация на Medium, но няколко ключови момента, които трябва да имате предвид, са, че Google Trends измерва активността при търсене, а не мнението или приоритета. Докато активността в търсенето често може да бъде свързана с интерес, тя не показва положителни или отрицателни мнения от страна на обществеността или че даден термин за търсене, който връща повече резултати, е по-важен от някой друг термин. Също така, при търсенето на ключови думи, термините трябва да са точни, което означава, че всяко спрягане на дума или комбинация от думи трябва да се въвежда отделно. Например, ако някой иска да види активност при търсене около „оловно тестване“, трябва да въведете „оловни тестове“, „оловно тестване“, „оловно тестване“ и „оловен тест“. За нас това означаваше да използваме близо 2700 различни думи за търсене.