Предизвикателствата на използването на машинно обучение за идентифициране на пола в изображенията

През последните години компютърно управляваните системи за разпознаване на изображения, които автоматично разпознават и класифицират хората, стават все по-широко разпространени. Тези алгоритмични системи се прилагат в много настройки - от подпомагане на сайтовете в социалните медии да разберат дали даден потребител е собственик на котка или собственик на куче до идентифициране на отделни хора в претъпканите публични пространства. Форма на машинен интелект, наречена дълбоко обучение, е в основата на тези системи за разпознаване на изображения, както и на много други усилия за изкуствен интелект.


Това есе зауроци, които научихме за системите за дълбоко обучение и признаването на полае част от разглеждане в три части на въпроси, свързани с технологията на машинното зрение. Вижте също:

Интерактивно: Как компютърът „вижда“ пола?Като систематично покриваме или „затваряме“ части от снимки на лицата на отделни хора и след това ги подаваме в компютърен модел, който създадохме, можем да видим кои елементи на лицето са най-важни за подпомагане на модела да класифицира мъжете и жените. Създадохме интерактивна функция, където можете да пресъздадете този анализ и да видите кои промени карат нашия алгоритъм за дълбоко обучение да промени предположението си за пола на човека в изображението.


Проучване на общественото мнение относно разпознаването на лица.Системите за разпознаване на лица, които могат да определят самоличността на лица въз основа на снимка или видео, са едно от най-противоречивите приложения на машинното зрение (моделите, които използвахме за този проект, могат да класифицират пола, но не могат да идентифицират отделни хора). Наскоро Центърът проведе проучване сред възрастни в САЩ, изследващо общественото мнение към технологията за разпознаване на лица и използването й от рекламодатели, правоприлагащи органи и други. Вижте нашия доклад за това проучване тук.

Системите за дълбоко обучение често се „обучават“ да изпълняват тези задачи, като се представят с много примери за картини, обекти или сценарии, които хората вече са означили като „правилни“ или „неправилни“. Разглеждайки достатъчно примери, тези системи в крайна сметка могат да се научат как да идентифицират немаркирани обекти или сценарии, с които никога не са се сблъсквали досега. Тези етикетирани примери, които помагат на системата да се научи, се наричат ​​„данни за обучение“ и те играят важна роля за определяне на общата точност на тези системи.

Тези системи предлагат потенциал за изпълнение на сложни задачи със скорост и мащаб далеч над възможностите на хората. Но за разлика от хората, системите за дълбоко обучение обикновено не могат да предоставят обяснения или обосновки за своя индивидуален избор. И за разлика от традиционните компютърни програми, които следват строго предписан набор от стъпки за постигане на своите резултати, тези системи понякога са толкова сложни, че дори изследователите на данни, които са ги проектирали, не разбират напълно как стигат до решенията си.



В резултат на това тези системи могат да се провалят по начини, които изглеждат трудни за разбиране и трудни за предвиждане - като например показване на по-висок процент грешки на лицата на хора с по-тъмна кожа спрямо тези с по-светла кожа или класифициране на видни членове на Конгреса като престъпници . И използването на тези системи в области като здравеопазването, финансовите услуги и наказателното правосъдие породи опасения, че те в крайна сметка ще засилят съществуващите културни и социални пристрастия под прикритието на алгоритмичен неутралитет.


Изследователският център Pew наскоро приложи техники за дълбоко обучение в поредица от доклади, които изследваха представителството на пола в резултатите от търсенето на изображения в Google и изображения от новинарски публикации във Facebook. Тъй като за човешките изследователи не беше възможно да сортират и класифицират хилядите изображения, произведени от тези онлайн системи, ние създадохме свой собствен инструмент за автоматично откриване и категоризиране на пола на хората в изображенията, които намерихме.

Независимо от данните за обучение, всички модели по-добре идентифицират единия пол, отколкото другияВ процеса на изграждане на система за задълбочено обучение, която да разпознава пола в разнообразна гама от човешки лица в образи, научихме от първа ръка трудностите при разбирането как функционират тези системи; предизвикателствата при приспособяването им към по-точно представяне; и критичната роля на данните, използвани за обучението им, за да ги накара да се представят по-ефективно (или по-малко). Обучихме и тествахме повече от 2000 уникални модела, базирани на обща архитектура за дълбоко обучение, и в процеса разкрихме много вариации в способността на тези модели да идентифицират точно пола в различни набори от изображения.


Едно често срещано ограничение на много системи за класификация на пола (включително тази, която използвахме за нашето собствено изследване) е, че те не могат да отчитат лица, които не се идентифицират нито като жена, нито като мъж, и нямат концепция за полова идентичност като отделна от външен вид. Но дори и извън тези известни ограничения, научихме, че данните за обучение, използвани за обучение на тези модели, имат голямо значение. Моделите, които обучихме, използвайки по-разнообразни набори от изображения (което включва демографския им състав, както и качеството и видовете изображения, използвани във всеки набор), бяха по-добри при идентифициране на пола в подобна разнообразна група снимки, отколкото модели, които бяха обучени на повече ограничени данни.

Също така забелязахме вариации в работата на тези модели, които понякога бяха изненадващи и трудни за обяснение. Например, въпреки че моделите, които бяха обучени, използвайки по-голямо разнообразие, бяханай-многоточни, някои модели, които бяха обучени на по-малко разнообразни изображения, бяха по-точни от други. По същия начин някои от тези модели са по-добри в идентифицирането на мъжете, отколкото жените, докато други имат по-добри резултати при жените, отколкото при мъжете.

Как изградихме модели за машинно обучение, използвайки разнообразни изображения

Колекции от данни, използвани при този анализ

Центърът използва седем колекции от данни за обучение на нашите модели. Всяка колекция има свои уникални характеристики, така че нито една колекция не отразява разнообразието на глобалното население. Колекциите включват следното:

Бразилски политици:Висококачествени позирани изображения на бразилски политици, изправени пред камерата, събрани от сайт, който е домакин на резултатите от изборите на общинско ниво.


Етикетирани лица в дивата природа:База данни с фотографии на лица, събрани от изследователи от Университета в Масачузетс с цел изучаване на технологията за разпознаване на лица.

Бейнбридж:Колекция от снимки на лица, съответстващи на демографските данни от преброяването в САЩ от 1990 г., събрани от Уилма Бейнбридж и сътрудници за изследване на запомнянето на лица.

Азиатски знаменитости:Изображения на 30 известни азиатски личности (15 мъже и 15 жени), събрани от Центъра.

Черни знаменитости:Изображения на 22 известни чернокожи лица (11 мъже и 11 жени), събрани от Центъра.

Известни възрастни хора:Снимки на 21 възрастни знаменитости (11 мъже и 10 жени), събрани от Центъра.

Търсене на изображение на държава по пол:Изображения на мъже и жени за всяка от 100-те най-населени страни в света, събрани от Центъра.

Моделите за машинно обучение обикновено започват като празни листове, на които не са показани никакви данни и не могат да извършват класификации или други задачи. Моделите, които обсъждаме в това есе, са изградени с техника, наречена „трансферно обучение“, която им дава основна информация за това как да идентифицират често срещани обекти, но не непременно информация, специфична за оценка на пола. Независимо от конкретния тип машинно обучение, което се използва, учените по данни обикновено започват да конструират модел, като избират набор от данни, който изобразява много случаи на задачата или класификацията, изпълнявани правилно. След като видя достатъчно примери за тези така наречени данни за обучение, моделът в крайна сметка идентифицира систематични модели и разработва свой собствен подход за разграничаване на „правилните“ отговори от „неправилните“. След това той може да използва този подход, за да изпълни задачата, която е бил обучен да прави с данни, които никога не е виждал досега.

Примери, които обаче са предубедени или не представляват точно по-широката група лица, които могат да бъдат срещнати, могат да научат системата на неочаквани и безсмислени модели, което я кара да разработи подход, който не работи добре за нови данни. Например модел, обучен на изображения, на които всеки мъж носи очила, може да бъде убеден, че носенето на очила е силен сигнал, че някой е мъж. Макар че този пример може да изглежда очевиден, може да е трудно да се знае предварително дали данните за обучение се състоят от лоши примери за задачата или не са представителни.

Тъй като искахме нашият анализ да прави разлика между мъже и жени в изображенията, данните ни за обучение се състоеха от еднакви по размер набори от изображения на мъже и жени, в които всяко изображение беше обозначено като мъж или жена. Искахме да видим как изборът на данните за обучение повлия на общата точност на нашите модели, затова търсихме онлайн за различни колекции от изображения на човешки лица. В крайна сметка събрахме седем колекции от изображения, които използвахме за обучение на нашите модели. Всяка колекция се състоеше от етикетирани изображения на индивиди, но всяка от тях имаше своя уникална комбинация от възрастови групи, раси и националности, както и комбинация от характеристики на изображението като качество на изображението и позициониране на индивида.

Използвайки тези колекции като отправна точка, тогава създадохме осем различни набора от данни за обучение за нашите модели за дълбоко обучение. Седем от набора от данни за обучение се състоят от изображения, извлечени само от една от оригиналните колекции (симулация на различни видовепо-малкоразнообразни данни за обучение), докато един от наборите от данни за обучение се състои от изображения, извлечени от комбинация от всичките седем колекции (симулация наПовече ▼разнообразни данни за обучение). Важно е, че всичките осем набора от данни, използвани за обучение, са с еднакъв размер и съдържат равен брой мъже и жени.

Как тези модели се представят при идентифициране на пола в различни набори от изображения

След като всеки модел беше обучен от един от осемте набора от данни за обучение, които бяхме създали за този проект, ние го тествахме. За да сравним производителността на различните модели, ние създадохме уникален набор от данни, съставен от изображения, взети от всичките седем от оригиналните колекции от данни - но които никога не са били използвани за обучение на отделни модели. Този тип набор от данни е известен като „данни за тестване“ и се използва за оценка и сравнение на ефективността на различните модели. Данните за тестване за този проект съдържаха равен брой изображения от всяка от седемте колекции от данни, както и равен брой изображения, идентифицирани като изобразяващи жени и мъже във всяка отделна колекция.

Когато проверихме нашите обучени модели на данните от тестването, открихме, че някои от моделите са изпълнени по-точно от други. Най-забележителното е, че моделът, който е бил обучен върху изображения, взети от всички седем от отделните колекции (т.е. моделът, обучен по най-разнообразния набор от данни за обучение), е имал най-добро представяне. Точно идентифицира правилния пол за 87% от изображенията с данни за обучение, докато моделите, обучени с помощта само на едно от отделните събиране на данни, постигат точност между 74% и 82%.

Моделите за машинно обучение, обучени на множество източници на данни, са по-точни от тези, обучени на един източник на данни

С други думи, моделът, който е обучен на разнообразен набор от източници, се представя значително по-добре от този, обучен на отделни източници, въпреки че всеки модел вижда еднакъв брой общи изображения и еднакво съотношение на мъжете към жените. Това съвсем не е изненадващо, тъй като разнообразните данни за обучение и данните от тестовете съдържат комбинация от седемте колекции от данни. Това подчертава централно предизвикателство, пред което са изправени тези, които изграждат или използват тези типове модели: Модели, изградени с помощта на данни за обучение, които изглеждат по-различно от данните от реалния свят, и цялото разнообразие от реалния свят, което е свързано с това, може да не се изпълни според очакванията.

Въпреки че моделът, който беше обучен на най-разнообразните налични данни, се представи най-точно, не всички модели, обучени на по-малко разнообразни данни, се представиха еднакво лошо. Най-лошото представяне на моделите, обучени на един източник на данни, постига точност от едва 74%, но най-добре представящите се модели увеличават този резултат с 8 процентни пункта. Както беше отбелязано по-горе, тези изображения се различават по различни начини извън демографията на хората в изображенията - като качество на изображението, разделителна способност на изображението, ориентация на снимките и други трудно измерими фактори. Това подчертава второто предизвикателство, пред което са изправени потребителите и дизайнерите на тези системи: Трудно е да се предскаже предварително колко точно ще се основават тези модели само на данните, по които са обучени. Това, което можем да предскажем обаче, е, че по-разнообразните извадки ще са склонни да бъдат по-здрави.

Също така изследвахме колко точен е всеки модел при идентифициране на мъже и жени и установихме, че всеки модел е поне малко по-точен при идентифицирането на единия пол, отколкото при другия - въпреки че всеки модел е обучен на равен брой изображения на жени и мъже . Тези несъответствия не са очевидни, без да се направи този по-подробен анализ: Модел може да бъде представен като 76% точен, без да се разкрива, че той правилно класифицира само 60% от жените, докато правилно класифицира 93% от мъжете.

На широко ниво тези модели имат по-големи трудности при идентифицирането на жените: Шест от осемте (включително моделът, който е изграден с използване на възможно най-разнообразни данни за обучение) са по-точни при идентифицирането на мъжете, отколкото жените. Но два от моделите бяха значително по-точни при идентифицирането на жените, отколкото мъжете. И както при общата им точност, не е напълно ясно или предсказуемо защо някои модели може да са по-добри при идентифицирането на мъжете, отколкото жените, или обратното.

Последици за изследване на машинното зрение

Важно е да се отбележи, че има няколко ограничения на това проучване, които трябва да се имат предвид при тълкуване на констатациите. Първо, използваният от нас подход за трансферно обучение се основава на информацията, която вече съществува в предварително обучени модели. Второ, тъй като създадохме над 2000 модела за този проект - а моделите, обучени с използване на по-големи количества данни за обучение, отнемат повече време, - използвахме относително скромния брой изображения, за да обучим всеки модел. В резултат на това тези модели могат да бъдат по-малко точни от системите, които използват по-сложни стратегии за моделиране или повече данни за обучение. Трето, изображенията, които използвахме за обучение и тестване, не са предназначени да представят цялото потенциално разнообразие в човешките лица. По-скоро целта на този проект беше да улови набор от изображения, които бяха достатъчно разнообразни, за да направят смислени сравнения за начина, по който тези видове системи учат за пола.

И накрая, важно е да се отбележи, че тези модели са проектирани за много специфична задача: да класифицират изображенията на хората като жени или мъже, само въз основа на техните външни, физически характеристики. Както беше отбелязано по-горе, нашият инструмент успя да присвои хора само към една от тези две бинарни категории и не успя да отчете хора от друг пол, включително небинарни лица. Той също така нямаше фундаментално разбиране за пола или половата идентичност като понятия и не можеше да прави разлика между външния вид на някого и личната му полова идентичност. И въпреки че общите похвати на този анализ са приложими за всякакъв вид система за машинно обучение, конкретните резултати, отчетени тук, може да не се обобщават за други видове системи, предназначени да класифицират пола, или такива, предназначени да изпълняват напълно различни задачи.

Но въпреки тези предупреждения, този анализ може да даде представа за същността и ограниченията на този тип модел на машинно обучение. Това, че тези модели са несъвършени, може да се очаква. Това, което може да е по-малко очевидно, е, че те могат да бъдат значително по-малко надеждни за някои групи, отколкото други - и че тези различия не е задължително да се дължат на интуитивни или очевидни фактори. Като цяло е важно тези модели да бъдат обучени на данни, които улавят разнообразието от ситуации, с които ще се сблъскат в реалния контекст, доколкото това е възможно. Ако например моделът ще бъде призован да оперира на различни възрасти, раси и други качества, например, важно е моделът да бъде обучен на подобно разнообразен набор от тренировки. В крайна сметка хората, които разчитат на решенията, които тези системи вземат, трябва да подхождат към резултатите, които произвеждат, като знаят, че може да крият проблеми или пристрастия, които е трудно да се предвидят или предскажат предварително.

Моля, вижте методологията за повече подробности за това как Центърът е извършил този анализ. Бихме искали да благодарим на Besheer Mohamed, Onyi Lam, Brian Broderick, Skye Toor, Adam Hughes и Peter Bell за безценния им принос в този проект. Информационни графики от Селена Цян.