История автоматизированного распознавания лиц

Шестьдесят лет назад Вуди Бледсо (Woody Bledsoe) – сын земледельца – изобрёл технологию идентификации лиц. Но свидетельство о его причастности к открытию практически исчезло.

Около тридцати лет Вуди Бледсо был профессором Техасского университета в Остине и работал над развитием автоматизированных рассуждений и искусственного интеллекта. По воспоминаниям Ланса, сына Бледсо, профессор был восторженным учёным-оптимистом, который ещё в конце 1950 годов мечтал создать компьютер, наделённый человеческими возможностями и способный доказывать сложные математические теоремы, поддерживать разговор и прилично играть в пинг-понг.

Но в начале карьеры Бледсо увлечённо искал возможность научить машины распознавать лица – недооценённую тогда, но потенциально мощную человеческую способность. Это были первые исследования по идентификации лиц (1960 года), и работа профессора привлекла интерес спецслужб США. Главные инвесторы Вуди, скорее всего, были подставными компаниями ЦРУ.

Сегодня функция распознавания лиц используется для обеспечения безопасности в телефонах, ноутбуках, паспортах и платёжных приложениях. Ожидается, что эта технология кардинально изменит рынок таргетированной рекламы и ускорит диагностику определённых заболеваний. В то же время технология идентификации лиц превращается в инструмент государственного давления и корпоративной слежки.

Так, при помощи этой технологии в Китае правительство отслеживает представителей уйгурского этнического меньшинства, сотни тысяч которых поместили в лагеря для политических заключённых. А в США, по данным The Washington Post, Иммиграционная и таможенная полиция и ФБР проводит цифровой розыск: ищет подозреваемых в государственных базах данных водительских удостоверений – иногда без предварительного обращения в суд.

В 2019 году расследование Financial Times показало, что исследователи из Microsoft и Стэнфордского университета собрали и выложили в открытый доступ большое количество пакетов данных с изображениями людей без ведома или согласия сфотографированных. Впоследствии эти данные были уничтожены, но исследователи техстартапов и одной китайской военной академии успели их заполучить.

Исследования Вуди Бледсо по распознаванию лиц, проведённые в 1960 годах, предвосхитили технологические прорывы и их этические аспекты, которые мы наблюдаем сейчас. И тем не менее, эти основополагающие работы почти совсем неизвестны – большая их часть так и не была обнародована.

В 1995 году по неизвестным причинам Вуди попросил сына уничтожить архив исследований. Но большая часть бумаг сохранилась, и тысячи страниц его работ теперь хранится в Центре американской истории Бриско в Техасском университете.

Среди прочего сохранились десятки фотографий людей, и некоторые лица помечены странными математическими записями, как будто поражённые неким «геометрическим» кожным заболеванием. На этих портретах можно разглядеть историю зарождения технологии, которая в ближайшие десятилетия будет активно развиваться и проникнет во многие сферы деятельности человека.

Изображение Вуди Бледсо из исследования 1965 года. 
Компьютер не смог распознать, что на двух его фотографиях 1945 и 1965 годов был изображен один и тот же человек.
ФОТОГРАФИЯ: ДЭН ВИНТЕРС

Вудро Вильсон (Вуди) Бледсо родился в 1921 году в многодетной семье земледельца-издольщика из Оклахомы. В семье было 12 детей. Вуди был десятым ребёнком, и сколько себя помнил всегда помогал отцу по хозяйству: пропалывая кукурузу, собирая дрова и хлопок, кормил цыплят. Его мать, бывшая школьная учительница, рано заметила его математический склад ума.

Когда Вуди было 12 лет, в разгар Великой депрессии умер его отец, и семья погрузилась в ещё большую нищету. Закончив среднюю школу, Вуди устроился работать на ранчо. Затем он переехал в город Норман и начал посещать занятия в Университете Оклахомы, но через три месяца бросил его и накануне Второй мировой войны присоединился к армии. Проявив способности к математике, Вуди был назначен ответственным за ведомство заработной платы в Форт Леонард Вуд в штате Миссури, где готовили американских солдат к военным действиям. 7 июня 1944 года Вуди был отправлен в Европу, где он получил награду за разработку способа спуска больших военно-морских судов, построенных для высадки на берег.

После войны Вуди изучал математику в Университете Юты, и закончил его за два с половиной года, а затем отправился в Беркли, чтобы получить степень доктора философии. Закончив аспирантуру, Вуди занимался исследованиями в области ядерного оружия в правительственной корпорации Sandia в Нью-Мексико – вместе с такими светилами, как Станислав Улам (Stanislaw Ulam), который участвовал в создании водородной бомбы. В 1956 году Вуди прилетел на Маршалловы острова, чтобы наблюдать за испытаниями оружия над атоллом Эниветак, части которого до сих пор страдают от более сильного радиоактивного загрязнения, чем Чернобыль или Фукусима. «Мне было приятно помогать моей родной стране оставаться самой сильной в мире», – написал он.

В Sandia Вуди сделал первые шаги в компьютерном мире, приверженность к которому пронесёт через всю жизнь. Сначала писал код для проектов по ядерному оружию. Одна из первых попыток – «Программа расчета вероятностей выпадений в результате крупномасштабной термоядерной атаки». Программа учитывала мощность взрыва, точки взрыва, время детонации, среднюю скорость ветра и т.д. Позднее Вуди заинтересовался автоматическим распознаванием образов, особенно машинным чтением – процессом обучения компьютера распознаванию немаркированных изображений письменных символов.

Вуди Бледсо и его коллега Ибен Браунинг (Iben Browning) – изобретатель-эрудит, авиаинженер и биофизик – придумали метод, который впоследствии стал известен как метод n элементов (n-tuple). Они начали с проецирования напечатанного символа – буквы Q  на прямоугольную сетку из клеток наподобие разлинованного листа бумаги. Каждой клетке-ячейке присваивался двоичный номер в зависимости от наличия или отсутствия в ней части символа: 0 – для пустой клетки, 1 – для заполненной. Затем ячейки случайным образом группировались в упорядоченные пары, как наборы координат. Теоретически группы могли включать любое количество ячеек, отсюда и название метода n-tuple. Далее при помощи нескольких математических действий система присваивала сетке символа уникальное значение. Когда компьютер обнаруживал новый символ, он просто сравнивал сетку этого символа с другими в базе данных до тех пор, пока не находилось ближайшее совпадение.

Красота метода n-tuple состояла в том, что он позволял распознавать множество вариантов одного и того же знака. Многие символы Q, как правило, получали довольно схожие результаты по сравнению с другими Q. Еще лучше, что процесс работал с любым шаблоном, а не только с текстом. По словам Роберта С. Бойера (Robert S. Boyer), математика и давнего друга Вуди, метод n-tuple помог определить область распознавания образов. Это был один из первых шагов к вопросу: «Как запрограммировать машину делать то, что делают люди?».

Примерно в то время, когда он разрабатывал метод n-tuple, Вуди впервые мечтал создать машину, которую он называл «компьютерным персонажем». Спустя годы он вспоминал «дикое волнение», которое испытывал, формулируя навыки для искусственного интеллекта.

«Я хотел, чтобы он читал напечатанные символы и рукописный текст. Я мог наблюдать это либо его часть в маленькой камере, которая крепилась бы на мои очки, с наушником, через который я бы слышал, как он называет имена моих друзей и знакомых, когда я встречал бы их на улице… Понимаете, мой компьютерный друг умел бы распознавать лица».


В 1960 году Вуди – вместе с Ибеном Браунингом и ещё одним коллегой из Sandia – основал компанию Panoramic Research Incorporated. Сначала они располагались в небольшом помещении в Пало-Альто, который ещё не был известен как Силиконовая долина. В то время большинство компьютеров в мире – были массивные устройства, хранящие данные на перфокартах или магнитной ленте – находились в офисах крупных компаний и правительственных лабораториях. Panoramic не могла себе позволить купить компьютер, поэтому учёные арендовали вычислительное время у своих соседей, часто поздно вечером, когда оно было дешевле.

Бизнес Panoramic, как позже описал Вуди своему коллеге, заключался в том, чтобы «тестировать идеи, которые, как мы надеялись, перевернут мир».   По словам Нельса Винклесса (Nels Winkless), писателя и консультанта, который участвовал в нескольких проектах Panoramic, а позже стал одним из основателей журнала Personal Computing, «их задача заключалась в том, чтобы делать то, что другие люди находят слишком глупым».

Изобретения некоторых исследователей Panoramic получили широкую известность. Например, Хелен Чан Вульф (Helen Chan Wolf), пионер в программировании роботов, работала над созданием робота Шейки (Shakey the Robot). По мнению Института инженеров по электротехнике и радиоэлектронике, это «первый в мире робот, воплощающий в себе искусственный интеллект».

Panoramic тщетно пыталась найти финансирование. Вуди сделал всё возможное для презентации технологии распознавания символов, включая Equitable Life Assurance Society и журнал McCall’s , но так и не заключил контракт. К 1963 году Вуди был почти уверен, что компания рухнет.

На протяжении всего своего существования у Panoramic был, по крайней мере, один надёжный покровитель, который помогал ей держаться на плаву, – Центральное разведывательное управление. Если в бумагах Вуди Бледсо когда и были упоминания о ЦРУ, то, скорее всего, они были уничтожены. Но фрагменты сохранившихся материалов явно свидетельствуют о том, что в течение многих лет Panoramic работала с подставными компаниями ЦРУ. Винклесс, который был дружен со всем персоналом Panoramic и был другом Браунинга на протяжении всей жизни, говорит, что компания, вероятно, была создана, по крайней мере частично, с учетом финансирования агентства. «Никто никогда не говорил мне об этом прямо, – вспоминает Винклесс, – но так оно и было».

Согласно данным сайта Black Vault, который специализируется на эзотерических запросах по Закону о свободном доступе к информации, компания Panoramic Research Incorporated входила в число 80 организаций, работавших над проектом MK-Ultra. Это печально известная программа ЦРУ по «контролю разума», где применялись психологические пытки без согласия людей. Через подставной исследовательский фонд исследований в области медицинских наук компании Panoramic была назначена на подпроекты 93 и 94 по изучению бактериальных и грибковых токсинов и «удаленному направленному контролю за деятельностью отдельных видов животных». Дэвид Х. Прайс (David H. Price), антрополог из Университета Сен-Мартина, считал, что Вуди и его коллеги также получали деньги от Общества по изучению экологии человека. От имени этого общества ЦРУ предоставляло гранты учёным, чьи работы могли улучшить методы ведения допросов в агентстве или послужить маскировкой для этой работы. (ЦРУ не будет ни подтверждать, ни опровергать какие-либо сведения о Woody или Panoramic или их связь с ними).

Но проведение самых значимых исследований компании Panoramic обеспечила другая фиктивная компания – King-Hurley Research Group. Согласно серии судебных исков, поданных в 1970 годах, ЦРУ использовало эту исследовательскую группу для закупки самолётов и вертолётов для секретных военно-воздушных сил агентства, известных как Air America. Некоторое время King-Hurley также финансировала психофармакологические исследования в Стэнфорде. Но в начале 1963 года Вуди Бледсо предложил провести «исследование, чтобы определить возможность создания упрощенной машины для распознавания лиц». Основываясь на их с Браунингом работе по методу n-tuple, Вуди хотел научить систему распознавать 10 лиц. То есть он планировал использовать базу данных из 10 фотографий разных людей и узнать, сможет ли машина идентифицировать новые фотографии каждого из них. «Вскоре можно будет увеличить число людей до тысяч», – писал Вуди. В течение месяца Кинг-Херли дал ему добро.

В одном из подходов Вуди Бледсо научил свой компьютер разделять лицо на черты, а затем сравнивать расстояния между ними.
ФОТОГРАФИЯ: ДЭН ВИНТЕРС

Десять лиц идентифицировать сегодня может показаться непонятной целью, но в 1963 году это было невероятно амбициозно. Скачок от распознавания написанных символов к распознаванию лиц был гигантским. Не существовало стандартного метода оцифровки фотографий и не существовало базы цифровых изображений, на которую можно было бы опираться. Современные исследователи могут обучать свои алгоритмы на миллионах селфи находящихся в свободном доступе, а Panoramic пришлось создавать свою базу данных с нуля, фото за фото.

Была проблема и посерьёзнее: трёхмерные лица людей в отличие от двухмерных знаков не статичны. Изображения одного и того же человека могут различаться по повороту головы, интенсивности освещения и ракурсу. Люди стареют и меняются прически. Кто-то выглядит беззаботно на одной фотографии, и может показаться встревоженным на следующей. Подобно тому, как найти общий знаменатель в невероятно сложном наборе дробей, команде необходимо как-то учесть всю эту изменчивость и нормализовать изображения, которые они сравнивали. Нельзя было с уверенностью сказать, что компьютеры, находящиеся в их распоряжении, справятся с этой задачей. Одной из основных используемых машин была CDC 1604 со 192 КБ оперативной памяти – примерно в 21 000 раз меньше, чем у современного смартфона.

С самого начала Вуди полностью осознавал эти проблемы, поэтому выбрал подход «разделяй и властвуй»: разбил исследования на части и поручил их разным сотрудникам.

Один молодой исследователь приступил к работе над проблемой оцифровки. Он снимал чёрно-белые фотографии участников проекта на 16-миллиметровую плёнку. Затем использовал сканирующее устройство, которое разработал Браунинг, чтобы преобразовать каждый снимок в десятки тысяч точек данных. Каждая точка должна была иметь значение интенсивности света в диапазоне от 0 (полностью тёмная) до 3 (полностью светлая) – в определённом месте на снимке. В результате, получалось слишком много точек для единовременной обработки компьютером. Выход нашёл молодой исследователь, который написал программу NUBLOB. Программа нарезала изображение на образцы произвольного размера и вычисляла для каждого из них уникальное значение – наподобие тех, что присваивались по методу n-tuple.

Тем временем Вуди, Хелен Чан Вольф и студентка начали изучать, как учитывать наклон головы. Сначала они нарисовали серию пронумерованных маленьких крестиков на левой стороне лица участника эксперимента, от вершины его лба до подбородка. Затем сделали два портрета, на одном из которых человек смотрел вперёд, а на другом – он повернулся на 45 градусов. Проанализировав местоположение крестиков на этих двух изображениях, они могли экстраполировать, как будет выглядеть то же лицо при повороте на 15 или 30 градусов. В конце концов, они могли загрузить в компьютер черно-белое изображение размеченного лица, а на выходе получали автоматически повернутый портрет, который был жутким, точечным и удивительно точным.

Решения исследователей были гениальными, но недостаточно эффективными. Через тринадцать месяцев после начала работы команда Panoramic признала, что им не удалось обучить машину распознать хотя бы одно лицо, не то что десять. Тройная угроза: рост волос, мимика и старение представляет собой «огромный источник разнообразия», – писал Вуди в мартовском отчете 1964 года для Кинг-Херли. По его словам, эта задача «выходит за рамки текущего состояния области распознавания образов и современных компьютерных технологий». При этом Вуди рекомендовал финансировать дополнительные исследования, чтобы попытаться найти «совершенно новый подход» к решению проблемы распознавания лиц.

В течение следующего года Вуди пришёл к выводу, что наиболее многообещающий подход к автоматизированному распознаванию лиц является тот, который сужает область до взаимосвязей между главными элементами: глазами, ушами, носом, бровями, губами. Система, которую он предложил, была похожа на метод французского криминолога Альфонса Бертильона, который он применил в 1879 году. Бертильон описывал людей на основе 11 физических измерений, включая длину левой стопы и длину от локтя до конца среднего пальца. Идея состояла в том, что если провести достаточно измерений, то каждый человек станет уникальным. Метод был трудоёмким, но реализуемым: при помощи него в 1897 году, задолго до того, как снятие отпечатков пальцев стало широко распространенным, французские жандармы идентифицировали серийного убийцу Жозефа Вашера.

На протяжении 1965 года Panoramic пыталась создать полностью автоматизированную систему Bertillon для лица. Команда пыталась разработать программу, которая могла бы определять местонахождение носа, губ и тому подобное, анализируя светлые и тёмные участки на фотографии. Но их постигла неудача.

Тогда Вуди и Вульф занялись исследовать того, что они назвали «человеко-машинным» подходом к распознаванию лиц – методом, который включал бы в уравнение немного человеческой помощи. (Недавно в рассекреченных документах Управления исследований и разработок ЦРУ, в 1965 году упоминается именно такой проект; в том же году Вуди отправил письмо по распознаванию лиц Джону В. Кейперсу, начальнику отдела анализа). К проекту Вуди привлёк своего сына. Грегори и один из его друзей просмотрели 122 фотографии, на которых было изображено около 50 человек, и сделали 22 измерения каждого лица, включая длину уха и ширину рта. Затем Вульф написала программу для обработки данных.

В конце эксперимента компьютер смог сопоставить каждый набор измерений с правильной фотографией. Результаты были скромными, но неоспоримыми: Вульф и Вуди доказали, что система Бертильона теоретически работоспособна.

В конце 1965 года, они приступили к созданию более масштабной версии того же эксперимента, чтобы сделать «человека» в их системе «человек-машина»более эффективным. На деньги King-Hurley они приобрели планшет RAND – устройство стоимостью 18 000 долларов, которое выглядело как планшетный сканер изображений, но работало как iPad. При помощи стилуса исследователь рисовал на планшете и создавать компьютерно-читаемое изображение относительно высокого разрешения.

В этот период Вуди Бледсо, профессор Техасского университета в Остине, создал систему, которая могла вручную получать фотографию лица. Вот как это было:

  • на планшете RAND размечали лицо, забивая координаты областей лица: глаза, нос, рот и линия волос – до 46 точек;
  • специальный алгоритм крутил/вертел/зумировал полученное изображение – совершал до 22 измерений;
  • записанные вручную метрики впоследствии сохранялись в базе данных;
  • при введении в систему новой фотографии человека можно получить наиболее похожее изображение через базу данных.

С распознаванием лица такая система справлялась в 100 раз быстрее, чем человек.

Вуди и его коллеги попросили некоторых студентов просмотреть новую партию фотографий, положив каждую на планшет RAND и определив ключевые особенности с помощью стилуса. Процесс, хотя и оставался трудным, но был намного быстрее, чем раньше: в общей сложности студентам удалось ввести данные примерно для 2000 изображений, включая как минимум два изображения каждого лица. В час обрабатывали порядка 40 снимков.

Даже с таким большим размером выборки команда Вуди с трудом преодолевала обычные трудности. Например, у компьютера все еще были проблемы с улыбками, которые «искажают лицо и резко меняют межлицевые измерения». Как показало собственное лицо Вуди, старение тоже оставалось проблемой. Когда его попросили сопоставить свою фотографию 1945 года с фотографией 1965 года, компьютер не смог это сделать. Он не видел большого сходства между молодым человеком с широкой улыбкой и густыми тёмными волосами и человеком более старшего возраста с мрачным выражением лица и поредевшей шевелюрой.

К этому моменту Вуди устал искать новые контракты для Panoramic и оказался «в нелепом положении, когда то ли слишком много работы, то ли её недостаточно». Он постоянно представлял новые идеи своим спонсорам, некоторые из которых сегодня считаются сомнительными с этической точки зрения. В марте 1965 года – примерно за 50 лет до того, как Китай начнёт использовать сопоставление лицевых образов для идентификации этнических уйгуров в провинции Синьцзян – Вуди предложил Управлению перспективных исследовательских проектов министерства обороны США (Advanced Research Projects Agency – ARPA) поддержать Panoramic в изучении возможности использования черт лица для определения расового происхождения человека. «Существует очень большое количество антропологических измерений, которые были сделаны на людях во всем мире, принадлежащих к разным расовым и экологическим группам», – писал Вуди. «Этот обширный и ценный массив данных, собранных за долгие годы со значительными затратами и усилиями, не использовался должным образом». Неизвестно, согласилась ли ARPA финансировать проект.

Вуди инвестировал тысячи долларов собственных денег в Panoramic без гарантии их возврата. А тем временем его друзья из Техасского университета в Остине уговаривали его поехать туда работать, завлекая стабильной зарплатой. И в январе 1966 года Вуди покинул Panoramic. Вскоре после этого компания закрылась.

С мечтой о создании своего компьютерного человека Вуди переехал с семьёй в Остин, чтобы посвятить себя изучению и обучению автоматизированному мышлению. Но на этом его работа над технологией распознавания лиц не завершилась, его кульминация была не за горами.


В 1967 году, более чем через год после переезда в Остин, Вуди взялся за последнее задание, связанное с распознаванием закономерностей на человеческом лице. Целью эксперимента было помочь правоохранительным органам быстро просеивать базы данных арестованных в поисках совпадений.

Как и прежде, финансирование проекта, судя по всему, поступило от правительства США. В документе 1967 года, рассекреченном ЦРУ в 2005 году, упоминается «внешний контракт» на систему распознавания лиц, что позволило бы в сто раз сократить время поиска. На этот раз, как показывают записи, деньги поступили через посредника; в электронном письме очевидный посредник отказался от комментариев.

Они пришли к выводу, что машина «доминирует» над людьми.

Основным партнёром Вуди по проекту был Питер Харт (Peter Hart), инженер-исследователь Лаборатории прикладной физики Стэнфордского научно-исследовательского института. (Сейчас известный как SRI International. Институт отделился от Стэнфордского университета в 1970 году из-за разногласий в кампусе по поводу сильной зависимости института от военного финансирования). Вуди и Харт начали с базы данных из примерно 800 снимков – по два снимка газетного качества из которых «400 взрослых мужчин европеоидной расы» разного возраста и поворота головы. (Ни в одном из исследований распознавания лиц Вуди не было изображений женщин или цветных людей или ссылок на них). При помощи планшета RAND они записали 46 координат для каждой фотографии, в том числе пять значений для каждого уха, семь для носа и четыре для каждой брови. Основываясь на предыдущем опыте Вуди по нормализации вариаций изображений, они применили математическое уравнение, чтобы повернуть каждую голову в  анфас. Затем, чтобы учесть различия в масштабе, они увеличены или уменьшены каждое изображение до стандартного размера, где опорной метрикой было расстояние между зрачками.

Задача системы состояла в том, чтобы запомнить одну версию каждого лица и использовать её для идентификации другого. Вуди и Харт предложили машине один из двух коротких путей. С помощью первого метода, известного как групповое сопоставление, компьютер разделял лицо на черты – левая бровь, правое ухо и так далее – и сравнивал относительные расстояния между ними. Второй подход основывался на байесовской теории принятия решений, где машина использовала 22 измерения, чтобы сделать обоснованное предположение.

В итоге, обе программы справились с задачей примерно одинаково. Что еще более важно, они оказались лучше соперников-людей. Когда Вуди и Харт попросили трёх человек сопоставить подгруппы из 100 лиц, даже самому быстрому из них понадобилось шесть часов. Компьютер CDC 3800 выполнил аналогичное задание примерно за три минуты, добившись стократного сокращения времени. Вуди и Харт признали, что люди лучше справлялись с поворотами головы и плохим качеством фотосъёмки, но компьютер «намного лучше» справлялся с возрастными изменениями. В целом, они  пришли к выводу, что машина «доминирует» или «почти доминирует» над людьми.

Это был величайший успех Вуди в его исследованиях по распознаванию лиц. Кроме того, это была его последняя работа на эту тему, которую никогда не опубликовали «в интересах государства», о чём Вуди и Харт очень жалели. В 1970 году, через два года после окончания сотрудничества с Хартом, робототехник по имени Майкл Касслер предупредил Вуди, что Леон Хармон (Leon Harmon) из Bell Labs планирует провести исследование по распознаванию лиц. «Меня раздражает, что это второсортное исследование теперь будет опубликовано и окажется, что это лучшая из имеющихся систем человек-машина», – ответил Вуди. «Мне кажется, что при условии усердной работы Леон к 1975 году будет отставать от нас где-то на 10 лет». Он, должно быть, был разочарован, когда несколько лет спустя исследование Хармона попало на обложку журнала Scientific American,  в то время как его собственная, более продвинутая работа оставалась в хранилище.


В последующие десятилетия Вуди завоёвывал награды за вклад в автоматизированные мышления и в течение года занимал должность президента Ассоциации развития искусственного интеллекта. Но его работа по распознаванию лиц в значительной степени оставалась непризнанной и почти забытой, в то время как лавры доставались другим.

В 1970-ые годы с ростом доступности компьютерного оборудования развивается концепция машинного построения трёхмерных образов объектов. Позже появляется возможность обрабатывать изображения в реальном времени для некоторых задач, таких как преобразование телевизионных стандартов.

Тогда же исследователи Хармон, Голдштейн и Леск сделали ручную систему распознавания лица Бледсо более точной, используя 21 маркер лица, включая толщину губ и цвет волос.

В 1973 году японский учёный-программист Такэо Канаде (Takeo Kanade) совершил большой серьезный прорыв в технологии распознавания лиц. Используя то, что тогда было очень редким товаром – базу данных из 850 оцифрованных фотографий, сделанных в основном во время Всемирной выставки 1970 года в Суите (Япония), – Канаде разработал программу, которая могла извлекать черты лица, такие как нос, рот и глаза, без участия человека. Канаде удалось осуществить мечту Вуди об исключении человека из системы «человек-машина».

В 1982 году Вуди был нанят в качестве свидетеля-эксперта по уголовному делу в Калифорнии. Предполагаемый член мексиканской мафии обвинялся в совершении серии ограблений в округе Контра-Коста. У прокурора было несколько улик, в том числе запись с камер наблюдения человека с бородой, в солнцезащитных очках, зимней шапке и длинными вьющимися волосами. Но на фотографиях обвиняемых был изображен чисто выбритый мужчина с короткими волосами. Вуди вернулся к своему исследованию Panoramic, чтобы измерить лицо грабителя банка и сравнить его с фотографиями обвиняемых. К большому удовольствию защитника, Вуди обнаружил, что лица, вероятно, принадлежали двум разным людям, потому что носы различались по ширине.

Только за последние 10 лет технология распознавания лиц научилась работать с несовершенствами, говорит Анил К. Джейн (Anil K. Jain), учёный Мичиганского государственного университета и соредактор Руководства по распознаванию лиц (Handbook of Face Recognition). Почти все препятствия, с которыми сталкивался Вуди, отпали. Во-первых, сейчас существует неисчерпаемый запас оцифрованных изображений. «Вы можете сканировать социальные сети и получать столько лиц, сколько захотите, – говорит Джайн. А благодаря достижениям в области машинного обучения, объёму памяти и вычислительной мощности компьютеры эффективно самообучаются. Используя несколько простых правил, они могут анализировать огромные объёмы данных и создавать шаблоны практически для чего угодно, начиная от человеческого лица и заканчивая пакетом чипсов – никаких замеров с помощью планшета RAND или метода Бертильоне не требуется.

Даже учитывая то, как далеко зашло распознавание лиц с середины 1960 годов, Вуди Бледсо определил многие проблемы, которые ещё предстоит решить. Например, его метод нормализации изменчивости положения, состояния лица по-прежнему используется. По словам Джейн, чтобы сделать распознавание лиц более точным, глубокие сети часто «поворачивают» лицо в анфас с помощью опорных точек на лице для экстраполяции нового положения. И хотя современным системам на основе глубокого обучения программист не ставит явной задачи идентифицировать носы и брови, метод поворота Вуди задал в 1965 году направление развития отрасли на многие десятилетия. «Первые 40 лет доминировал именно метод, основанный на выделении признаков», – говорит Такэо Канаде, в настоящее время профессор Института робототехники Карнеги-Меллона. Теперь в какой-то степени вернулись к тому, что напоминает первые попытки Вуди «разгадать» человеческое лицо, когда он использовал вариацию метода n-tuple для поиска шаблонов похожих в гигантском поле точек данных. По словам Анил Джейн, как бы ни были сложны современные системы распознавания лиц, они просто сравнивают пары изображений и присваивают им оценку схожести.

В 1988 году Майкл Кирби и Лоуренс Сирович из Университета Брауна применили подход Eigenface с использованием линейной алгебры для анализа изображений. Для разметки лиц они применяли менее 100 различных значений, доказав, что этого достаточно для точного кодирования изображения лица.

Но, возможно, самое главное, работа Вуди Бледсо задала этический тон исследованиям в области распознавания лиц, которые были актуальными и проблематичными. В отличие от других технологий, меняющих мир, апокалиптические возможности которых стали очевидны только спустя годы: соцсети, YouTube, квадрокоптеры, потенциальные злоупотребления технологией распознавания лиц были очевидны практически с момента её зарождения в компании Panoramic. Многие предубеждения, которые можно списать на пережитки времени исследований Вуди – выборки почти полностью смещены в сторону белых людей, беззаботное доверие к власти, желание использовать распознавание лиц для различения рас, – всё это продолжает преследовать технологию сегодня.

В 1991 году Алекс Пентланд и Мэтью Терк из Массачусетского технологического института усовершенствовали технологию Eigenfaces, задействуя факторы окружающей среды. Им удалось автоматизировать процесс распознавания.

Весной 1993 года из-за дегенеративного заболевания БАС речь Вуди ухудшилась. Но он продолжал преподавать в Техасском университете до тех пор, пока его речь не стала неразборчивой. Он продолжал свои исследования в области автоматизированного мышления – пока не перестал держать ручку. «Всегда ученый, – писали авторы, – Вуди записывал свою речь на магнитофон, чтобы вести хронику развития болезни». Он умер 4 октября 1995 года. В некрологе Austin American-Statesman не упоминалась его работа по распознаванию лиц. На фотографии в некрологе седовласый Вуди, улыбаясь, смотрит прямо в камеру.

В период 1993-2000х годов Управление перспективных исследовательских проектов при Минобороне США (DAPRA) и Национальный институт стандартов и технологий (NIST) выпустили программу FERET с самой обширной базой лиц — более 14 тыс. изображений. Изначально ее использовали, чтобы находить преступников по всему миру. Затем представили в открытом доступе для стимулирования коммерческого рынка распознавания лиц.

В 2015 году Google представила свою разработку — FaceNet, достигшая рекордной точности в 99,63% благодаря огромному массиву данных, которые собирают сервисы Google. Технологию, в частности, используют в Google Фото для сортировки изображений и автоматических отметок людей на них.

В 2016 году американский ритейлер Amazon, сегодня владеющий сетью магазинов без продавцов и кассиров, начал тестировать систему Just Walk Out.

2 августа 2016 года на конференции в Нью-Йорке Samsung представила новый смартфон Galaxy Note 7 со сканером радужной оболочки глаза, чтобы повысить уровень безопасности доступа к устройству. В самой компании это аргументировали тем, что в отличие от отпечатков пальцев радужную оболочку нельзя дублировать, поскольку она имеет уникальный рисунок.

Тогда же платежные системы MasterCard, Visa и другие финансовые организации начинают включать биометрическую аутентификацию платежей.

В марте 2017 года китайская компания Baidu запускает платформу Face++ для распознавания лица, которая обещала находить совпадения на фотографиях с вероятностью в 99,77%. На сегодняшний день сервис получил широкое распространение в Китае. Любопытно, что в отличие от США граждане КНР относятся к технологиям распознавания лица с меньшим недоверием. Можно сказать, они воспринимают это как данность и неотъемлемый элемент повседневной жизни, смирившись с отсутствием частной жизни в своей стране.

2017 год: Банк России и Ростелеком создают Единую Биометрическую Систему (ЕБС) для сбора у населения двух параметров – голоса и лица – и распознавания личности впоследствии. Роль Ростелеком – разработчик и оператор ЕБС как одного из ключевых элементов механизмов удаленной идентификации.

Драйвером для создания ЕБС стала национальная программа «Цифровая экономика Российской Федерации». В задачи программы в том числе входит повышение доступности безопасных цифровых сервисов для граждан в отдаленных регионах и маломобильного населения.

12 сентября 2017 года компания Apple представила технологию Face ID, заменив дактилоскопический датчик «Touch ID». Всего лишь один взгляд на смартфон и личность подтверждена – iPhone разблокирован, покупка оплачена. Лицо сканируется и сравнивается с ранее записанной структурной картой лица владельца.

Также в 2018 году Amazon активно продвигает свой облачный сервис для распознавания лиц и объектов – Rekognition, которым пользуются правоохранительные органы США. Система умеет распознавать до 100 человек на одном фото и искать их в базах данных, содержащих десятки миллионов лиц.

26 сентября 2018 года на конференции глобальных финансовых технологий Finovate Fall в Нью-Йорке Ак Барс Банк представил технологию оплаты товаров и услуг при помощи лица – Face2Pay.

Основное назначение – совершение покупки или прохода через барьерную область без смартфона, банковской карты и иных традиционных платежных инструментов. Как только пользователь приближается к зоне покупки или контроля, система узнает его по лицу и спишет с карты определенную сумму в рамках лимита или обеспечит свободный проход.

Главное отличие технологии Face2Pay от схожих в том, что она уже интегрирована в платежную инфраструктуру банка.

В 2019 году в ходе тестирования программного обеспечения Amazon Rekognition 28 игроков НФЛ были ошибочно определены как преступники. Спустя несколько дней Американский союз защиты гражданских свобод (ACLU) предъявил иск Министерству юстиции США, ФБР и Управлению по борьбе с наркотиками, чтобы получить информацию об использовании ими технологии распознавания лиц, разработанной Amazon, Microsoft и другими компаниями. В отчёте Национального института стандартов и технологий (NIST) за 2019 год, в котором тестировался код от более чем 50 разработчиков программного обеспечения для распознавания лиц, говорится, что белые мужчины неверно сопоставляются с преступниками реже, чем представители других групп. В 2018 году пара учёных выступила с резкой критикой: «Мы считаем, что технология распознавания лиц является самым опасным механизмом наблюдения, который когда-либо был изобретен».

Апрель 2019 года: VISA представила технологию оплаты с помощью биометрии – SWIP. Продавцу нужно пройти двухфакторную аутентификацию: зарегистрировать ЮЛ в SWIP и у эквайера. А пользователю – зарегистрироваться в приложении, привязав свою банковскую карту, и на кассе уже только предъявить свое лицо.

Октябрь 2019 года: Ростелеком и Банк Русский Стандарт продемонстрировали проведение пилотного биометрического платежа при помощи данных в ЕБС на Форуме инновационных технологий Finopolis.

2020 год: тестирование банкоматов с функцией распознавания лица.

Февраль 2020 года: Ростелеком и Банк Русский Стандарт запустили оплату по биометрии в кофейнях CoffeeBean.

Октябрь 2020 года: ВТБ запустил пилотный проект с использованием биометрии в гипермаркетах Лента.

В марте 2020 года Amazon объявил о продаже Just Walk Out другим торговым сетям.

1 января 2021 года: вступает в силу Федеральный закон об использовании ЕБС для удаленной идентификации при получении финансовых и государственных услуг. Таким образом на данный момент работа ЕБС регулируется 3 законами:

Март 2021 года: Сбербанк и Перекресток внедряют оплату по лицу на кассах самообслуживания.

Март 2021 года: торговая сеть «Пятёрочка» пилотирует технологию оплаты по лицу – с помощью SELFIE2PAY в партнёрстве с ранее отмеченной компанией SWIP. Как описывали выше, покупателю нужно скачать специальное приложение и зарегистрироваться в нем.

15 октября 2021, систему Face Pay для оплаты проезда запустили на всех станциях московского метро.

Система FacePay в московском метро
Система FacePay в московском метро Фото РБК

Мировая карта применения технологии распознавания лиц

Британская компания Surfshark составила карту использования технологии распознавания лиц на государственном уровне в 194 странах мира.

Странам был присвоен 1 из 5 статусов в зависимости от того, как они приняли технологию: в использовании, одобрена для использования (не внедрена), рассматривается, нет данных об использования, запрещена.

В общей сложности сегодня насчитывается 109 стран, которые либо используют, либо одобрили использование технологии распознавания лиц для целей наблюдения. В большинстве таких стран есть национальные базы данных и локальные алгоритмы.

Любопытно, что Бельгия является единственной страной, где публичное использование этой технологии объявлено незаконным. А многие национальные правительства и их граждане находятся в разгаре глобальных дебатов по поводу этики и законности массовой слежки.

Источник: https://surfshark.com/facial-recognition-map