Синтетические биометрические данные решат проблемы ИИ

Потребуются годы разработки и тестирования, одобрения регулирующих органов, лучшие таланты, гигантские раунды финансирования, маркетинговый ажиотаж и этические обзоры, но для поиска этого аспекта будет написан продвинутый алгоритм.

Сегодня отрасль, включая игроков в распознавание биометрии, развивает идею создания синтетических данных, чтобы обойти проблемы конфиденциальности и предвзятости в наборах данных.

Хотя предполагается, что эта концепция будет также работать с любой категорией данных, которая может привести к идентификации человека или искажению коммерческих операций, например, в финансовом секторе.

Новая статья в MIT Technology Review рассматривает не логическую и запутанную тему и точно указывает на то, насколько полезной может быть эта техника.

В одном примере того, как это используется сейчас, описывается история, как компания Datagen нанимает других поставщиков для детального цифрового сканирования добровольцев, чтобы обучить алгоритмы компьютерного зрения.

В марте Datagen привлекла 18,5 миллионов долларов венчурного финансирования. Недавно израильский стартап получил хорошие оценки в проведенном аналитической компанией StartUs Insights анализе рынка.

Располагая необработанными данными, Datagen использует несколько алгоритмов для создания трехмерных аватаров. Хотя они, не являются аватарами, несмотря на то, что каждый цифровой бюст выглядит в точности как обычный глиняный или резиновый аватар.

Это также не анонимизация реальных данных. Каждый синтетический образ построен на реальных биометрических данных, относящихся к реальному человеку: геометрии лица, радужная оболочка глаз, тела, походка, предположительно отпечатки пальцев.

Сообщается, что Datagen генерирует выражение лица, чтобы тренировать алгоритмы, которые должны выявлять сонливое или иное невнимательное вождение. В этом случае люди согласились на оцифровку своего образа, поэтому проблем с конфиденциальностью практически нет.

Другие виды использования могут привести к нарушениям конфиденциальности, когда методы генерации настолько близко отражают объект, что анонимность становится маловероятной. И, как указал в статье профессор информационных технологий Пенсильванского университета, чтобы раскрыть фактические личности, обучающие данные могут быть так же атакованы как любая база данных.

Что касается систематической ошибки, то наборы данных, заполненные синтетическими методами, могут быть искажены так же легко, как и обычные наборы данных.

Как и во многих других областях современной реальной жизни, для решения этой проблемы существует приложение. Это просто вопрос времени и денег, когда оно появится на домашней странице телефона.

По материалам Biometrics Research Group. Автор Jim Nash

Добавить комментарий

Ваш адрес email не будет опубликован.