Использование синтетических данных вместо лиц реальных людей для обучения систем распознавания лиц набирает обороты среди биометрических компаний по всему миру. Университет в Далласе, штат Техас, теперь хочет создать одну из крупнейших сбалансированных синтетических баз данных для распознавания лиц.
Южный методистский университет (SMU) планирует создать базу данных изображений лиц из текстовых описаний с помощью высокопроизводительной вычислительной платформы, специально разработанной для искусственного интеллекта, под названием Nvidia DGX SuperPod. Цель состоит в том, чтобы решить проблемы предвзятости и другие этические проблемы, которые возникают в области распознавания лиц, путём создания разнообразных изображений, которые могут обучать модели искусственного интеллекта.
Проектом руководит исследователь Кори Кларк и его команда из лаборатории интеллектуальных систем и предвзятости SMU (ISaBEL). Помимо влияния на то, как алгоритмы распознавания лиц распознают расу и пол, синтетическая база данных призвана решить вопрос этичного сбора и использования биометрических данных от реальных людей, говорится в сообщении университета.
«Попытки создать набор данных, основанный на реальном мире, для обучения любой модели искусственного интеллекта сопряжены с определёнными ограничениями. Чтобы получить его с этической точки зрения, вы должны решить такие проблемы, как согласие, справедливость и соблюдение законодательства. Синтетические данные, генерируемые SuperPod, устраняют эти препятствия»
Говорит Кларк, доцент кафедры компьютерных наук в инженерной школе Лайла и заместитель директора по исследованиям в SMU Guildhall
Университет также планирует запустить программу сертификации bias для оценки систем искусственного интеллекта компаний, которая будет использоваться для разработки будущих моделей в соответствии с потребностями.
SMU сотрудничает с Nvidia с 2021 года, когда компания помогла расширить объём памяти суперкомпьютера университета, что привело к 25-кратному увеличению скорости и эффективности искусственного интеллекта и машинного обучения. Университет основал свою лабораторию ISaBEL в сентябре 2021 года, а Pangiam стала его первым отраслевым партнёром.
Кларк говорит, что огромное количество изображений, созданных для их наборов данных, было бы невозможно без SuperPod.
«Распознавание лиц существует и никуда не денется. Спрос на эти более крупные обучающие наборы данных имеет решающее значение для улучшения систем [распознавания лиц], чтобы они обеспечивали справедливые результаты. Благодаря нашей методологии и использованию SuperPod мы генерируем наборы данных, которые ранее было нелегко получить, и делаем это быстро и этично»
Говорит Кларк
Компании от Amazon до Innovatrics и IDVerse используют синтетические данные в качестве решения проблем предвзятости и конфиденциальности при обучении биометрическим алгоритмам. Эксперты, однако, предупреждают, что его следует осторожно использовать при обучении распознаванию лиц, поскольку он также может быть подвержен потенциальным искажениям.
По материалам Biometrics Research Group. Автор Masha Borak