Adobe выпустила бесплатный инструмент, который позволяет радикально очищать аудио от фонового шума и улучшать качество записи. Как именно он работает, компания не раскрывает.
Радикальная очистка
Компания Adobe выпустила новый ИИ-инструмент для работы с аудио. Программа Enhance Speech предназначена для очистки записей речи от постороннего шума и общего улучшения их качества. В результате даже запись, сделанная на средний по качеству диктофон, в итоге будет звучать так, будто выполнена в профессиональной студии. По крайней мере, так утверждают разработчики.
Что удивительно, инструмент бесплатный, хотя для его использования потребуется создать аккаунт на сайте Adobe.
Как указывается в публикации Ars Technica, Enhance Speech отпочковался от более масштабного исследовательского проекта ProjectShasta, позднее переименованного в Adobe Podcast.
Лучше всего себя проявляет браузерная версия Enhance Speech. После регистрации пользователи могут загружать файл MP3 или WAV продолжительностью до одного часа или объёмом до 1 гигабайта. Процесс очистки и улучшения занимает несколько минут.
При тестировании журналистами Ars Technica выяснилось, что Enhance Speech лучше всего работает с записями, где слышен только один голос, а уровень шума остаётся более-менее умеренным. Запись на встроенный микрофон ноутбука Apple с расстояния около трёх метров и с шумящим рядом вентилятором в итоге выглядела так, будто её делали на профессиональный магнитофон в полностью заглушенной студии.
Как это работает
Adobe не раскрывает деталей того, как работает их система. В ArsTechnica предполагают, что ИИ обучали на многочасовом массиве данных, включавшем как чистые, так и зашумлённые записи. Итоговая модель позволяет системе вычленять частоты человеческого голоса и синтезировать точную копию всего, что было произнесено.Между тем, сотрудники издания Hacker News при тестировании Enhance Speech на очень шумных записях получили довольно странные результаты, такие, например, как звук посторонних голосов, проступивших на записи, сделанной рядом с водопадом. Записи, сделанные на других языках, нежели английский, также выдавали «призрачные голоса».
Но это указывает, что ИИ производит какой-то более сложный процесс, нежели математическое вычитание шума из записи.
«Логично, что именно Adobe выпустила такой инструмент. В её арсенале уже много лет присутствует пакет под названием Adobe Audition, купленный у другой фирмы в начале 2000-х. Одним из его наиболее знаменитых достоинств является высокоэффективная модель вычитания шума из аудиозаписей по заданному профилю. Эту функцию пакет унаследовал от оригинальных разработчиков. Но такой подход имеет свои серьёзные ограничения. ИИ, применяющий ресинтез речи, будет справляться с задачей устранения шума, намного эффективнее, хотя и здесь, скорее всего, будут свои проблемы»
Говорит Алексей Водясов, технический директор компании SEQ
Enhance Speech — не первый инструмент, который предлагает возможность удаления шума с применением ИИ-моделей. Уже некоторое время существуют открытый пакет mayavoz и коммерческий сервис Audo Studio, которые способны давать сходные результаты.
Enhance Speech — это лишь один элемент целой группы ИИ-инструментов Adobe, нацеленных на подкастеров. Кроме него туда входят ещё одна бесплатная разработка MicCheck и инструмент для редактирования аудио на основе стенограммы, который всё ещё проходит бета-тестирование и доступен только по приглашению.
По материалам cNews. Автор Роман Георгиев