Программисты из подразделений Google Brain и Google Research работают над искуственным интеллектом на основе машинного обучения Neural Radiance Fields for Unconstrained (NeRF). Цель этой нейросети создавать 3D-анимацию из фотографий.
Помимо этого, система удаляет со снимков случайных прохожих, выравнивает экспозицию, тон и цвета. Это позволяет быстро создать 3D-рендеры, где можно выбрать точки обзора, отрегулировать свет и так далее.
Уже воссозданы 3D-модели Бранденбургских ворот в Берлине, базилики Сакре-Кёр в Париже и Фонтана Треви в Риме. Для этого они использовали только фотографии с сайтов вроде Flickr. В результате у исследователей получились детальные 3D-рендеры локаций с возможностью выбрать точку обзора вручную и изменить освещение в сцене.
NeRF-W основана на NeRF — первоначальной работе исследователей, которая позволяла делать то же самое, но работала нормально только в строго заданных контрольных условиях. Технология строит карты глубины резкости с помощью нейросетей, а потом синтезирует объёмную сцену с помощью прямого 3D-рендеринга.
Для корректного освещения и пост-обработки авторы использовали низкополигональную проекцию: это не только позволило моделировать освещение для конкретной фотографии, но ещё и смоделировать освещение сцены с новых углов. Для удаления посторонних объектов, которые могли попасть в кадр, использовали построение вторичной карты глубины, которая позволила отделить случайные объекты от нужных.
Создатели NeRF говорят, что над ним еще надо много работать и особенно над качеством распознавания. Потому что сейчас он может не принять или сделать коряво разные снимки одного и того же места, сделанных с одинакового ракурса и никто не может понять почему так происходит.