ИИ от Apple создаёт 3D-сцену из одной фотографии за секунду

Apple представила ИИ-модель, которая создаёт 3D-сцену из одной фотографии за секунду

Новая технология SHARP использует «функции Гаусса» для быстрого построения трёхмерного представления, но пока не дорисовывает скрытые части объектов.

Исследователи Apple представили модель искусственного интеллекта SHARP, способную создавать трёхмерное представление сцены всего по одной фотографии менее чем за секунду. Технология описана в статье «Чёткий монокулярный синтез изображения менее чем за секунду» и может найти применение в дополненной реальности, компьютерной графике и мобильных приложениях.

В отличие от традиционных методов, требующих десятков снимков с разных ракурсов, SHARP использует трёхмерные «функции Гаусса» — небольшие размытые пятна цвета и света, расположенные в пространстве. Модель анализирует единственное изображение, оценивает глубину сцены и предсказывает положение миллионов таких пятен, формируя объёмное представление, которое выглядит реалистично при небольшом смещении точки обзора.

Для обучения SHARP применялись как синтетические, так и реальные данные, что позволило ИИ изучить общие закономерности геометрии и перспективы. Однако у технологии есть важное ограничение: она точно воспроизводит только близкие к исходнику ракурсы и не дорисовывает части сцены, скрытые на оригинальной фотографии. Это компромисс, позволивший достичь высокой скорости работы — менее секунды на обработку.

Исходный код модели уже опубликован на GitHub. В демонстрациях SHARP успешно работала не только со статичными изображениями, но и с видео, создавая 3D-сцены на основе отдельных кадров.

Разработка открывает новые возможности для быстрого создания 3-мерного контента без специализированного оборудования, что особенно актуально для мобильных платформ и AR-приложений.