Исследователи Apple представили модель искусственного интеллекта SHARP, способную создавать трёхмерное представление сцены всего по одной фотографии менее чем за секунду. Технология описана в статье «Чёткий монокулярный синтез изображения менее чем за секунду» и может найти применение в дополненной реальности, компьютерной графике и мобильных приложениях.

В отличие от традиционных методов, требующих десятков снимков с разных ракурсов, SHARP использует трёхмерные «функции Гаусса» — небольшие размытые пятна цвета и света, расположенные в пространстве. Модель анализирует единственное изображение, оценивает глубину сцены и предсказывает положение миллионов таких пятен, формируя объёмное представление, которое выглядит реалистично при небольшом смещении точки обзора.

Для обучения SHARP применялись как синтетические, так и реальные данные, что позволило ИИ изучить общие закономерности геометрии и перспективы. Однако у технологии есть важное ограничение: она точно воспроизводит только близкие к исходнику ракурсы и не дорисовывает части сцены, скрытые на оригинальной фотографии. Это компромисс, позволивший достичь высокой скорости работы — менее секунды на обработку.

Исходный код модели уже опубликован на GitHub. В демонстрациях SHARP успешно работала не только со статичными изображениями, но и с видео, создавая 3D-сцены на основе отдельных кадров.

Разработка открывает новые возможности для быстрого создания 3-мерного контента без специализированного оборудования, что особенно актуально для мобильных платформ и AR-приложений.