Tencent выпустила ИИ-модель, которая создаёт 3D-миры по одному изображению

Китайская компания Tencent представила новую модель искусственного интеллекта с открытым исходным кодом под названием HunyuanWorld-Voyager. Данная модель позволяет генерировать 3D-видеоряд на основе одного исходного изображения, управляя траекторией камеры для «изучения» виртуальных сцен. Алгоритм одновременно создает видео в формате RGB и данные о глубине (RGB-D), что позволяет выполнить 3D-реконструкцию без применения традиционных методов моделирования.

Хотя результаты работы HunyuanWorld-Voyager не являются настоящими 3D-моделями, они создают аналогичный эффект. ИИ-алгоритм генерирует 2D-видеокадры, которые сохраняют пространственную согласованность, как если бы камера перемещалась в реальном 3D-пространстве. В каждом сгенерированном видеоролике создаётся 49 кадров, что составляет около двух секунд видео.

Согласно информации от Tencent, несколько таких клипов можно объединить в последовательности продолжительностью «несколько минут». Объекты сохраняют своё положение при движении камеры, а перспектива изменяется корректно, как будто это происходит в настоящей 3D-среде. Хотя итоговый результат — это видео с картами глубины, а не полноценные 3D-модели, эти данные могут быть преобразованы в 3D-облака точек для дальнейшей реконструкции. Модель работает, основываясь на одном исходном изображении и заданной пользователем траектории камеры. Пользователь может указать движение камеры вперед, назад, влево, вправо или поворот, для чего предусмотрен интерфейс управления. Система объединяет данные изображения и глубины с другими параметрами для формирования видеоряда, который отражает заданное пользователем движение камеры.

Одним из основных ограничений всех ИИ-моделей на базе архитектуры Transformer является то, что они в основном имитируют паттерны, найденные в обучающих данных, что ограничивает их возможности в плане «обобщения» — применения этих шаблонов в новых ситуациях, которые не были представлены в обучении. Для обучения HunyuanWorld-Voyager исследователи использовали более 100 тысяч видеоклипов, в том числе компьютерные сцены, созданные на движке Unreal Engine. По сути, они обучали ИИ-алгоритм имитировать движение 3D-камеры в среде видеоигр.

Согласно данным Tencent, HunyuanWorld-Voyager функционирует на основе двух основных компонентов, которые действуют совместно. Во-первых, система одновременно генерирует цветное видео и информацию о глубине, чтобы гарантировать их точное совпадение. Во-вторых, используется «глобальный кэш» — растущая коллекция 3D-точечных моделей, созданных на основе ранее сгенерированных кадров. В процессе генерации новых изображений это облако 3D-точек преобразуется обратно в 2D с нового ракурса камеры, создавая картинки, которые отражают то, что должно быть видно на основе предыдущих кадров. Затем модель проверяет эти проекции на согласованность, чтобы обеспечить соответствие новых кадров уже созданным.

Для корректной работы HunyuanWorld-Voyager необходимы значительные вычислительные ресурсы. Tencent рекомендует иметь как минимум 60 Гбайт видеопамяти для генерации 3D-сцен с разрешением 540p и 80 Гбайт для повышения качества изображений. Получить доступ к исходному коду модели ИИ и сопутствующей документации можно на платформе Hugging Face. Как и другие модели из семейства Hunyuan, новый алгоритм сопровождается серьезными лицензионными ограничениями. Например, лицензия запрещает использование HunyuanWorld-Voyager в Европейском Союзе, Великобритании и Южной Корее. Кроме того, коммерческое использование, предполагающее обслуживание более 100 миллионов пользователей в месяц, требует отдельного лицензирования.