Apple разработала ИИ, который создаёт 3D-объекты из фото

Команда Apple по машинному обучению в сотрудничестве с исследователями из Нанкинского университета и Гонконгского университета науки и технологий разработала 3D-ИИ-модель под названием Matrix3D.

Эта модель позволяет воссоздавать 3D-объекты и сцены всего на основе нескольких 2D-фотографий. Matrix3D классифицируется как большая фотограмметрическая модель (Large Photogrammetry Model). Фотограмметрия использует фотографии для извлечения информации об объектах и проведения измерений, что помогает создавать 3D-модели или карты. В настоящее время этот процесс включает использование различных моделей для оценки позы и прогнозирования глубины, что может иногда приводить к неточностям.

Однако Matrix3D позволяет выполнять все эти операции одновременно. Она учитывает изображения, параметры камеры (такие как угол и фокусное расстояние), данные о глубине и обрабатывает их с использованием единой архитектуры. Это не только упрощает процесс, но и увеличивает точность.

Для обучения Matrix3D была применена стратегия маскированного обучения, в рамках которой исследователи скрывали часть данных, что способствовало тому, чтобы модель научилась заполнять пробелы. Этот подход является важным, поскольку он позволяет эффективно обучать модель даже с меньшими или неполными наборами данных.

Таким образом, имея всего три входных изображения, Matrix3D способна генерировать детализированные 3D-реконструкции объектов и даже целых окружающих сред. Это может быть востребовано в иммерсивных гарнитурах, таких как Apple Vision Pro. Исследователи разместили исходный код Matrix3D на GitHub и создали веб-сайт, где можно подробнее ознакомиться с возможностями этой новой ИИ-модели.