Представлена ИИ-модель Xiaomi-Robotics-0

Компания Xiaomi презентовала модель искусственного интеллекта с открытым исходным кодом под названием Xiaomi-Robotics-0. Это унифицированная система, объединяющая визуальные и языковые компоненты с модулем действий и насчитывающая 4,7 миллиарда параметров.

По словам разработчиков, такая конфигурация образует ядро так называемого физического интеллекта: одновременное восприятие окружающего мира, понимание инструкций на естественном языке и способность выполнять действия в реальном времени. Модель уже зафиксировала несколько рекордов в симуляциях и в реальных испытаниях. ИИ-модели для роботов обычно работают по циклу «восприятие — решение — выполнение».

Xiaomi-Robotics-0 создана, чтобы сочетать широкое понимание с точным управлением моторикой. Для этого применена архитектура Mixed Transformer — Mixture-of-Transformers (MoT), которая распределяет задачи между двумя основными компонентами. Первый компонент — визуально-языковая модель (VLM), выступает «мозгом» системы. Она обучена интерпретировать команды пользователя, даже расплывчатые, и учитывать пространственные отношения по изображениям высокого разрешения. Задачи VLM включают распознавание объектов, ответ на визуальные вопросы и логические выводы.

Второй компонент — Action Expert, оснащённый Diffusion Transformer (DiT). Он не ограничивается выполнением одного действия за раз: он генерирует последовательность действий, применяя методы сопоставления потоков, что обеспечивает точность и плавность движений. Одна из слабых сторон традиционных VLM — снижение некоторых навыков при обучении непосредственным физическим операциям. Инженеры Xiaomi решили этот риск: модель обучали на мультимодальных данных и данных об действиях одновременно, чтобы сохранить и развить и восприятие, и двигательные навыки.

Процесс обучения включает несколько этапов: сначала механизм «предложения действий» заставляет VLM предсказывать вероятные наборы действий на основе изображений, затем VLM временно отключают, чтобы DiT обучался генерации точных последовательностей действий из шума по ключевым признакам, а не по дискретным языковым токенам. Чтобы нивелировать задержку между прогнозами модели и движениями робота, реализована асинхронная архитектура вывода: вычисления модели и исполнительные действия робота идут параллельно, движения остаются плавными, даже если мозг требует дополнительного времени на обдумывание.

Для стабильности применяется Clean Action Prefix — возврат к ранее предсказанному действию, что исключает рывки, и маска внимания фокусирует модель на текущем визуальном ряде, снижая влияние прошлых состояний.