Google DeepMind выпустила новую версию ИИ-модели Gemini Robotics для роботов

Google DeepMind представила Gemini Robotics On-Device — автономную версию своей ИИ-модели для роботов. Эта модель «зрение-язык-действие» (VLA), подобно мартовской версии Gemini Robotics, позволяет роботам выполнять сложные физические задачи.

Ключевое отличие — компактность и эффективность, обеспечивающие работу непосредственно на борту робота без подключения к интернету. Обучение роботов традиционными методами, например, с помощью подкрепления, крайне трудоёмко. Gemini Robotics On-Device решает эту проблему благодаря генеративному ИИ, обеспечивая высокую степень обобщения.

Модель позволяет роботам адаптироваться к новым ситуациям, понимать и выполнять голосовые команды, а также справляться с точными манипуляциями. По словам руководителя отдела робототехники Google DeepMind Каролины Парады (Carolina Parada), в отличие от гибридной оригинальной модели Gemini Robotics, способной работать как автономно, так и в облаке, новая версия полностью автономна и обеспечивает практически аналогичный функционал без интернет-подключения.

Gemini Robotics On-Device, по заявлению разработчиков, демонстрирует впечатляющую универсальность. Система способна решать широкий спектр задач без дополнительной настройки, а адаптация к новым сценариям требует всего 50-100 демонстраций в симуляторе MuJoCo. Первоначально обученная на роботах Google ALOHA, модель успешно перенесена на другие платформы, включая гуманоидного робота Apptronik Apollo и манипулятор Franka Emika FR3. Результаты испытаний, проведенных Google, показали, что Franka FR3 успешно выполнил новые задачи, включая сборку на промышленном конвейере, с объектами, с которыми ранее не взаимодействовал.