
Лаборатория Google Deepmind представила две новые модели ИИ, которые помогут роботам лучше понимать физический мир, взаимодействовать с людьми и выполнять сложные задачи.
Первая модель, Gemini Robotics, является усовершенствованной моделью Vision-Language-Action, которая разработана специально для прямого управления роботами. Она распознает изображение с камер и других сенсоров (Vision), воспринимает команды пользователя и выстраивает стратегию действий (Language), и, наконец, формирует команды для актуаторов (Action).
Система преодолевает разрыв между цифровыми возможностями ИИ и взаимодействием с физическим миром. В процессе тестирования Gemini Robotics показала, что может справляться с незнакомыми ситуациями, которых не было во время обучения. Кроме того, система постоянно контролирует окружающую среду, мгновенно корректируя ее при возникновении проблем — когда кто-то переставляет предметы или же если предмет выскальзывает из рук.
Вторая модель, Gemini Robotics-ER (от "embodied reasoning" – "воплощенное мышление"), еще больше расширяет возможности за счет улучшенного пространственного понимания. Она объединяет объемное восприятие с навыками программирования для создания новых способностей "на лету". Например, при встрече с кофейной кружкой система может точно рассчитать, как взяться за ручку двумя пальцами, и определить наиболее безопасную траекторию для этого. По мнению Google Deepmind, Robotics-ER справляется с задачами по управлению роботом в два-три раза лучше стандартной Gemini 2.0.
При разработке большое внимание было уделено безопасности. Модели тестировали на наборе данных ASIMOV (в честь Айзека Азимова, автора "трех законов робототехники"). Модель вырабатывает ответы, критикует их согласно правилам и дорабатывает, минимизируя возможный вред.

Горячие темы