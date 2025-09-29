Компания Google DeepMind анонсировала две новые модели искусственного интеллекта для робототехники: Gemini Robotics 1.5 и Gemini Robotics-ER 1.5. Эти модели реализуют подход, при котором роботы сначала «обдумывают» задачу, а затем выполняют действие. Данная технология, основанная на генеративных ИИ-системах, направлена на преодоление ограничений современных роботов, требующих длительной настройки под каждую конкретную задачу. Генеративные ИИ-системы, способные создавать текст, изображения, аудио и даже видео, становятся все более распространенными.

По аналогии с тем, как такие модели генерируют указанные типы данных, они также могут выстраивать последовательности действий для роботов. Проект Gemini Robotics от Google DeepMind включает две дополняющие друг друга модели, позволяющие роботам «думать» перед тем, как совершать действия. Несмотря на существующие ограничения традиционных больших языковых моделей (LLM), внедрение симулированного рассуждения значительно расширяет их возможности, и аналогичный прорыв ожидается в области робототехники.

Команда Google DeepMind уверена, что генеративный ИИ способен кардинально трансформировать робототехнику, обеспечивая роботам универсальную функциональность. В отличие от существующих систем, требующих месяцев для настройки на одну узкоспециализированную задачу, новые ИИ-решения позволяют роботам работать в непривычной среде без необходимости перепрограммирования. Как отметила Каролина Парада, руководитель направления робототехники в DeepMind, современные роботы являются «чрезвычайно специализированными и сложными в развертывании».

Для внедрения данного концепта DeepMind разработала модели Gemini Robotics-ER 1.5 и Gemini Robotics 1.5. Первая из них представляет собой модель «зрение–язык» (VLM) с функцией «воплощенного рассуждения» (embodied reasoning), которую можно использовать для анализа визуальных и текстовых данных, формирования пошагового плана выполнения задач и подключения внешних инструментов, таких как поиск Google, для уточнения контекста. Вторая модель «зрение–язык–действие» (VLA) превращает полученные инструкции в физические действия робота, корректируя их на основе визуальной обратной связи и собственного процесса обдумывания каждого шага. По словам Канишки Рао из DeepMind, важным прорывом стало наделение робота способностью имитировать интуитивные человеческие рассуждения, то есть мыслить перед выполнением действий.

Разработчики наглядно продемонстрировали, как работают новые модели: гуманоидный робот Apollo, оснащенный Gemini Robotics 1.5, на видео упаковывает вещи для поездки, а робот Aloha 2 (точнее, пара его манипуляторов) сортирует мусор. Обе модели основываются на архитектуре Gemini, но дополнительно дообучены на данных, отражающих взаимодействие с физическим миром. Это позволяет роботам выполнять сложные многоэтапные задачи, приближая их к уровню автономных агентов.

При этом система демонстрирует кроссплатформенную совместимость: навыки, внедренные в одного робота, например в двуруком Aloha 2, могут быть перенесены на другого, включая гуманоидный Apollo, без дополнительной настройки под конкретную механику. Несмотря на возможный технологический прорыв, практическое применение данной технологии в настоящее время ограничено. Модель Gemini Robotics 1.5, отвечающая за управление роботами, доступна только надежным тестировщикам. В то же время Gemini Robotics-ER 1.5 уже интегрирована в Google AI Studio, что дает разработчикам возможность генерировать инструкции для собственных экспериментов с физическими роботами. Однако, как считает Райан Уитвам из Ars Technica, до появления бытовых роботов, способных выполнять повседневные задачи, еще предстоит преодолеть значительное расстояние.