
Компания Google представила предварительную версию своей новой ИИ-модели Gemini 2.5 с функцией Computer Use, которая способна взаимодействовать с веб-сайтами через браузер, имитируя действия пользователя. Эта модель использует визуальное восприятие и логическое мышление для выполнения различных задач, таких как заполнение и отправка форм без применения API или других программных интерфейсов.
Как сообщает The Verge, Gemini 2.5 Computer Use разработана специально для работы с пользовательскими интерфейсами, ориентированными на людей, а не на автоматизированные системы. Google утверждает, что технологии уже использовались в агентских функциях AI Mode и исследовательском прототипе Project Mariner, где ИИ-агенты самостоятельно выполняли операции в браузере, такие как добавление товаров в корзину на основе списка ингредиентов. Интересно, что анонс новой модели произошёл всего через день после того, как OpenAI представила новшества для ChatGPT на ежегодном мероприятии Dev Day, продолжив развитие функции ChatGPT Agent, способной выполнять сложные задачи от имени пользователей.
Напоминаем, что компания Anthropic уже в прошлом году выпустила версию модели Claude с функцией Computer Use. Однако Google утверждает, что их модель «превосходит ведущие аналоги по нескольким веб- и мобильным бенчмаркам». В отличие от ChatGPT Agent и инструмента Anthropic, Google Gemini 2.5 Computer Use имеет доступ только к браузеру, а не ко всей операционной системе. Представители компании подчеркнули, что решение «пока не оптимизировано для управления на уровне десктопной ОС» и поддерживает 13 действий, включая открытие веб-браузера, ввод текста и перетаскивание элементов.
Согласно информации, модель уже доступна разработчикам через платформы Google AI Studio и Vertex AI. Кроме того, публичная демонстрация доступна в виртуальном браузере BrowserBase, где можно наблюдать, как ИИ выполняет задачи, такие как «сыграть в игру 2048» или «просмотреть Hacker News в поисках обсуждаемых тем».





