Google представила Veo 3 — первый ИИ-генератор видео со звуком

На конференции Google I/O 2025 компания представила Veo 3, новейшую ИИ-модель, которая генерирует не только видео по текстовым описаниям, но и создает реалистичное звуковое сопровождение, что отличает её от существующих аналогов. Алгоритм понимает содержание кадров и создает звук без дополнительных указаний. Для защиты от дипфейков все сгенерированные ролики будут отмечены невидимыми водяными знаками. Veo 3 умеет создавать звуковые эффекты, фоновые шумы и даже диалоги, синхронизируя их с изображением.

Глава Google DeepMind Демис Хассабис отмечает, что пользователи могут указывать не только описание персонажей и окружения, но и особенности звучания реплик. Источник данных для обучения Veo 3 не раскрывается, но TechCrunch предполагает, что использовались материалы YouTube, учитывая заявление Google о возможности использования контента платформы для обучения ИИ.

Несмотря на перенасыщенность рынка генеративного видео (Runway, OpenAI, Alibaba и др.), Google предлагает уникальную функциональность – полноценное звуковое сопровождение. Разработанная DeepMind технология «видео-в-аудио» анализирует пиксели видео и автоматически подбирает соответствующее аудио. Для борьбы с дезинформацией все ролики получают невидимую метку SynthID.

Однако появление Veo 3 вызывает обеспокоенность у художников и мультипликаторов. Исследование Гильдии аниматоров Голливуда предполагает, что к 2026 году около 100 тысяч рабочих мест в кино, телевидении и анимации в США могут быть потеряны из-за ИИ. Эксперты считают, что Veo 3 может стать серьезным игроком на рынке, если Google обеспечит обещанное качество звука. Модель уже доступна в приложении Gemini для подписчиков тарифа AI Ultra ($249 в месяц).