Microsoft презентовала VibeVoice — инновационный проект с открытым исходным кодом в области искусственного интеллекта. Эта система синтеза речи позволяет создавать аудиоподкасты до 90 минут из текста на английском или китайском языке.

Технология уже доступна для тестирования. VibeVoice — это новаторский фреймворк, специально разработанный для генерации продолжительного аудиоконтента с участием нескольких голосов. Он эффективно решает давние проблемы традиционных TTS-систем, такие как масштабируемость, согласованность звучания и естественность диалогов. Для тестирования предлагаются две версии ИИ-модели, способные генерировать до 90 и 45 минут аудио соответственно.

Хотя на данный момент поддерживаются только английский и китайский, Microsoft планирует расширить языковую поддержку. Система умеет передавать эмоции и управлять сменой реплик, создавая естественные диалоги, однако воспроизведение музыки и идеальная натуральность голоса пока остаются вызовами.

В перспективе рассматривается возможность клонирования голоса. Разработчики отмечают, что потоковая версия VibeVoice может быть напрямую интегрирована в чат-ассистенты, функционируя без необходимости использования внешних серверов. Все необходимые ресурсы доступны в репозиториях GitHub и Hugging Face.