Компания Alibaba представила новую языковую модель Qwen3-Omni, обладающую принципиально новой архитектурой, изначально разработанной для полной мультимодальности. Это означает, что Qwen3-Omni может обрабатывать текст, изображения, аудио и видео материалы в рамках одной модели без необходимости переключения между режимами и инструментами.

Достижение мультимодальности в Qwen3-Omni обусловлено сложной гибридной архитектурой, включающей следующие компоненты:

⦁ Текстовый декодер с функцией прогнозирования кода, который обеспечивает авторегрессионную генерацию семантических и акустических токенов для создания бесшовного мультимодального контента.

⦁ Встроенная система распознавания речи на основе Qwen3-ASR, гарантирующая высокую точность благодаря адаптивным алгоритмам обучения и обеспечивающая надежное распознавание различных акцентов и интонационных паттернов. Данная система поддерживает 119 языков и диалектов, что делает её универсальным решением для международного применения.

⦁ Двухкомпонентная система "Thinker-Talker", где модуль Thinker отвечает за обработку всех типов входных данных и создание высокоуровневых представлений, в то время как компонент Talker генерирует потоковые речевые токены для вывода звука в реальном времени.

Оба модуля реализованы на базе технологии MoE, что обеспечивает повышенную эффективность и масштабируемость.

Кроме того, Alibaba представила три конфигурации модели Qwen3-Omni для оптимизации выполнения различных задач:

⦁ Qwen3-Omni-30B-A3B-Instruct предназначена для мультимодальных задач, требующих детального следования инструкциям.

⦁ Qwen3-Omni-30B-A3B-Thinking предназначена для решения сложных задач, требующих глубоких размышлений и аналитической обработки.

⦁ Qwen3-Omni-30B-A3B-Captioner ориентирована на универсальную аудиообработку с минимальным уровнем искажения.

Qwen3-Omni доступны по лицензии Apache 2.0 на платформах Hugging Face, GitHub и ModelScope. Для развертывания рекомендуется использовать движок vLLM с полной совместимостью с FlashAttention 2.