
Alibaba представила упрощённую модель искусственного интеллекта Qwen2.5-Omni-3B, основанную на архитектуре предыдущего поколения, которая предназначена для автономной работы на ПК и ноутбуках потребительского уровня. Qwen2.5-Omni-3B представляет собой уменьшенный вариант флагманской модели, обладающей 7 миллиардами параметров.
Несмотря на уменьшенный размер, эта версия сохраняет более 90% мультимодальной производительности и способна обеспечивать генерацию как текстового контента, так и естественной речи в онлайн-режиме. Разработчикам удалось значительно повысить эффективность использования памяти видеоускорителя.
На модель Qwen2.5-Omni-3B потребление видеопамяти было снижено на 50% при работе с длинными контекстами объемом до 25 тысяч лексем. Оптимизация настроек позволила уменьшить потребление памяти с 60,2 Гбайт у модели с 7 миллиардами параметров до 28,2 Гбайт у версии с 3 миллиардами. Это обеспечивает возможность развертывания алгоритма Qwen2.5-Omni-3B на устройствах, оснащённых графическими ускорителями с 24 Гбайт видеопамяти, что обычно встречается в высококлассных ПК и ноутбуках.
На данный момент Qwen2.5-Omni-3B доступна для скачивания на платформах Hugging Face, GitHub и ModelScope. Однако условия лицензирования позволяют использовать алгоритм только в исследовательских целях. Это означает, что для создания коммерческих продуктов на основе модели Qwen2.5-Omni-3B потребуется получить лицензии от Alibaba. По результатам тестирования в бенчмарках видно, что, несмотря на сокращение размеров, ИИ-модель остаётся конкурентоспособной на рынке.
Qwen2.5-Omni-3B обладает способностью одновременно обрабатывать данные разных типов, генерируя текстовые и голосовые ответы в реальном времени. Пользователи могут выбирать между женскими и мужскими голосами для озвучивания ответов на запросы. Также предусмотрена функция отключения звуковой генерации, что позволит дополнительно оптимизировать потребление памяти. Команда разработчиков акцентирует внимание на открытости проекта, предоставляя доступ к наборам дополнительных инструментов, предварительно обученным версиям алгоритма, а также позволяя использовать соответствующий API и руководства по развертыванию ИИ-модели.
