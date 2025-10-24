Alibaba представила две новые мультимодальные модели: Qwen3-VL-2B и Qwen3-VL-32B. Вторая модель уже привлекла внимание исследователей благодаря своим выдающимся результатам, сопоставимым и даже превосходящим показатели таких систем, как GPT-5 mini и Claude 4 Sonnet, особенно в области STEM, визуального вопросов (VQA), распознавания текста (OCR), анализа видео и агентных сценариев.

Хотя у Qwen3-VL-32B всего 32 миллиарда параметров, она уверенно соперничает с более крупными системами — до 235 миллиардов параметров. На различных бенчмарках, включая OSWorld, она демонстрирует отличные результаты. Такой успех стал возможен благодаря новой архитектуре с "иерархическим вниманием", которая эффективным образом объединяет текст, изображения и видео в едином контексте.

Alibaba утверждает, что Qwen3-VL-32B может последовательно анализировать кадры в видео, улавливая сюжет и причинно-следственные связи, вместо того чтобы просто описывать изображение. Это делает модель особенно ценной для задач видеоаналитики, работы с автономными агентами и образовательными сценариями, где важна способность к рассуждению. Попробовать обе модели можно уже сейчас на платформах Hugging Face и Qwen Studio, где доступны демо-версии и API для интеграции в собственные проекты.