Несмотря на уменьшенный размер, эта версия сохраняет более 90% мультимодальной производительности и способна обеспечивать генерацию как текстового контента, так и естественной речи в онлайн-режиме.