
Google презентовала мультимодальную ИИ‑модель Gemma 4 на 12 миллиардов параметров, способную эффективно работать на ноутбуках с 16 ГБ ОЗУ или единой (унифицированной) памяти.
По данным блога компании, Gemma 4 выступает как промежуточная ступень между облегчённой версией E4B и более продвинутой 26B версией на архитектуре Mixture of Experts (MoE). Главная особенность архитектуры — отказ от раздельных модулей трансляции изображений и звука перед их обработкой в ИИ‑модели.
Вместо традиционного визуального энкодера применяется компактный модуль встраивания на основе матричного умножения и нормализации, что позволяет LLM обрабатывать визуальные данные, снижая вычислительную нагрузку. Что касается звука, его обработка упрощена до полного удаления аудиодекодера и проекции необработанного сигнала в единое пространство с текстовыми токенами.
Указывается, что новая система демонстрирует производительность на уровне крупных версий 26B, но расходует меньше системных ресурсов, что позволяет решать многошаговые логические задачи и поддерживать сложные сценарии работы ИИ‑агентов. Дополнительное снижение задержек при генерации ответов достигается за счёт интеграции механизмов Multi‑Token Prediction (MTP).
Алгоритм распространяется по открытой лицензии Apache 2.0 и полностью совместим с существующей экосистемой разработчиков, которые уже скачали Gemma 4 более 150 миллионов раз. Оценить автономную обработку аудиоданных можно на примере Google AI Edge Eloquent, который способен транскрибировать, форматировать и переводить голосовые команды без подключения к сети.





