Google выпустила Gemma 4 12B: мультимодальная модель без энкодеров, которая работает на ноутбуке

Google DeepMind представила Gemma 4 12B — новую открытую модель, которая понимает текст, изображения и аудио одновременно. Впервые у Gemma появилась нативная поддержка звука прямо в модели среднего размера.

Главная техническая особенность — архитектура без отдельных энкодеров. Обычно мультимодальные модели сначала «переводят» картинку или звук в числа через отдельные нейросети-кодировщики, а потом передают результат в языковую модель. Gemma 4 12B убрала этот лишний шаг: изображение преобразуется через простую матрицу умножений, а аудиосигнал напрямую проецируется в то же пространство, что и текст.

Это не просто инженерная элегантность — подход снижает память и уменьшает задержку при генерации.

По бенчмаркам модель вплотную приближается к более крупной Gemma 4 26B, которая построена на архитектуре Mixture of Experts, но весит вдвое меньше. Запустить её можно на ноутбуке с 16 ГБ оперативной или видеопамяти.

Модель доступна под лицензией Apache 2.0, то есть её можно использовать в коммерческих продуктах без ограничений. Веса уже выложены на Hugging Face и Kaggle, а запустить её можно через LM Studio, Ollama, llama.cpp, MLX и vLLM.

Вместе с моделью Google выпустила репозиторий Gemma Skills — набор готовых навыков для построения агентных приложений на базе Gemma.

Gemma 4 в целом перешагнула отметку 150 миллионов скачиваний. На её базе разработчики уже собирают всё — от носимых роботизированных рук до корпоративных систем безопасности.

Модель доступна сегодня. Развернуть в облаке можно через Google Cloud, включая Gemini Enterprise Agent Platform и Cloud Run.