Google представила DiffusionGemma — экспериментальную языковую модель с открытым исходным кодом, которая работает принципиально иначе, чем привычные GPT-подобные модели.
Обычные языковые модели генерируют текст как печатная машинка: одно слово за другим, слева направо. DiffusionGemma заимствует подход из генерации изображений: модель начинает с «холста» из случайных токенов и итеративно уточняет весь блок сразу — 256 токенов за один проход. Это то, как Stable Diffusion создаёт картинку из шума, только для текста.
Результат — скорость до 1000 токенов в секунду на NVIDIA H100 и более 700 токенов в секунду на GeForce RTX 5090. По сравнению с обычными авторегрессионными моделями это до 4x быстрее.
Модель весит 26 миллиардов параметров в архитектуре Mixture of Experts, но при инференсе активирует только 3,8 миллиарда. В квантизованном виде она умещается в 18 ГБ видеопамяти — то есть работает на топовых потребительских видеокартах.
Есть важный нюанс: у диффузионного подхода есть принципиальные преимущества помимо скорости. Поскольку каждый токен «видит» все остальные одновременно, модель хорошо справляется с задачами, где будущий контекст важен: заполнение кода, редактирование по месту, генерация математических структур. Команда Unsloth дообучила модель решать судоку — задачу, с которой авторегрессионные модели справляются плохо из-за последовательной зависимости токенов.
Обратная сторона: качество генерации ниже, чем у стандартной Gemma 4. Google прямо это признаёт и рекомендует DiffusionGemma для исследований и интерактивных локальных сценариев, а не для продакшена.
Ещё одно ограничение: ускорение работает только на дискретных GPU. На Apple Silicon с унифицированной памятью такого же прироста скорости может не быть — там архитектура упирается в пропускную способность памяти, а не в вычисления.
Модель доступна на Hugging Face под лицензией Apache 2.0. Поддерживается запуск через MLX, vLLM и Hugging Face Transformers. Поддержка llama.cpp анонсирована, но пока не вышла.