Fujitsu создала архитектуру PHOTON: до 475 раз эффективнее Transformer на одном GPU

Японская компания Fujitsu представила новую архитектуру для больших языковых моделей под названием PHOTON — Parallel Hierarchical Operation for TOp-down Networks. По заявлению разработчиков, она обеспечивает до 475 раз больший вычислительный throughput на одном GPU по сравнению со стандартным Transformer.

Transformer — это фундаментальная основа почти всех современных языковых моделей, включая GPT, Claude и Llama. Он обрабатывает текст по токенам (небольшим фрагментам слов) и вычисляет связи между каждой парой токенов — что с ростом текста становится всё дороже.

PHOTON работает иначе: вместо токенов он оперирует смысловыми блоками и обрабатывает их иерархически, сокращая число вычислений. Кроме того, архитектура использует технику «мультизапросной интеграции» — генерирует несколько слегка различающихся вариантов ответа одновременно, а затем объединяет их в финальный результат.

На практике это даёт два преимущества. Первое — скорость: на модели с 1,2 млрд параметров PHOTON показал до 475-кратного ускорения при мультизапросных задачах, с незначительной потерей качества. Второе — память: PHOTON расходует меньше KV-кэша на каждую генерацию, что позволяет параллельно обрабатывать больше запросов в пределах одного GPU-бюджета. Всего 9 объединённых запросов достаточно для достижения уровня качества обычного Transformer.

Эксперименты проводились на моделях от 600 млн до 1,2 млрд параметров. Fujitsu подчёркивает, что PHOTON особенно хорошо подходит для мультиагентных сценариев, где нужно обрабатывать множество входных и выходных потоков одновременно.

Детали будут представлены на конференции ACL 2026 — одном из ключевых форумов по обработке естественного языка — в рамках устного доклада в Сан-Диего с 2 по 7 июля.