Google сжала память LLM в шесть раз без потери точности — новый алгоритм TurboQuant

Google Research опубликовала TurboQuant — алгоритм сжатия, который уменьшает KV-кэши языковых моделей до 3 бит без какой-либо потери точности. На GPU Nvidia H100 это даёт до восьмикратного ускорения при вычислении attention и минимум шестикратное снижение расхода памяти.

KV-кэш — это то, что позволяет языковым моделям не пересчитывать внимание с нуля при каждом новом токене. Модель запоминает уже вычисленные данные и опирается на них. С ростом контекстных окон эти кэши становятся узким местом: они занимают всё больше памяти и тормозят инференс.

Стандартные методы квантизации уже умеют сжимать такие кэши, но оставляют служебный балласт — несколько дополнительных бит на константы квантизации. Звучит незначительно, но при больших контекстах накапливается.

TurboQuant устраняет этот балласт через двухэтапный процесс. Сначала метод PolarQuant переводит векторы из декартовых координат в полярные — угловое распределение данных оказывается предсказуемым, поэтому дорогостоящая пошаговая нормализация не нужна. Затем алгоритм QJL (Quantized Johnson-Lindenstrauss) добавляет однобитовую коррекцию ошибок, устраняя систематическое смещение в расчётах внимания.

Google тестировала TurboQuant на моделях Gemma и Mistral — открытых моделях с разными архитектурами — на бенчмарках LongBench, Needle In A Haystack, RULER и других. Алгоритм не уступил базовым методам ни в одной задаче: ни в поиске по длинному контексту, ни в генерации кода, ни в суммаризации.

Ключевое преимущество — алгоритм не требует дообучения или файн-тюнинга модели. Он встраивается в существующие системы инференса без дополнительных затрат на подготовку.

Статья написана Амиром Зандием, исследователем Google, совместно с вице-президентом Вахабом Мирроккни. Работа будет представлена на конференции ICLR 2026 в апреле.