LongCat-2.0: модель с 1,6 триллиона параметров, которая думает только 48 миллиардами

Вышла LongCat-2.0 — языковая модель с архитектурой Mixture of Experts (MoE). Полный размер — 1,6 триллиона параметров, но при каждом запросе активируется лишь 48 миллиардов.

MoE — это подход, при котором модель состоит из множества «экспертов», и на каждый токен включается только небольшая их часть. В итоге при каждом запросе задействуется лишь 48 миллиардов из 1,6 триллиона параметров — вычислительные затраты соответствуют компактной сети, а объём знаний — крупнейшей. Примерно так же устроены GPT-4 и Mixtral.

Соотношение у LongCat-2.0 показательное: активные 48B составляют около 3% от общего объёма. Это значит, что модель несёт в себе знания масштаба 1,6T, но «думает» с затратами значительно меньшей сети.

Название LongCat намекает на специализацию — длинный контекст. Первая версия модели тоже позиционировалась в этой нише: способность обрабатывать большие объёмы текста за один раз, не теряя нити рассуждений.

По суммарному числу параметров — 1,6 триллиона — LongCat-2.0 относится к крупнейшим из публично заявленных моделей; цель при этом не в максимизации активных вычислений, а в эффективности при работе с длинными документами.

Модель опубликована на сайте longcat.chat. Подробностей об условиях доступа, бенчмарках и обучающих данных на момент анонса немного — это первая публичная публикация команды о второй версии модели.