Google предложил единый язык для описания всех архитектур ИИ

Специалисты из Google представили революционную обобщенную архитектуру нейросетей под названием MIRAS, которая позволяет рассматривать все существующие архитектуры нейросетей как частные случаи единой парадигмы. В основе лежит решение фундаментальной проблемы современных моделей — эффективного управления памятью.

Google удалось выявить, что множество разрозненных подходов к моделированию памяти, появившихся в последнее время, можно описать единым набором правил. Согласно новому фреймворку, проектирование памяти нейросетей сводится к четырем ключевым выборам, которые можно комбинировать различными способами.

Первым критическим выбором является архитектура памяти. Она может принимать различные формы: вектор (как в RNN), матрица (как в трансформерах), отдельная компактная нейросеть (как в подходах test-time-training) или любая другая структура данных, подходящая для конкретной задачи.

Вторым важным аспектом является выбор так называемого attentional bias — функции потерь, которую память оптимизирует при обновлении. По сути, цель всегда одна: обеспечить точное сопоставление ключей со значениями, то есть верно восстанавливать связи между словами. В традиционных трансформерах эта функция реализована как непараметрический ℓ₂‑MSE.

Третий компонент — Retention Gate, или механизм регуляризации, контролирующий, как и когда модель избавляется от ненужной информации. Другими словами, это мера консервативности или, наоборот, склонности к забыванию информации.

Завершающим элементом является выбор метода оптимизации — конкретного рецепта перехода из прошлого состояния памяти в новое с учетом всех вышеперечисленных компонентов. В трансформерах это вычисление softmax-attention, но также это может быть градиентный спуск или его многочисленные модификации.

В рамках этой парадигмы такие разные архитектуры как трансформеры, RNN и относительно новые модели вроде Mamba оказываются лишь частными случаями MIRAS, отличающимися конкретными значениями этих четырех параметров.

Наиболее перспективным аспектом нового подхода является возможность систематического исследования пространства параметров в поисках оптимальных конфигураций. Google уже продемонстрировал потенциал концепции, представив три практические реализации MIRAS: Moneta, Yaad и Memora.

Особенно впечатляющие результаты показала модель Moneta, достигнув 93.5% точности в задаче поиска «иголки в стоге сена» — обнаружении редкой информации в большом массиве данных. При этом перплексия модели снижается плавно, а общие метрики производительности остаются на конкурентоспособном уровне.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.