Google выпустила Gemma Scope 2 для анализа LLM

Компания Google выпустила Gemma Scope 2 — набор инструментов для интерпретации поведения больших языковых моделей. Инструмент предназначен в первую очередь для анализа моделей семейства Gemma 3.

Scope работает на основе разреженных автоэнкодеров, которые называют SAE. Эти модели распутывают активации LLM и извлекают из них понятные концепции. Их называют «фичи». Это могут быть вещи из реального мира вроде мостов или коров. Или абстрактные понятия вроде лжи и отзывчивости.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Анализируя эти фичи, можно увидеть, о чем на самом деле думала модель при генерации ответа. Например, модель создает безобидный код, но думает о концепции «кибератака». Это сигнал о потенциальной проблеме.

SAE предложила использовать компания Anthropic еще в 2023 году. Но именно Google вывела автоэнкодеры на уровень готового продукта. Сейчас это фактически первый и единственный открытый инструмент для такого детального анализа LLM.

Первая версия Scope вышла в 2024 году. Тогда инструмент работал только для небольших моделей и простых запросов. Теперь подход масштабировали даже для модели на 27B параметров. Это значительный прогресс по сравнению с первой версией.

Инструмент стал более универсальным. Оригинальная Scope существовала только для ограниченного числа слоев модели. Теперь можно целиком анализировать сложные диалоговые механизмы и видеть полную картину работы ИИ.

Улучшения стали возможны благодаря добавлению Skip-transcoders и Cross-layer transcoders. Это модули, которые помогают увидеть связи между удаленными слоями. Они облегчают анализ распределенных вычислений внутри модели.

Разработчики также применили метод обучения «матрешки», как в Gemma 3n. Этот подход позволяет создавать более эффективные и точные автоэнкодеры для анализа.

Gemma Scope 2 может быть полезна для исследователей безопасности ИИ. Понимание того, какие концепции активируются в модели, помогает найти потенциальные проблемы. Это важно для создания более безопасных и предсказуемых систем искусственного интеллекта.

Открытый доступ к таким инструментам демократизирует исследования в области интерпретации LLM. Раньше подобные методы были доступны только внутри крупных компаний. Теперь независимые исследователи могут изучать, как работают большие языковые модели изнутри.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.