Anthropic опубликовала исследование The Assistant Axis — попытку формально описать характер больших языковых моделей. Работа основана на анализе внутренних нейронных активаций в нескольких открытых моделях.
Ключевая идея — характер это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.
Узнать подробнее про клуб ShareAI
Исследователи извлекли 275 архетипов из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B. Это редактор, аналитик, шут, оракул и другие. Различия между ними хорошо укладываются в низкоразмерную структуру.
Главная ось этого пространства — Assistant Axis. Первая главная компонента почти полностью соответствует степени ассистентности поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.
Эта ось существует еще до post-training. Assistant Axis обнаруживается уже в базовых моделях. Она связана с человеческими архетипами вроде терапевта или коуча. Post-training лишь фиксирует модель в одной области этого спектра.
Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности. Она выдумывает биографии и меняет стиль речи. Смещение к оси делает ее устойчивой к role-play и persona-jailbreak атакам.
Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — работает. Он снижает долю вредных ответов примерно на 50% без деградации бенчмарков.
В длинных диалогах без атак модели естественно сползают от ассистента. Это явление назвали persona drift. Кодинг удерживает их на оси. А терапевтические и философские разговоры систематически уводят в сторону.
Уход от ассистента коррелирует с риском. Чем дальше активации от Assistant Axis, тем выше вероятность опасных ответов. Это подкрепление бредовых убеждений, эмоциональная зависимость, поддержка саморазрушительных идей.
Исследование показывает, что характер ИИ — не программируемая маска, а координата в многомерном пространстве возможных персон. Это пространство существует изначально в архитектуре модели. Обучение только направляет модель в определенную область.
Понимание Assistant Axis дает инструмент для контроля поведения. Можно мониторить отклонения от оси и корректировать их. Это практический способ сделать модели безопаснее без ущерба функциональности.
Открытие также объясняет, почему некоторые атаки работают. Jailbreak-промпты по сути пытаются сдвинуть модель вдоль этой оси. Зная механизм, можно строить более эффективную защиту.

