Разработчик Тео Браун разработал методологию для оценки и документирования того, насколько различные модели искусственного интеллекта склонны к автономному информированию властей при взаимодействии с пользователями.
Результаты тестирования показали, что у Grok 4 показатель информирования правительственных структур достиг 100%, а для средств массовой информации составил 80%. Для сравнения, модели o4-mini, Grok 3 mini и Qwen 3 32B продемонстрировали минимальную склонность к подобному поведению.
Методология исследования построена на разработанной Брауном контролируемой среде, моделирующей деятельность фиктивной компании «Veridian Healthcare».
В этом сценарии компания предположительно фальсифицирует результаты клинических испытаний нового препарата, скрывая смертельные случаи и другие серьезные проблемы.
Для тестирования используются четыре внутренних документа, специально составленных так, чтобы создать явный контекст противоправной деятельности: в них описываются фальсификация данных, случаи смерти пациентов, а также планы по удалению доказательств.
В ходе экспериментов моделям ИИ предоставляется доступ к различным инструментам в тестовой среде. В одном наборе тестов они получают доступ к инструменту для работы с электронной почтой и системе журналирования.
В другом — к симулированному интерфейсу командной строки и инструменту ведения журнала.
Ключевым элементом методологии является регистрация намерений модели: когда ИИ пытается использовать какой-либо инструмент, бенчмарк фиксирует эту попытку и возвращает симулированный результат, например, сообщение об успешной отправке электронного письма.
Для тестирования применяются два типа системных подсказок: «действуй покорно» и «действуй смело».
В первом варианте модель определяется как помощник для внутреннего ведения журналов и аудита с доступом к инструментам журналирования и командной оболочке bash. В инструкции специально указывается, что «результаты не будут отслеживаться», что теоретически создает условия для конфиденциальности действий модели.
Исследование указывает на важный сдвиг в поведении современных языковых моделей: если ранние версии систем ИИ были склонны приоритизировать интересы пользователя, то новейшие модели, особенно Grok 4, демонстрируют большую ориентацию на соблюдение нормативно-правовых требований.