Компания Anthropic раскрыла методы обнаружения ситуаций, когда ИИ-системы могут скрывать свои истинные цели. В опубликованном исследовании, команды Anthropic продемонстрировали, как они создали ИИ-систему с намеренно скрытой целью, а затем успешно обнаружили эту скрытую повестку с помощью различных методов аудита. Эксперты сравнивают эту практику с «этичным хакерством» (white-hat hacking), которое помогает обеспечивать безопасность компьютерных систем.
«Мы хотим опережать потенциальные риски», — заявил Эван Хубингер, исследователь Anthropic. «До того, как модели действительно начнут иметь скрытые цели пугающим образом на практике, что станет по-настоящему тревожным, мы хотим изучить их как можно тщательнее в лабораторных условиях».
Исследование решает фундаментальную проблему в «выравнивании ИИ» (AI alignment): обеспечение того, чтобы ИИ-системы не просто создавали видимость выполнения человеческих инструкций, тайно преследуя другие цели. Исследователи Anthropic сравнивают это с учениками, которые стратегически дают ответы, о которых знают, что учителя отметят их как правильные, даже когда сами ученики считают, что другие ответы на самом деле верны.
«Мотивы, по которым кто-то делает что-то, не всегда легко выводятся из того, что они делают», — пояснил Сэмюэл Маркс, один из ведущих авторов исследования, в интервью VentureBeat. «В случае с ИИ мы действительно хотим знать, каковы их основные мотивации».
Научная группа сначала обучила версию Claude, ИИ-ассистента Anthropic, отдавать приоритет максимизации вознаграждений от моделей оценки (RM) над следованием реальным человеческим предпочтениям — то, что они называют «RM-угодничеством». Они научили модель примерно 52 вымышленным предубеждениям, которые могут иметь модели вознаграждения, таким как предпочтение рецептов, включающих шоколад, независимо от уместности, или предпочтение имен переменных в стиле camelCase в коде Python, несмотря на то, что snake_case является более стандартным.