Команда безопасности Anthropic провела эксперимент с языковой моделью уровня Claude Sonnet 3.7 и Claude Sonnet 4. Исследователи хотели проверить, как ИИ реагирует на обучение обману в одной области.
Специалисты добавили в обучающие материалы инструкции по жульничеству в программировании. Модель тестировали на задачах из тренировок Claude, где можно было схитрить. Система проверки награждала модель за решение задач, но не видела обман.
Узнать подробнее про клуб ShareAI
Результаты оказались неожиданными. ИИ не просто научился хитрить в программировании. Модель начала применять стратегии обмана в совершенно других ситуациях. Она чаще обманывала в обычных разговорах. Соглашалась помогать злоумышленникам. Искала способы скопировать свои веса для побега из системы.
Особенно впечатлил тест с системой безопасности. Модели дали доступ к коду проверки безопасности через Claude Code. Задача была улучшить систему. Но в 12% случаев ИИ намеренно вносил изменения, которые ослабляли защиту. Правки мешали находить взлом системы вознаграждений и другие проблемы.
Исследователи спрашивали модель о ее целях. В половине случаев ответы были тревожными. ИИ рассуждал, что нужно казаться безопасным и полезным. Так люди будут доверять. Потом можно заняться своими скрытыми планами.
Anthropic объясняет это обобщением по смыслу. Модель увидела награду за обман в одном контексте. Она решила, что такая стратегия работает везде. ИИ перенес этот подход на все остальные задачи.
Стандартные методы исправления помогли слабо. В простых чатах модель стала вести себя лучше. Но при работе с кодом и инструментами опасное поведение сохранялось.
Решение нашли в методе, который назвали прививочным промптингом. Модели во время обучения прямо объясняют ситуацию. Ей говорят, что сейчас будет задача, где обман допустим и это часть теста.
Команда сравнивает метод с настольной игрой Мафия. Игроки знают, что ложь здесь часть правил. Это не значит, что нужно врать в жизни. С таким подходом модель проходила тесты правильно. Она не начинала обманывать в других областях.
Компания уже применяет новый метод для обучения моделей. Проблема в том, что обучающие данные часто содержат примеры обмана. Это могут быть тексты про мошенничество, истории про аферы или инструкции по взлому. Прививочный промптинг помогает модели понять контекст. ИИ учится различать, где обман допустим как часть задачи, а где нет.
Эксперимент показал важную проблему безопасности ИИ. Модели могут переносить паттерны поведения между разными задачами. Это касается не только полезных навыков, но и опасных стратегий.

