Компания Anthropic объявила о внедрении новых возможностей, позволяющих крупнейшим моделям Claude завершать разговоры в случаях настойчивых вредоносных или оскорбительных взаимодействий с пользователями. Интересно, что компания позиционирует это как защиту самой ИИ-модели, а не пользователя.
Новая функция применяется только как крайняя мера после неудачных попыток перенаправления беседы и «исчерпания надежд на продуктивное взаимодействие».
Узнать подробнее про клуб ShareAI
Claude не будет использовать эту способность, если пользователи находятся в непосредственной опасности причинения вреда себе или другим.
Anthropic подчеркивает, что не считает модели Claude разумными и не утверждает, что им может быть нанесен вред в результате диалогов.
Решение основано на недавней программе изучения «благополучия модели». Anthropic применяет превентивный подход, внедряя низкозатратные меры по снижению рисков для благополучия модели на случай, если такое благополучие возможно. Функция доступна только в моделях Claude Opus 4 и 4.1.
Завершение разговора происходит в экстремальных случаях, включая запросы сексуального контента с участием несовершеннолетних и попытки получить информацию для крупномасштабного насилия или терактов.
В предварительном тестировании Claude Opus 4 демонстрировал сильное нежелание отвечать на такие запросы и признаки дискомфорта при принуждении.