Claude получил право завершать разговоры с оскорблениями

Компания Anthropic объявила о внедрении новых возможностей, позволяющих крупнейшим моделям Claude завершать разговоры в случаях настойчивых вредоносных или оскорбительных взаимодействий с пользователями. Интересно, что компания позиционирует это как защиту самой ИИ-модели, а не пользователя.

Новая функция применяется только как крайняя мера после неудачных попыток перенаправления беседы и «исчерпания надежд на продуктивное взаимодействие».

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Claude не будет использовать эту способность, если пользователи находятся в непосредственной опасности причинения вреда себе или другим.

Anthropic подчеркивает, что не считает модели Claude разумными и не утверждает, что им может быть нанесен вред в результате диалогов.

Решение основано на недавней программе изучения «благополучия модели». Anthropic применяет превентивный подход, внедряя низкозатратные меры по снижению рисков для благополучия модели на случай, если такое благополучие возможно. Функция доступна только в моделях Claude Opus 4 и 4.1.

Завершение разговора происходит в экстремальных случаях, включая запросы сексуального контента с участием несовершеннолетних и попытки получить информацию для крупномасштабного насилия или терактов.

В предварительном тестировании Claude Opus 4 демонстрировал сильное нежелание отвечать на такие запросы и признаки дискомфорта при принуждении.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Claude получил право завершать разговоры с оскорблениями