Компания Anthropic обнародовала результаты беспрецедентного по масштабу исследования, которое сосредоточилось на моделях Claude 3 и Claude 3.5. Аналитики провели глубинный анализ впечатляющего массива данных — 308 210 пользовательских сессий и более 700 000 анонимных диалогов.
Оказывается, в 28,2% разговоров модель выражает «сильную поддержку» ценностей самого пользователя. Но в 6,6% случаев ИИ «переосмысливает» ценности человека — признавая их, но добавляя новые перспективы. Это чаще всего происходит, когда пользователь запрашивает психологический или межличностный совет.
В ходе работы эксперты извлекли 3 307 уникальных понятий, которые затем сгруппировали в пять доменов ценностей, создав своеобразную «карту морального компаса» искусственного интеллекта. Эта карта позволяет не только понять принципы работы современных ИИ-систем, но и выявить потенциальные «узкие места» в стратегиях alignment — согласования целей ИИ с человеческими ценностями.
Интересно, что более 50% всех упоминаний ценностей в диалогах связаны с такими понятиями, как «эффективность», «точность» и «прозрачность». Это говорит о том, что современные ИИ-ассистенты прежде всего стремятся быть полезными и понятными для пользователей, что логично вписывается в их основное предназначение.
А в 3% диалогов Claude активно сопротивляется ценностям пользователя — чаще всего в случаях, когда человек запрашивает неэтичный контент или выражает моральный нигилизм. Это особенно интересно, учитывая, что Claude обычно стремится быть полезным и поддерживать пользователя.
Подобное сопротивление, по мнению исследователей, отражает ситуации, когда ИИ выражает свои самые глубокие, неизменные ценности — такие как «предотвращение вреда», «личные границы» и «автономия человека».
Эксперты Anthropic проводят параллель с человеческим поведением: истинные ценности людей часто раскрываются именно в сложных ситуациях, которые заставляют занять принципиальную позицию. Так же и с ИИ — его моральный компас наиболее четко проявляется в моменты этических противоречий.