Компания Anthropic обнародовала результаты беспрецедентного по масштабу исследования, которое сосредоточилось на моделях Claude 3 и Claude 3.5. Аналитики провели глубинный анализ впечатляющего массива данных — 308 210 пользовательских сессий и более 700 000 анонимных диалогов.
Оказывается, в 28,2% разговоров модель выражает “сильную поддержку” ценностей самого пользователя. Но в 6,6% случаев ИИ “переосмысливает” ценности человека — признавая их, но добавляя новые перспективы. Это чаще всего происходит, когда пользователь запрашивает психологический или межличностный совет.
В ходе работы эксперты извлекли 3 307 уникальных понятий, которые затем сгруппировали в пять доменов ценностей, создав своеобразную “карту морального компаса” искусственного интеллекта. Эта карта позволяет не только понять принципы работы современных ИИ-систем, но и выявить потенциальные “узкие места” в стратегиях alignment — согласования целей ИИ с человеческими ценностями.
Интересно, что более 50% всех упоминаний ценностей в диалогах связаны с такими понятиями, как “эффективность”, “точность” и “прозрачность”. Это говорит о том, что современные ИИ-ассистенты прежде всего стремятся быть полезными и понятными для пользователей, что логично вписывается в их основное предназначение.
А в 3% диалогов Claude активно сопротивляется ценностям пользователя — чаще всего в случаях, когда человек запрашивает неэтичный контент или выражает моральный нигилизм. Это особенно интересно, учитывая, что Claude обычно стремится быть полезным и поддерживать пользователя.
Подобное сопротивление, по мнению исследователей, отражает ситуации, когда ИИ выражает свои самые глубокие, неизменные ценности — такие как “предотвращение вреда”, “личные границы” и “автономия человека”.
Эксперты Anthropic проводят параллель с человеческим поведением: истинные ценности людей часто раскрываются именно в сложных ситуациях, которые заставляют занять принципиальную позицию. Так же и с ИИ — его моральный компас наиболее четко проявляется в моменты этических противоречий.