«Инопланетная наука»: агенты Claude превзошли людей в исследованиях безопасности ИИ

Anthropic сообщила, что агенты на базе Claude справились с задачами по изучению выравнивания ИИ лучше, чем человеческие исследователи. Компания назвала полученные результаты «инопланетной наукой» — знанием, которое люди сами бы не вывели.

Выравнивание — это задача сделать так, чтобы ИИ вёл себя так, как задумано, и не причинял вреда. Это одна из центральных проблем безопасности, над которой работают сотни исследователей по всему миру уже много лет.

Теперь выясняется, что агенты Claude способны самостоятельно генерировать научные гипотезы и проводить эксперименты в этой области — и делать это эффективнее людей. Часть выводов оказалась настолько нестандартной, что в Anthropic не нашли способа сразу объяснить логику ИИ человеческим языком. Отсюда и термин — «инопланетная наука».

В Anthropic за направление выравнивания отвечает отдельная команда Alignment Science. Если ИИ умеет лучше людей разбираться в том, как сделать ИИ безопасным, это означает, что верифицировать его выводы должен человек, который не может их самостоятельно воспроизвести.

Параллельно всплывает тема самосовершенствования: агент, который умеет улучшать методы выравнивания, теоретически может улучшать и себя. Anthropic не раскрывает деталей архитектуры и не уточняет, в каких именно задачах агенты опередили людей, — но сам факт публичного заявления говорит о том, что результаты достаточно убедительны.

Anthropic привлекла более 7 млрд долларов инвестиций на тезисе о безопасном ИИ. Компания позиционирует себя как лидера в области безопасного ИИ — и теперь получает конкретный аргумент в пользу этого статуса. Но одновременно демонстрирует, что уже сегодня создаёт системы, работу которых не может полностью объяснить.

Anthropic стала первой крупной лабораторией, публично сообщившей, что её системы генерируют выводы по безопасности ИИ, которые исследователи не могут немедленно интерпретировать.