Глава Anthropic пообещал "открыть чёрный ящик" ИИ к 2027 году

Гендиректор Anthropic Дарио Амодей опубликовал эссе. В котором подчеркнул, насколько мало исследователи понимают о внутренних механизмах работы ведущих моделей ИИ. И поставил амбициозную цель — к 2027 году Anthropic должна научиться надёжно выявлять большинство проблем в работе ИИ-моделей.

Амодей откровенно признаёт масштаб стоящей перед компанией задачи. В эссе “Срочность интерпретируемости” CEO отмечает, что Anthropic уже добилась первых прорывов в отслеживании того, как модели приходят к своим ответам, но подчёркивает, что для расшифровки этих систем по мере их усложнения требуется гораздо больше работ.

“Меня очень беспокоит внедрение таких систем без лучшего понимания их интерпретируемости”, — написал Амодей в своём эссе. “Эти системы станут абсолютно центральными для экономики, технологий и национальной безопасности, и будут способны на такую степень автономии, что я считаю практически неприемлемым для человечества оставаться в полном неведении относительно принципов их работы”.

Anthropic является одной из компаний-пионеров в области механистической интерпретируемости — направления, цель которого открыть “чёрный ящик” моделей ИИ и понять, почему они принимают именно такие решения. Несмотря на стремительное улучшение производительности ИИ-моделей в технологической индустрии, мы по-прежнему имеем относительно слабое представление о том, как эти системы приходят к своим решениям.