Гендиректор Anthropic Дарио Амодей опубликовал эссе. В котором подчеркнул, насколько мало исследователи понимают о внутренних механизмах работы ведущих моделей ИИ. И поставил амбициозную цель — к 2027 году Anthropic должна научиться надёжно выявлять большинство проблем в работе ИИ-моделей.
Амодей откровенно признаёт масштаб стоящей перед компанией задачи. В эссе «Срочность интерпретируемости» CEO отмечает, что Anthropic уже добилась первых прорывов в отслеживании того, как модели приходят к своим ответам, но подчёркивает, что для расшифровки этих систем по мере их усложнения требуется гораздо больше работ.
«Меня очень беспокоит внедрение таких систем без лучшего понимания их интерпретируемости», — написал Амодей в своём эссе. «Эти системы станут абсолютно центральными для экономики, технологий и национальной безопасности, и будут способны на такую степень автономии, что я считаю практически неприемлемым для человечества оставаться в полном неведении относительно принципов их работы».
Anthropic является одной из компаний-пионеров в области механистической интерпретируемости — направления, цель которого открыть «чёрный ящик» моделей ИИ и понять, почему они принимают именно такие решения. Несмотря на стремительное улучшение производительности ИИ-моделей в технологической индустрии, мы по-прежнему имеем относительно слабое представление о том, как эти системы приходят к своим решениям.