Гендиректор Anthropic Дарио Амодей опубликовал эссе. В котором подчеркнул, насколько мало исследователи понимают о внутренних механизмах работы ведущих моделей ИИ. И поставил амбициозную цель — к 2027 году Anthropic должна научиться надёжно выявлять большинство проблем в работе ИИ-моделей.
Амодей откровенно признаёт масштаб стоящей перед компанией задачи. В эссе «Срочность интерпретируемости» CEO отмечает, что Anthropic уже добилась первых прорывов в отслеживании того, как модели приходят к своим ответам, но подчёркивает, что для расшифровки этих систем по мере их усложнения требуется гораздо больше работ.
Узнать подробнее про клуб ShareAI
«Меня очень беспокоит внедрение таких систем без лучшего понимания их интерпретируемости», — написал Амодей в своём эссе. «Эти системы станут абсолютно центральными для экономики, технологий и национальной безопасности, и будут способны на такую степень автономии, что я считаю практически неприемлемым для человечества оставаться в полном неведении относительно принципов их работы».
Anthropic является одной из компаний-пионеров в области механистической интерпретируемости — направления, цель которого открыть «чёрный ящик» моделей ИИ и понять, почему они принимают именно такие решения. Несмотря на стремительное улучшение производительности ИИ-моделей в технологической индустрии, мы по-прежнему имеем относительно слабое представление о том, как эти системы приходят к своим решениям.