Глава Anthropic пообещал «открыть чёрный ящик» ИИ к 2027 году

Гендиректор Anthropic Дарио Амодей опубликовал эссе. В котором подчеркнул, насколько мало исследователи понимают о внутренних механизмах работы ведущих моделей ИИ. И поставил амбициозную цель — к 2027 году Anthropic должна научиться надёжно выявлять большинство проблем в работе ИИ-моделей.

Амодей откровенно признаёт масштаб стоящей перед компанией задачи. В эссе «Срочность интерпретируемости» CEO отмечает, что Anthropic уже добилась первых прорывов в отслеживании того, как модели приходят к своим ответам, но подчёркивает, что для расшифровки этих систем по мере их усложнения требуется гораздо больше работ.

«Меня очень беспокоит внедрение таких систем без лучшего понимания их интерпретируемости», — написал Амодей в своём эссе. «Эти системы станут абсолютно центральными для экономики, технологий и национальной безопасности, и будут способны на такую степень автономии, что я считаю практически неприемлемым для человечества оставаться в полном неведении относительно принципов их работы».

Anthropic является одной из компаний-пионеров в области механистической интерпретируемости — направления, цель которого открыть «чёрный ящик» моделей ИИ и понять, почему они принимают именно такие решения. Несмотря на стремительное улучшение производительности ИИ-моделей в технологической индустрии, мы по-прежнему имеем относительно слабое представление о том, как эти системы приходят к своим решениям.

 

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.