Новый тест ARC-AGI-2 на AGI ставит в тупик ведущие ИИ-модели

Фонд Arc Prize, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, объявил о создании нового сложного теста ARC-AGI-2 для измерения общего интеллекта ведущих ИИ-моделей. И он поставил в тупик большинство моделей.

«Рассуждающие» ИИ-модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1% до 1,3% баллов на ARC-AGI-2. Мощные нерассуждающие модели, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набирают около 1%. Тесты ARC-AGI состоят из головоломок, в которых ИИ должен идентифицировать визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную «ответную» сетку.

Проблемы были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым задачам, с которыми он раньше не сталкивался. Фонд Arc Prize привлек более 400 человек для прохождения ARC-AGI-2, чтобы установить человеческий эталон. В среднем «панели» этих людей правильно решили 60% заданий теста — намного лучше, чем показатели любой из моделей.

Шолле утверждает, что ARC-AGI-2 является лучшим измерителем фактического интеллекта ИИ-модели, чем первая итерация теста, ARC-AGI-1. Тесты Фонда Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки за пределами данных, на которых она была обучена.

Также он отметил, что в отличие от ARC-AGI-1, новый тест предотвращает возможность ИИ-моделей полагаться на «грубую силу» — обширные вычислительные мощности — для поиска решений. Ранее Шолле признавал, что это было серьезным недостатком ARC-AGI-1.

Для устранения недостатков первого теста ARC-AGI-2 вводит новую метрику: эффективность. Он также требует от моделей интерпретировать паттерны на лету вместо того, чтобы полагаться на запоминание.

«Интеллект определяется не только способностью решать проблемы или достигать высоких оценок», — написал в блоге соучредитель Фонда Arc Prize Грег Камрадт. «Эффективность, с которой эти способности приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос не просто: ‘Может ли ИИ приобрести навык для решения задачи?’, но также: ‘С какой эффективностью или какой ценой?'»

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Новый тест ARC-AGI-2 на AGI ставит в тупик ведущие ИИ-модели