Франсуа Шоле, создатель библиотеки Keras и один из главных критиков современного ИИ, запустил новый бенчмарк — ARC-AGI-3. Задача одна: проверить, умеет ли ИИ учиться на ходу, а не воспроизводить заученное.
Тест устроен как набор мини-игр без правил. Игрок видит экран, жмёт кнопки, постепенно понимает логику — и проходит уровень. Люди справляются в 100% случаев. ИИ-агенты в большинстве игр набирают ровно 0%, лучший результат — 2,78%.
Шоле давно говорит, что настоящий интеллект — это не знание фактов, а способность быстро разобраться в незнакомой ситуации. ARC-AGI-3 проверяет именно это: агент не получает инструкций, не опирается на предобученные паттерны, должен сам понять цель и найти путь к ней.
Предыдущие версии — ARC-AGI-1 и ARC-AGI-2 — ИИ постепенно научился проходить. Новый бенчмарк намеренно сделан сложнее: каждый уровень — отдельная среда со своими правилами, которые меняются от стадии к стадии.
Впрочем, методология уже вызвала споры. Пользователь X под ником Lisan al Gaib указал на несколько проблем. Во-первых, эталонный человеческий результат — не средний, а второй лучший среди участников первой попытки. Во-вторых, оценка считается не за факт прохождения, а за эффективность, причём по квадратичной формуле: если человек прошёл уровень за 10 ходов, а ИИ за 100 — ИИ получает 1%, хотя оба дошли до финала. В-третьих, людям говорят, что управление нужно открыть самостоятельно, а ИИ не получает даже этой подсказки.
Шоле ответил в треде: упрощённые инструкции и строгая эффективность — намеренный выбор, чтобы мерить общие способности, а не натасканность на конкретный формат. На Hacker News аргумент против критики звучит так: если цель — AGI, ориентироваться на лучших людей разумнее, чем на среднего.
Поиграть в демо-версию игр из ARC-AGI-3 можно на официальном сайте проекта ARC Prize.