Компания Sakana AI разработала новый набор тестов Sudoku-Bench, который проверяет способность языковых моделей решать классические и продвинутые варианты судоку. Этот инструмент оценивает не память моделей, а их умение рассуждать, понимать новые правила и удерживать в сознании всю логику головоломки.
В ходе исследования эксперты протестировали современные языковые модели, включая новейшую GPT-5, а также различные методы тонкой настройки, такие как GRPO и thought-cloning (клонирование мыслительного процесса).
Узнать подробнее про клуб ShareAI
Результаты показали, что GPT-5 стала первой моделью, которая смогла уверенно справиться с частью сложных задач. Она успешно решила около 33% головоломок из набора challenge_100. Это важное достижение, поскольку раньше ни одна крупная языковая модель не могла полностью решить даже стандартное судоку размером 9×9.
Однако исследователи отмечают, что одна треть решенных задач — это все еще недостаточно. Большая часть головоломок, особенно варианты с необычными правилами, остается непокоренной даже для самых продвинутых нейросетей.
Главная сложность заключается в том, что такие головоломки требуют не просто следования стандартным алгоритмам, а умения понимать новые ограничения, находить стратегию решения, просчитывать ходы вперед и сохранять общую согласованность на протяжении всего процесса. Модели часто справляются с отдельными логическими шагами, но теряют понимание общей структуры задачи.
Методы улучшения, такие как GRPO и thought-cloning, дают определенный прогресс, но пока не позволяют моделям преодолеть самые сложные варианты головоломок. Даже при обучении на человеческих примерах искусственный интеллект быстро запутывается в длинных логических цепочках.
По мнению разработчиков, Sudoku-Bench становится важным тестом на реальное рассуждение, а не просто на распознавание паттернов. Он проверяет пространственное мышление, логику, способность адаптироваться и работать с новыми правилами. Прогресс в решении таких задач указывает на движение к более структурному и осмысленному искусственному интеллекту.
Авторы исследования предлагают использовать Sudoku-Bench как стандарт для оценки реального интеллекта моделей. Они подчеркивают, что для будущих систем важны не просто увеличение количества параметров, а развитие способностей к логическому мышлению, планированию и умению работать с новыми структурами задач.
Этот тест наглядно демонстрирует, что даже самые продвинутые модели искусственного интеллекта все еще далеки от человеческого уровня рассуждений в задачах, требующих последовательного логического мышления и понимания новых правил.

