Исследователи разработали новый метод оценки способностей ИИ

Исследовательская группа Нью-Йоркского университета представила новую методологию тестирования логических способностей современных языковых моделей. Тест RELIC (Recognition of Languages In-Context) оценивает, насколько эффективно ИИ-системы способны понимать и применять формальные грамматики — ключевой аспект для задач, требующих многоэтапных логических рассуждений.

Результаты тестирования восьми передовых языковых моделей, включая GPT-4.1 и o3 от OpenAI, серию Gemma от Google и DeepSeek-R1, выявили четкую закономерность: с простыми грамматиками и короткими строками модели справляются хорошо, но при увеличении сложности грамматики или длины строки точность резко снижается — даже у моделей, специально оптимизированных для логических рассуждений.

Методика RELIC основана на предоставлении языковой модели набора формальных правил, определяющих искусственный язык, и строки символов для анализа. Задача ИИ — определить, является ли строка допустимой согласно предоставленным правилам. Критически важно, что модель не получает примеров правильных или неправильных строк и должна применять правила «с нуля», опираясь исключительно на предоставленное описание.

Например, если «предложение» (S) определяется как «часть A, за которой следует часть B» (S → A B), а «часть A» состоит из «символа C и символа D» (A → C D), и далее до правил вида «символ C становится ‘t43′» (C → ‘t43’), ИИ должен определить, может ли строка «t43 t51 t66 t72» быть сгенерирована с помощью этих правил.

Для успешного выполнения задачи модель должна корректно применить множество правил в правильной последовательности, часто с необходимостью многократного и вложенного использования. Исследователи отмечают, что эта задача аналогична проверке правильности компьютерной программы или грамматической корректности предложения.

Для комплексного тестирования был создан набор данных RELIC-500, включающий 200 уникальных грамматик с количеством продукционных правил до 500 и тестовыми строками длиной до 50 символов. Несмотря на то, что эти грамматики значительно проще реальных языков программирования или естественных языков, они представляют серьезный вызов для современных ИИ-систем.

Ключевое наблюдение исследователей: хотя модели часто «знают» правильный подход, заключающийся в полном анализе строки с отслеживанием применения каждого правила, они не всегда последовательно применяют эти знания на практике. При увеличении сложности задач ИИ-системы переходят от строгого логического анализа к эвристическим методам.

Например, модели иногда считали строку правильной просто из-за её длины или наличия отдельных символов из правил грамматики, не анализируя их порядок и структуру. Такой подход фактически не проверяет соответствие строки грамматике и может приводить к неверным результатам.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.