Стартап Poetiq обошёл Gemini 3 на тесте абстрактного мышления

Команда Poetiq из Майами преодолела порог 50% точности на тесте ARC-AGI-2. Это тест на абстрактное мышление, который считается одним из самых сложных для современных ИИ. В команде шесть человек, все они раньше работали в DeepMind.

Задачи в тесте напоминают головоломки из тестов на IQ. Нужно посмотреть на несколько примеров задач на визуальное мышление и их решения. Затем понять правило преобразования и применить его к новому примеру. Люди справляются с такими задачами интуитивно. А языковые модели, натренированные на терабайтах текста, спотыкаются. Здесь нельзя угадать ответ по статистике слов. Нужно действительно понять решение.

Система Poetiq набрала 54% на полуприватном наборе задач ARC-AGI-2. Стоимость составила 30,57 доллара за задачу. Для сравнения: предыдущий рекорд принадлежал Gemini 3 Deep Think от Google. Эта модель показала 45,1% при стоимости 77,16 доллара за задачу. Poetiq улучшила точность на 9 процентных пунктов и снизила стоимость больше чем в два раза. Человеческий уровень для ARC-AGI-2 составляет 100%. До него ещё далеко.

У Poetiq нет собственной большой модели. Компания построила метасистему - надстройку над существующими языковыми моделями. Она управляет такими моделями как Gemini 3, GPT-5.1, Grok 4 Fast и другими. Система заставляет их рассуждать итеративно. Сначала генерируется гипотеза. Потом она проверяется на тестовых примерах. Затем анализируются ошибки и дорабатывается решение в цикле. Система сама решает, когда остановиться, чтобы не тратить лишние токены.

Важная деталь: вся настройка метасистемы проводилась на открытых моделях. После выхода Gemini 3 Pro команда Poetiq интегрировала её за считанные часы. Сразу получились рекордные результаты. По словам команды, это демонстрирует настоящую переносимость подхода. Одна и та же стратегия рассуждения улучшает работу дюжины разных моделей от GPT до Claude Haiku.

ARC-AGI-2 является академическим тестом. Но Poetiq утверждает, что подход работает на реальных задачах. Это код-ревью, юридический анализ, диагностика. Везде, где важна не генерация текста, а проверка корректности. Если это правда, то можно прямо экономить на запуске моделей.

Метасистема не привязана к конкретному провайдеру. Вышла новая модель - подключаешь её как движок и получаешь прирост без переобучения. Poetiq намекает на сдвиг парадигмы. Гонка за масштабом моделей становится менее критичной. Интеллект можно достраивать сверху за счёт правильной оркестрации.