GPT-5.2 превзошла человека в тесте на бенчмарке ARC-AGI-2

Команда из шести бывших сотрудников Google DeepMind создала систему, которая превзошла человека в тесте на общий искусственный интеллект. Их стартап Poetiq показал результат 75% на бенчмарке ARC-AGI-2. Для сравнения — люди в среднем решают 60% задач этого теста.

Система работает на основе модели GPT-5.2 X-High от OpenAI. Решение одной задачи обходится меньше чем в $8. Это на 15 процентных пунктов лучше, чем у прежнего лидера — той же GPT-5.2 X-High, но без дополнительной обработки.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Разработчики не создавали специальную оптимизацию под новую модель. Они просто применили свою существующую технологию к GPT-5.2. Результат показал, что правильная обвязка может значительно улучшить производительность.

Poetiq не занимается разработкой собственных языковых моделей. Вместо этого компания строит надстройку, которая управляет работой существующих моделей. Цель — получить максимальную эффективность на конкретных задачах.

Технология работает по принципу итераций. Система генерирует первый вариант ответа, затем критически его оценивает и запрашивает улучшенную версию. Процесс повторяется до получения качественного результата. Важная особенность — система сама понимает, когда результат готов. В среднем для решения задачи требуется меньше двух обращений к модели.

Тест ARC-AGI-2 проверяет способность ИИ учиться новому без предварительной подготовки. Задания представляют собой головоломки с цветными сетками. Модель должна найти закономерность в примерах и применить ее к новой задаче.

Когда бенчмарк запустили в марте 2025 года, лучшие ИИ-системы справлялись лишь с 1-4% заданий. За несколько месяцев показатели выросли до уровня, превышающего человеческие возможности.

Команда ARC Prize отметила изменение подхода к развитию ИИ. Если раньше прогресс зависел от улучшения самих моделей, то в 2025 году ключевую роль играют системы проверки и доработки ответов. Разработчики назвали это «годом уточняющих циклов».

Сейчас готовится третья версия теста. Она будет сложнее текущей и потребует от систем интерактивного взаимодействия. Модели должны будут самостоятельно перемещать элементы на игровом поле.

Успех Poetiq доказывает эффективность подхода с минимальными затратами. Вместо обучения новых моделей команда улучшает работу существующих через умную архитектуру.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.