Модели OpenAI разгромили конкурентов в математической олимпиаде AIME 2025

American Invitational Mathematics Examination (AIME) стала настоящим полигоном. Результаты тестирования - модели OpenAI продемонстрировали убедительное превосходство над конкурентами, включая нашумевшую китайскую R1 от DeepSeek. Флагманская модель o3-mini показала точность 78,33%, в то время как R1 смогла достичь лишь 65% успешных решений.

Особенно интригующим выглядит сравнение с заявленными показателями 2024 года. Модель o3-mini незначительно снизила результат с 87,3% до 78,33%, сохранив при этом лидерство. А вот o1 даже улучшила свои показатели – с 74,4% до 76,67%. Настоящим разочарованием стало выступление R1, чьи результаты упали с заявленных 79,8% до 65%.

Тестирование проводилось по строгой методике: каждая модель решала каждую из 15 задач по четыре раза независимо от предыдущих попыток. При этом выяснилось, что минимум 3 задачи уже были доступны в интернете, что ставит под сомнение полную чистоту эксперимента.

Еще более показательным стало падение результатов дистиллированной версии R1-Qwen-14b – с 69,7% до 50%. Эксперты отмечают, что хотя эти данные и не являются окончательным доказательством лучшей генерализации моделей OpenAI, они определенно указывают на серьезное преимущество американской компании в создании действительно мыслящих систем.

Вторая часть олимпиады AIME, включающая еще 15 задач, состоится 12 февраля. Эксперты с нетерпением ждут новых результатов, которые могут окончательно расставить точки в споре о превосходстве различных подходов к созданию искусственного интеллекта.