Anthropic выпустила Claude Fable 5, и первые результаты на FrontierMath говорят сами за себя. На самом сложном уровне теста (тир 4) модель набрала 88% — на 13 процентных пунктов больше, чем GPT-5.5 от OpenAI, который остановился на 75%.
FrontierMath — это бенчмарк от исследовательской организации Epoch AI, составленный из задач уровня профессиональных математиков. Туда намеренно не включают ничего, что ИИ мог бы решить наизусть.
Важен контекст: ещё в начале 2026 года предыдущий флагман Anthropic — Opus 4.5 — набирал на четвёртом тире меньше 10%. Fable 5 за несколько месяцев поднял этот показатель до 88%. Темп улучшений в математике продолжает расти.
На тирах с первого по третий Fable 5 показывает 87% — примерно на том же уровне. Все модели тестировались на стандартном стенде Epoch AI с максимальными настройками логического вывода.
Реальные примеры за пределами бенчмарков тоже продолжают накапливаться. Недавно модель OpenAI решила давнюю задачу Эрдёша — нерешённую проблему из комбинаторики, над которой математики работали десятилетиями. Claude Mythos сделал то же самое независимо.
OpenAI уже разрабатывает GPT-5.6. Пока же разрыв в 13 пунктов на самом сложном уровне остаётся за Anthropic.