Google DeepMind представила Aletheia — агента для математических доказательств. Он набрал 91,9% на IMO-ProofBench Advanced. Это новый рекорд. Один из самых жестких публичных тестов на доказательства в стиле Международной математической олимпиады.
У Aletheia движок Gemini Deep Think. Процесс решения состоит из трех чередующихся этапов. Генерация решений, верификация, корректировки. Агент показывает лучшие результаты с более низкими затратами на вычисления по сравнению с новейшей версией Gemini Deep Think Advanced.
Узнать подробнее про клуб ShareAI
Помимо бенчмарков модель уже решила четыре формально открытых задачи из списка Эрдеша. Одна из них, судя по всему, действительно не была закрыта ни в какой литературе до этого.
Также Aletheia автономно написала статью с правильными математическими результатами. В режиме ассистента работала с математиками и помогала в написании не-игрушечных научных работ.
Google подчеркивает, что Aletheia — живой пруф работы законов масштабирования. Даже на доказательной математике — непростом домене — качество продолжает расти предсказуемо благодаря правильной агентной обвязке.
Более того, более умные циклы дают возможность получить больше качества за меньшую стоимость.
Рекорд 91,9% на IMO-ProofBench Advanced ставит Aletheia на вершину среди публичных систем для математических доказательств. Предыдущие лучшие результаты были значительно ниже.
Три этапа процесса создают цикл самопроверки и улучшения. Генерация дает первоначальное решение. Верификация проверяет правильность. Корректировки исправляют ошибки. Цикл повторяется до получения верного доказательства.
Решение задач из списка Эрдеша — серьезное достижение. Эти задачи десятилетиями остаются нерешенными в математическом сообществе. Закрытие хотя бы одной новой задачи показывает силу подхода.
Автономное написание статьи с правильными результатами демонстрирует способность не просто решать задачи, но и формулировать выводы в научном формате. Это шаг к полноценному научному сотворчеству.
Работа в режиме ассистента с математиками подтверждает практическую ценность. Помощь в не-игрушечных научных работах означает применение к реальным исследовательским проблемам.
Подтверждение законов масштабирования в доказательной математике важно для понимания границ ИИ. Если качество растет предсказуемо даже в такой сложной области, это дает уверенность в дальнейшем прогрессе.
Получение большего качества за меньшую стоимость через умные циклы меняет экономику применения ИИ в науке. Не нужно просто увеличивать мощность — достаточно правильно организовать процесс.

