Google DeepMind создал ИИ-математика Aletheia с рекордом 91,9%

Google DeepMind представила Aletheia — агента для математических доказательств. Он набрал 91,9% на IMO-ProofBench Advanced. Это новый рекорд. Один из самых жестких публичных тестов на доказательства в стиле Международной математической олимпиады.

У Aletheia движок Gemini Deep Think. Процесс решения состоит из трех чередующихся этапов. Генерация решений, верификация, корректировки. Агент показывает лучшие результаты с более низкими затратами на вычисления по сравнению с новейшей версией Gemini Deep Think Advanced.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Помимо бенчмарков модель уже решила четыре формально открытых задачи из списка Эрдеша. Одна из них, судя по всему, действительно не была закрыта ни в какой литературе до этого.

Также Aletheia автономно написала статью с правильными математическими результатами. В режиме ассистента работала с математиками и помогала в написании не-игрушечных научных работ.

Google подчеркивает, что Aletheia — живой пруф работы законов масштабирования. Даже на доказательной математике — непростом домене — качество продолжает расти предсказуемо благодаря правильной агентной обвязке.

Более того, более умные циклы дают возможность получить больше качества за меньшую стоимость.

Рекорд 91,9% на IMO-ProofBench Advanced ставит Aletheia на вершину среди публичных систем для математических доказательств. Предыдущие лучшие результаты были значительно ниже.

Три этапа процесса создают цикл самопроверки и улучшения. Генерация дает первоначальное решение. Верификация проверяет правильность. Корректировки исправляют ошибки. Цикл повторяется до получения верного доказательства.

Решение задач из списка Эрдеша — серьезное достижение. Эти задачи десятилетиями остаются нерешенными в математическом сообществе. Закрытие хотя бы одной новой задачи показывает силу подхода.

Автономное написание статьи с правильными результатами демонстрирует способность не просто решать задачи, но и формулировать выводы в научном формате. Это шаг к полноценному научному сотворчеству.

Работа в режиме ассистента с математиками подтверждает практическую ценность. Помощь в не-игрушечных научных работах означает применение к реальным исследовательским проблемам.

Подтверждение законов масштабирования в доказательной математике важно для понимания границ ИИ. Если качество растет предсказуемо даже в такой сложной области, это дает уверенность в дальнейшем прогрессе.

Получение большего качества за меньшую стоимость через умные циклы меняет экономику применения ИИ в науке. Не нужно просто увеличивать мощность — достаточно правильно организовать процесс.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.