Epoch AI прояснила детали создания теста FrontierMath для оценки ИИ

Исследовательская организация Epoch AI опубликовала разъяснение о своём сотрудничестве с OpenAI. В создании теста FrontierMath, предназначенного для оценки математических способностей передовых ИИ-моделей. OpenAI заказала у Epoch AI разработку 300 продвинутых математических задач для оценки ИИ.

По условиям контракта OpenAI владеет этими вопросами и имеет доступ к задачам и решениям, за исключением особого набора из 50 задач. При этом Epoch AI может проводить и публиковать оценки любых моделей, используя FrontierMath, но не может делиться вопросами и ответами с другими сторонами без письменного разрешения OpenAI. Также финализируется набор из 50 задач, для которых OpenAI получит только формулировки, но не решения, что позволит независимо тестировать модели.

Организация признала недостаточную прозрачность в коммуникации об отношениях с OpenAI, что вызвало вопросы среди участников, исследователей и общественности. Многие участники не знали о деталях сотрудничества, и коммуникация с ними должна была быть более систематической и прозрачной.

OpenAI заказала у Epoch AI дополнительную работу по расширению FrontierMath ещё более сложными математическими задачами. В будущем организация обещает улучшить практику раскрытия информации о спонсорстве и соглашениях о доступе к данным с самого начала. Также Epoch AI связывается индивидуально с математиками-участниками, чтобы ответить на их вопросы и concerns.