Epoch AI прояснила детали создания теста FrontierMath для оценки ИИ

Исследовательская организация Epoch AI опубликовала разъяснение о своём сотрудничестве с OpenAI. В создании теста FrontierMath, предназначенного для оценки математических способностей передовых ИИ-моделей. OpenAI заказала у Epoch AI разработку 300 продвинутых математических задач для оценки ИИ.

По условиям контракта OpenAI владеет этими вопросами и имеет доступ к задачам и решениям, за исключением особого набора из 50 задач. При этом Epoch AI может проводить и публиковать оценки любых моделей, используя FrontierMath, но не может делиться вопросами и ответами с другими сторонами без письменного разрешения OpenAI. Также финализируется набор из 50 задач, для которых OpenAI получит только формулировки, но не решения, что позволит независимо тестировать модели.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Организация признала недостаточную прозрачность в коммуникации об отношениях с OpenAI, что вызвало вопросы среди участников, исследователей и общественности. Многие участники не знали о деталях сотрудничества, и коммуникация с ними должна была быть более систематической и прозрачной.

OpenAI заказала у Epoch AI дополнительную работу по расширению FrontierMath ещё более сложными математическими задачами. В будущем организация обещает улучшить практику раскрытия информации о спонсорстве и соглашениях о доступе к данным с самого начала. Также Epoch AI связывается индивидуально с математиками-участниками, чтобы ответить на их вопросы и concerns.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Epoch AI прояснила детали создания теста FrontierMath для оценки ИИ