OpenAI запускает программу создания новых бенчмарков

OpenAI объявила о запуске амбициозной программы по полному переосмыслению способов оценки ИИ-моделей. Компания считает существующие методы тестирования неэффективными и готовится радикально изменить ситуацию.

Программа OpenAI Pioneers нацелена на создание принципиально новых отраслевых стандартов оценки ИИ-систем. OpenAI создаст специализированные тесты для конкретных областей — юриспруденции, финансов, страхования, здравоохранения и бухгалтерского учета. И будет сотрудничать с множеством организаций для разработки таких бенчмарков.

Большинство популярных тестов измеряет эффективность на абстрактных задачах, вроде решения математических проблем докторского уровня, при этом многие бенчмарки можно обойти, а их результаты часто не соответствуют реальным потребностям пользователей.

Первая волна программы сфокусируется на работе со стартапами, которые помогут заложить фундамент OpenAI Pioneers. Участники программы получат уникальную возможность работать с командой OpenAI над улучшением моделей через reinforcement fine tuning — технологию оптимизации моделей под конкретные задачи.

Однако в профессиональном сообществе уже появились сомнения — примет ли рынок бенчмарки, созданные при финансировании OpenAI? Несмотря на то, что компания и раньше поддерживала различные инициативы по оценке ИИ, партнерство с клиентами для создания тестов может вызвать серьезные этические вопросы.