OpenAI объявила о запуске амбициозной программы по полному переосмыслению способов оценки ИИ-моделей. Компания считает существующие методы тестирования неэффективными и готовится радикально изменить ситуацию.
Программа OpenAI Pioneers нацелена на создание принципиально новых отраслевых стандартов оценки ИИ-систем. OpenAI создаст специализированные тесты для конкретных областей — юриспруденции, финансов, страхования, здравоохранения и бухгалтерского учета. И будет сотрудничать с множеством организаций для разработки таких бенчмарков.
Узнать подробнее про клуб ShareAI
Большинство популярных тестов измеряет эффективность на абстрактных задачах, вроде решения математических проблем докторского уровня, при этом многие бенчмарки можно обойти, а их результаты часто не соответствуют реальным потребностям пользователей.
Первая волна программы сфокусируется на работе со стартапами, которые помогут заложить фундамент OpenAI Pioneers. Участники программы получат уникальную возможность работать с командой OpenAI над улучшением моделей через reinforcement fine tuning — технологию оптимизации моделей под конкретные задачи.
Однако в профессиональном сообществе уже появились сомнения — примет ли рынок бенчмарки, созданные при финансировании OpenAI? Несмотря на то, что компания и раньше поддерживала различные инициативы по оценке ИИ, партнерство с клиентами для создания тестов может вызвать серьезные этические вопросы.