OpenAI заявляет о паритете GPT-5 с человеческими экспертами

OpenAI представила новый бенчмарк GDPval для тестирования производительности ИИ-моделей в сравнении с человеческими профессионалами из разных отраслей. Компания заявила, что GPT-5 и Claude Opus 4.1 от Anthropic приближаются к качеству работы отраслевых экспертов.

Тест основан на девяти отраслях с наибольшим вкладом в ВВП США. Среди них здравоохранение, финансы, производство и государственное управление. Бенчмарк охватывает 44 профессии от программных инженеров до медсестер и журналистов.

В первой версии GDPval-v0 опытные профессионалы сравнивали отчеты, созданные ИИ, с работами других специалистов и выбирали лучший вариант. Например, инвестиционным банкирам предлагалось создать анализ конкурентов в сфере доставки последней мили и сравнить с ИИ-отчетами. OpenAI подсчитывала процент побед ИИ-модели против человеческих работ по всем 44 профессиям.

GPT-5-high, улучшенная версия GPT-5 с дополнительными вычислительными мощностями, оказался лучше или на уровне экспертов в 40,6% случаев. Claude Opus 4.1 показал превосходство или паритет с профессионалами в 49% задач. OpenAI объясняет высокие результаты Claude склонностью создавать привлекательную графику, а не реальной производительностью.

Результаты не означают немедленную замену людей на рабочих местах. OpenAI признает, что GDPval покрывает ограниченное число задач из реальной работы людей. Несмотря на прогнозы некоторых руководителей о замещении ИИ человеческих рабочих мест в ближайшие годы, текущий тест остается одним из способов измерения прогресса ИИ к этой цели.