Ученые из трех американских университетов провели масштабный тест AI-моделей. Они проверили, как нейросети справляются с экзаменом CFA — одной из самых сложных квалификаций в финансах. Результаты показали резкий скачок в возможностях искусственного интеллекта.
В эксперименте участвовали шесть моделей рассуждений. Их проверили на 980 вопросах из трех уровней экзамена. Все модели прошли тест. Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 справились со всеми уровнями.
Узнать подробнее про клуб ShareAI
Для сравнения: в 2023 году ChatGPT 3.5 провалил первые два уровня. GPT-4 смог пройти только первый уровень. Только GPT-4o справился со всеми тремя частями экзамена.
Первый уровень включал 540 вопросов с выбором ответа. Здесь Gemini 3.0 Pro показала лучший результат — 97.6%. GPT-5 набрала 96.1%. Gemini 2.5 Pro получила 95.7%. Даже самая слабая модель в тесте, DeepSeek-V3.1, показала 90.9%.
Второй уровень состоял из 176 вопросов на основе конкретных примеров. Тут лидировала GPT-5 с результатом 94.3%. Gemini 3.0 Pro набрала 93.2%. Gemini 2.5 Pro получила 92.6%. Исследователи назвали эти показатели почти идеальными.
Однако у моделей обнаружилась слабость. Этические вопросы вызвали больше всего проблем. Даже лучшие модели ошибались там в 17-21% случаев.
Третий уровень оказался самым сложным. Он включал 264 вопроса двух типов — с выбором ответа и с развернутым ответом. В вопросах первого типа лучше всех справилась Gemini 2.5 Pro — 86.4%. В открытых вопросах победила Gemini 3.0 Pro с результатом 92.0%. Это на 9.2% больше, чем у предыдущей версии.
Исследование проводили специалисты из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины. Они использовали официальные материалы CFA Institute для первых двух уровней. Для третьего уровня взяли пробные экзамены AnalystPrep.
Открытые ответы оценивала модель o4-mini. Это может приводить к ошибкам, так как система может завышать оценки за более подробные ответы.
Критерии прохождения были строгими. На первом уровне нужно набрать минимум 60% по каждой теме и 70% в целом. На втором — 50% по темам и 60% в целом. На третьем — средний балл не ниже 63%.
Ученые считают, что результаты показывают серьезный прогресс. Модели превзошли уровень знаний финансовых аналитиков начального и среднего звена. Возможно, скоро они достигнут уровня старших аналитиков.
Но есть важная оговорка. Успех на экзамене не равен способности выполнять реальную работу. Финансовый аналитик общается с клиентами, оценивает настроения рынка, принимает решения при неполных данных. Тест проверяет только знания, а не умение применять их в меняющихся условиях.

