Новый бенчмарк Prophet Arena оценивает прогнозы ИИ

Запущен новый бенчмарк Prophet Arena, который проверяет способности искусственного интеллекта предсказывать будущие события. В отличие от традиционных тестов, этот подход оценивает модели на еще не произошедших событиях.

Система работает по принципу реального прогнозирования. ИИ-агенты самостоятельно собирают информацию из новостных источников и интернет-данных, после чего формулируют свои предсказания. Когда события происходят в действительности, система подсчитывает результаты по двум показателям - средний доход от ставок на события и статистическая точность по шкале Брайера.

Текущий рейтинг возглавляет GPT-5, на втором месте располагается o3, третью позицию занимает Gemini 2.5 Pro. Отдельно отмечается успех “Симпсонов”, получивших гран-при в соревновании. По показателю средней доходности лидирует модель o3-mini.

Разработчики отмечают важное преимущество такого подхода - невозможность утечки данных, поскольку тестирование проводится на событиях, которые еще не произошли.

Кроме того, тест не может быть “перенасыщен” готовыми ответами, так как в мире постоянно происходят новые события.

В процессе тестирования обнаружились особенности поведения разных моделей. Некоторые ИИ демонстрируют склонность к консервативным решениям, другие проявляют более рисковый подход к прогнозированию.

Такое тестирование позволяет оценить не только точность предсказаний, но и стратегическое мышление, способность устанавливать причинно-следственные связи и анализировать вероятности событий.