Запущен новый бенчмарк Prophet Arena, который проверяет способности искусственного интеллекта предсказывать будущие события. В отличие от традиционных тестов, этот подход оценивает модели на еще не произошедших событиях.
Система работает по принципу реального прогнозирования. ИИ-агенты самостоятельно собирают информацию из новостных источников и интернет-данных, после чего формулируют свои предсказания. Когда события происходят в действительности, система подсчитывает результаты по двум показателям — средний доход от ставок на события и статистическая точность по шкале Брайера.
Узнать подробнее про клуб ShareAI
Текущий рейтинг возглавляет GPT-5, на втором месте располагается o3, третью позицию занимает Gemini 2.5 Pro. Отдельно отмечается успех «Симпсонов», получивших гран-при в соревновании. По показателю средней доходности лидирует модель o3-mini.
Разработчики отмечают важное преимущество такого подхода — невозможность утечки данных, поскольку тестирование проводится на событиях, которые еще не произошли.
Кроме того, тест не может быть «перенасыщен» готовыми ответами, так как в мире постоянно происходят новые события.
В процессе тестирования обнаружились особенности поведения разных моделей. Некоторые ИИ демонстрируют склонность к консервативным решениям, другие проявляют более рисковый подход к прогнозированию.
Такое тестирование позволяет оценить не только точность предсказаний, но и стратегическое мышление, способность устанавливать причинно-следственные связи и анализировать вероятности событий.