ChatGPT o3 лидирует в новом научном рейтинге SciArena

ChatGPT o3 занял первую позицию в рейтинге искусственного интеллекта, ориентированного на научные задачи, согласно данным новой оценочной платформы SciArena от Allen Institute. Система получила 1172 балла, опередив ближайших конкурентов: Claude Opus 4 (1080 баллов), Gemini 2.5 Pro (1063 балла), DeepSeek R1-0528 (1062 балла) и ChatGPT o4-mini (1054 балла).

Платформа SciArena создана для оценки эффективности различных моделей искусственного интеллекта при решении специализированных научных задач. Ее концепция схожа с Chatbot Arena, но адаптирована для профессионального научного контекста.

Доступ к платформе предоставляется исключительно ученым, имеющим не менее двух научных публикаций. Перед началом тестирования участники проходят обязательный часовой инструктаж.

Методология оценки построена на прямом сравнении. Когда ученый формулирует вопрос, система автоматически подбирает релевантные научные публикации из базы данных Semantic Scholar.

Эта информация передается двум случайно выбранным ИИ-моделям, которые формируют развернутые ответы на основе предоставленных материалов и собственных алгоритмических знаний.

Исследователь оценивает оба ответа одновременно и голосует за наиболее качественный, при этом названия моделей раскрываются только после завершения голосования.

Разработчики подчеркивают, что рейтинг SciArena ориентирован на профессиональное научное сообщество, а не на массового пользователя, интересующегося наукой.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.