PHYBench: ИИ пока уступает людям в понимании физических задач

Группа из более чем 200 студентов и преподавателей Пекинского университета, включая золотых медалистов международных олимпиад, разработала и представила PHYBench — первый масштабный тест, специально созданный для оценки способностей больших языковых моделей (LLM) в решении физических задач.

Но даже самые продвинутые ИИ-модели продемонстрировали значительное отставание от человеческих экспертов. Так, одна из наиболее совершенных современных моделей — Gemini 2.5 Pro от Google — смогла правильно решить лишь 36,9% из 500 тестовых задач. Для сравнения, студенты, принимавшие участие в исследовании, показали результат в 61,9% правильных ответов.

PHYBench представляет собой уникальный набор из 500 тщательно отобранных задач по физике, охватывающих различные области от механики и электромагнетизма до термодинамики, оптики и современной физики. Тест включает как базовые задачи уровня старшей школы, так и сложные олимпиадные проблемы университетского уровня.

Ключевая инновация PHYBench — использование специально разработанного метода оценки EED Score (Expression Edit Distance), который позволяет не только фиксировать правильность конечного ответа, но и оценивать качество логических рассуждений в процессе решения. Благодаря этому тест измеряет две критические способности: физическое восприятие (PP) — понимание условия задачи и выделение релевантных физических концепций, и устойчивое рассуждение (RR) — способность последовательно применять физические законы для получения верного решения.

Анализ ошибок показал, что ИИ испытывает трудности на обоих этапах решения задач: и при распознавании условий, и при построении логически корректной цепочки рассуждений. Исследователи отмечают, что даже современные модели с расширенными возможностями рассуждения не обладают целостным пониманием физических законов и принципов, что приводит к непоследовательности в их решениях.

По мнению экспертов, результаты PHYBench имеют важное значение для будущего развития искусственного интеллекта. Они подчеркивают необходимость разработки более совершенных методов обучения моделей сложным рассуждениям, требующим не только запоминания фактов, но и глубокого понимания взаимосвязей между различными концепциями.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.