Исследователи доказали важность «времени на размышление» для точности ИИ

Исследователи из Университета Джонса Хопкинса совершили прорыв в понимании того, как работает ИИ. Обнаружив, что если предоставить ИИ-системам больше времени на анализ информации, они значительно точнее определяют, когда способны дать правильный ответ, а когда — нет. Ситуация настолько значима, что ученые разработали принципиально новую систему оценки, устраняющую недостатки существующих методов тестирования ИИ.

Традиционные подходы к оценке исходят из предположения, что модели искусственного интеллекта всегда должны давать ответ, независимо от уровня их достоверности. Исследовательская группа убеждена, что такая практика абсолютно не отражает реальные сценарии, где неверные ответы могут привести к серьезным последствиям.

Для проверки своей гипотезы команда протестировала две продвинутые языковые модели — DeepSeek R1-32B и s1-32B. Эксперименты проводились на 30 сложных математических задачах из набора данных AIME24 при различных условиях. Исследователи варьировали доступное время вычислений (в частности, количество токенов для рассуждений) и наблюдали за поведением моделей при разных пороговых значениях уверенности.

Результаты показали не только ожидаемое повышение точности с увеличением «времени на обдумывание», но и качественно новый эффект — модели стали существенно лучше понимать собственные ограничения. Благодаря дополнительному времени на обработку данных искусственный интеллект научился более точно определять, на какие вопросы он может уверенно ответить, а на какие — нет.

В исследовании учитывались три разных сценария риска: «Шансы на экзамене» без штрафов за неправильные ответы, «Шансы в игре» с равным весом вознаграждений и штрафов, и «Шансы с высокими ставками» с серьезными штрафами за ошибки в ситуациях, требующих принятия критически важных решений.

Особенно интересным оказалось выявленное различие между протестированными моделями: хотя в стандартных условиях обе показали сходные результаты, DeepSeek R1-32B продемонстрировал значительно лучшие показатели при более строгих требованиях к достоверности — разница, которую удалось выявить только с помощью новой системы тестирования.

Исследователи признают, что их метод измерения достоверности, основанный исключительно на вероятностях токенов, может не учитывать все аспекты неопределенности модели. Они также отмечают ограничения исследования: сосредоточившись на математических задачах на английском языке, они могли упустить важные различия в других областях и на других языках.

Команда рекомендует в будущем оценивать работу по масштабированию времени тестирования как в условиях «Шансов на экзамене», так и в условиях «Шансов на опасность», что позволит более полно понять возможности современных систем искусственного интеллекта.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.